このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230507となっている論文です。

PDF登録状況(公開日: 20230507)

TitleAuthorsAbstract論文公表日・翻訳日
# 損失耐性伝送プロトコルによる分散機械学習トレーニングの促進

Boosting Distributed Machine Learning Training Through Loss-tolerant Transmission Protocol ( http://arxiv.org/abs/2305.04279v1 )

ライセンス: Link先を確認
Zixuan Chen, Lei Shi, Xuandong Liu, Xin Ai, Sen Liu, and Yang Xu(参考訳) 分散機械学習(DML)システムは、データセンター(DC)とエッジノードにおけるモデルトレーニングのスピードを高めるために使用される。 パラメータサーバ(PS)通信アーキテクチャは一般的に使用されるが、多対一の"インキャスト"トラフィックパターンによって引き起こされる非常に長いレイテンシに直面し、トレーニングスループットに悪影響を及ぼす。 この課題に対処するために、不要な再送を回避するために同期中の勾配の部分的損失を許容し、反復毎の高速化に寄与する、textbf{L}oss-tolerant \textbf{T}ransmission \textbf{P}rotocol (LTP) を設計する。 LTP は \textit{out-of-order transmission} と \textit{out-of-order Acknowledges (ACKs)} を通じてロス耐性伝送を実装している。 LTPは、ネットワーク条件に基づいて損失耐性閾値を調整するために \textit{Early Close} と、トレーニング精度を維持するためにデータ修正に \textit{Bubble Filling} を使用している。 LTPはC++で実装され、PyTorchに統合されている。 8つのワーカノードと1つのPSノードによるテストベッドの評価は、LCPがDMLトレーニングタスクのスループットを従来のTCPの混雑制御に比べて最大30倍向上し、最終的な精度を犠牲にすることなく向上できることを示した。

Distributed Machine Learning (DML) systems are utilized to enhance the speed of model training in data centers (DCs) and edge nodes. The Parameter Server (PS) communication architecture is commonly employed, but it faces severe long-tail latency caused by many-to-one "incast" traffic patterns, negatively impacting training throughput. To address this challenge, we design the \textbf{L}oss-tolerant \textbf{T}ransmission \textbf{P}rotocol (LTP), which permits partial loss of gradients during synchronization to avoid unneeded retransmission and contributes to faster synchronization per iteration. LTP implements loss-tolerant transmission through \textit{out-of-order transmission} and \textit{out-of-order Acknowledges (ACKs)}. LTP employs \textit{Early Close} to adjust the loss-tolerant threshold based on network conditions and \textit{Bubble Filling} for data correction to maintain training accuracy. LTP is implemented by C++ and integrated into PyTorch. Evaluations on a testbed of 8 worker nodes and one PS node demonstrate that LTP can significantly improve DML training task throughput by up to 30x compared to traditional TCP congestion controls, with no sacrifice to final accuracy.
翻訳日:2023-10-24 12:15:20 公開日:2023-05-07
# リバースエンジニアリングによるバイオインフォマティクスソフトの文書化

Documenting Bioinformatics Software Via Reverse Engineering ( http://arxiv.org/abs/2305.04349v1 )

ライセンス: Link先を確認
Vinicius Soares Silva Marques, Laurence Rodrigues do Amaral(参考訳) ドキュメンテーションはソフトウエアエンジニアリングで最も無視された活動の1つだが、品質と理解を保証する重要な方法である。 バイオインフォマティクスソフトウェアは一般に、通常ドキュメントを提供しないコンピュータサイエンス以外の分野の研究者によって書かれた。 バイオインフォマティクスソフトウェアをドキュメント化することで、複数の分野のチームでの採用が容易になり、コミュニティへの影響が拡大する可能性がある。 本稿では,すでに完成しているソフトウェアをリバースエンジニアリングとエンドユーザの思考を用いて文書化する方法について述べる。

Documentation is one of the most neglected activities in Software Engineering, although it is an important method of assuring quality and understanding. Bioinformatics software is generally written by researchers from fields other than Computer Science who usually do not provide documentation. Documenting bioinformatics software may ease its adoption in multidisciplinary teams and expand its impact on the community. In this paper, we highlight how one can document software that is already finished, using reverse engineering and thinking of the end-user.
翻訳日:2023-10-24 12:05:52 公開日:2023-05-07
# サーバーレスコンピューティングのパフォーマンスの再検討:分散分析

Revisiting the Performance of Serverless Computing: An Analysis of Variance ( http://arxiv.org/abs/2305.04309v1 )

ライセンス: Link先を確認
Jinfeng Wen, Zhenpeng Chen, Federica Sarro, Xuanzhe Liu(参考訳) サーバレスコンピューティングは、ソフトウェアエンジニアが関数の粒度(サーバレス機能と呼ばれる)でアプリケーションを開発することを可能にする、新たなクラウドコンピューティングパラダイムである。 しかしながら、同じサーバレス関数の複数の同一実行は、これらの関数が実行される非常にダイナミックな基盤環境のため、異なるパフォーマンス(すなわち応答レイテンシ)を示すことができる。 我々は、サーバーレス機能性能を研究するための最初の研究を行い、研究者間の差異に対する意識を高める。 トップレベルのカンファレンスで発表された59の関連研究論文を調査し、サーバレス機能のパフォーマンスのばらつきを定量化するために複数の実行を使用しているのは40.68%に過ぎません。 次に、これらの論文で使用される65のサーバレス関数を抽出し、これらのサーバレス関数のパフォーマンスが338.76%(平均44.15%)まで異なることを発見し、大きなばらつきを示している。 さらに、これらの関数の61.54%は、サーバーレスコンピューティングの文献で広く採用されている、低い回数の繰り返しにおいて、信頼性の低いパフォーマンス結果が得られる。

Serverless computing is an emerging cloud computing paradigm, which allows software engineers to develop applications at the granularity of function (called serverless functions). However, multiple identical runs of the same serverless functions can show different performance (i.e., response latencies) due to the highly dynamic underlying environment where these functions are executed. We conduct the first work to study serverless function performance to raise awareness of this variance among researchers. We investigate 59 related research papers published in top-tier conferences, and observe that only 40.68% of them use multiple runs to quantify the variance of serverless function performance. Then we extract 65 serverless functions used in these papers and find that the performance of these serverless functions can differ by up to 338.76% (44.15% on average), indicating a large magnitude of the variance. Furthermore, we find that 61.54% of these functions can have unreliable performance results at the low number of repetitions that are widely adopted in the serverless computing literature.
翻訳日:2023-10-24 12:05:26 公開日:2023-05-07
# ソフトウェア機能の進化における重要な内部品質特性の関連性について

On the perceived relevance of critical internal quality attributes when evolving software features ( http://arxiv.org/abs/2305.04301v1 )

ライセンス: Link先を確認
Eduardo Fernandes and Marcos Kalinowski(参考訳) ソフトウェア機能の進化中に行われたいくつかのリファクタリングは、凝集や複雑性といった内部品質特性を改善することを目的としている。 実際、内部の属性は、その測定が異常な値を仮定する場合に重要になる。 しかし、現在の知識は、開発者が機能を進化させながら、重要な内部属性の関連性をどう認識するかに乏しい。 この質的研究は、進化する機能における重要な内部属性の関連性に対する開発者の認識を調査します。 低凝集度,高複雑性,高結合度,大階層深度,大階層幅,大サイズの6つのクラスレベルクリティカル属性をターゲットにした。 オンラインフォーカスグループセッションに基づく2つの産業事例研究を行った。 開発者は、機能の追加や拡張において重要な属性がどの程度(そしてなぜ)重要かについて議論した。 臨界属性の相対的関連性,各臨界属性の関連性の背後にある要因,および臨界属性の相互関係について検討した。 低い凝集性と高い複雑さは、しばしば障害を追跡し、機能を追加しながら進化する機能を困難にするため、非常に重要視されていた。 その他の重要な属性は、コード再利用やデザインパターンの採用において、あまり関係がないと見なされた。 相互関係が知覚される例は、高い結合をもたらす高い複雑性である。

Several refactorings performed while evolving software features aim to improve internal quality attributes like cohesion and complexity. Indeed, internal attributes can become critical if their measurements assume anomalous values. Yet, current knowledge is scarce on how developers perceive the relevance of critical internal attributes while evolving features. This qualitative study investigates the developers' perception of the relevance of critical internal attributes when evolving features. We target six class-level critical attributes: low cohesion, high complexity, high coupling, large hierarchy depth, large hierarchy breadth, and large size. We performed two industrial case studies based on online focus group sessions. Developers discussed how much (and why) critical attributes are relevant when adding or enhancing features. We assessed the relevance of critical attributes individually and relatively, the reasons behind the relevance of each critical attribute, and the interrelations of critical attributes. Low cohesion and high complexity were perceived as very relevant because they often make evolving features hard while tracking failures and adding features. The other critical attributes were perceived as less relevant when reusing code or adopting design patterns. An example of perceived interrelation is high complexity leading to high coupling.
翻訳日:2023-10-24 12:05:10 公開日:2023-05-07
# 外界および自由(2+1)空間におけるグラフェン電子のFoldy-Wouthuysen変換とマルチウェーブ状態

Foldy-Wouthuysen transformation and multiwave states of a graphene electron in external fields and free (2+1)-space ( http://arxiv.org/abs/2305.11879v1 )

ライセンス: Link先を確認
Alexander J. Silenko(参考訳) 相対論的折り畳み変換は、外部場と自由(2+1)-空間における平面グラフェン電子の高度な記述に用いられる。 最初のディラック方程式は通常のディラック行列を含むべきであるが、パウリ方程式は含まない。 グラフェン電子のスピンは同位体スピンではなく、値は$\pm1/2$である。 均一および非一様磁場におけるグラフェン電子の正確なFoldy-Wouthuysen Hamiltonianが導出される。 実験データと正確なFoldy-Wouthuysen波固有関数に一致する正確なエネルギースペクトルを得る。 これらの固有関数は (2+1)-空間の多重波状態を記述する。 エルミート・ガウスビームは自由空間にさえ存在することが証明されている。 多波長ヘルマイト・ガウス状態において、グラフェン電子は量子数に依存する非零有効質量を獲得し、フェルミ速度よりも小さい群速度で移動する。 静電場中のグラフェン電子は、非拡散コヒーレントビームを定義する多波長ヘルミテ-ガウス状態にも存在する。 これらのビームは加速および減速することができる。

The relativistic Foldy-Wouthuysen transformation is used for an advanced description of planar graphene electrons in external fields and free (2+1)-space. It is shown that the initial Dirac equation should contain usual Dirac matrices but not the Pauli ones. The spin of graphene electrons is not the isotopic spin and takes the values $\pm1/2$. The exact Foldy-Wouthuysen Hamiltonian of a graphene electron in uniform and nonuniform magnetic fields is derived. The exact energy spectrum agreeing with experimental data and exact Foldy-Wouthuysen wave eigenfunctions are obtained. These eigenfunctions describe multiwave (structured) states in (2+1)-space. It is proven that the Hermite-Gauss beams exist even in the free space. In the multiwave Hermite-Gauss states, graphene electrons acquire nonzero effective masses dependent on a quantum number and move with group velocities which are less than the Fermi velocity. Graphene electrons in a static electric field also can exist in the multiwave Hermite-Gauss states defining non-spreading coherent beams. These beams can be accelerated and decelerated.
翻訳日:2023-05-28 05:29:11 公開日:2023-05-07
# プログレッシブタスクコンテキスト化によるマルチエージェント連続コーディネーション

Multi-agent Continual Coordination via Progressive Task Contextualization ( http://arxiv.org/abs/2305.13937v1 )

ライセンス: Link先を確認
Lei Yuan, Lihe Li, Ziqian Zhang, Fuxiang Zhang, Cong Guan, Yang Yu(参考訳) 協調型マルチエージェント強化学習(MARL)は,多くの実世界の応用において大きな注目を集めている。 それまでの芸術は、主に単一タスクやマルチタスクシナリオにおける異なる側面(例えば、非定常性、クレジット割り当て)から調整能力の促進に重点を置いており、連続的な方法で現れるタスクの流れを無視している。 この無知は、問題を定式化したり、効率的なアルゴリズムを設計したりすることなく、継続的な協調を未開拓領域にする。 本稿では,この課題に対処するために,MACProと呼ばれるプログレッシブタスクコンテキスト化によるマルチエージェント連続コーディネートを提案する。 重要なのは、共有機能抽出レイヤを使用して、独立したタスクヘッドを分離して、それぞれが特定のタスクのクラスを専門とする、ファクタ化されたポリシを取得することだ。 学習したタスクコンテキスト化に基づいてタスクヘッドを段階的に拡張することができる。 さらに、MARLの一般的なCTDEパラダイムに対応するために、各エージェントは、ローカル情報に基づいて最も関連するポリシーヘッドを分散的に予測し、採用することを学ぶ。 マルチエージェントベンチマークでは,既存の連続学習手法が失敗し,macproは最適に近いパフォーマンスを達成できることを示す。 さらなる結果は、高一般化能力のような複数の側面からMACProの有効性も明らかにしている。

Cooperative Multi-agent Reinforcement Learning (MARL) has attracted significant attention and played the potential for many real-world applications. Previous arts mainly focus on facilitating the coordination ability from different aspects (e.g., non-stationarity, credit assignment) in single-task or multi-task scenarios, ignoring the stream of tasks that appear in a continual manner. This ignorance makes the continual coordination an unexplored territory, neither in problem formulation nor efficient algorithms designed. Towards tackling the mentioned issue, this paper proposes an approach Multi-Agent Continual Coordination via Progressive Task Contextualization, dubbed MACPro. The key point lies in obtaining a factorized policy, using shared feature extraction layers but separated independent task heads, each specializing in a specific class of tasks. The task heads can be progressively expanded based on the learned task contextualization. Moreover, to cater to the popular CTDE paradigm in MARL, each agent learns to predict and adopt the most relevant policy head based on local information in a decentralized manner. We show in multiple multi-agent benchmarks that existing continual learning methods fail, while MACPro is able to achieve close-to-optimal performance. More results also disclose the effectiveness of MACPro from multiple aspects like high generalization ability.
翻訳日:2023-05-28 05:00:15 公開日:2023-05-07
# マルチビューメッセージ認証によるロバストマルチエージェント通信

Robust Multi-agent Communication via Multi-view Message Certification ( http://arxiv.org/abs/2305.13936v1 )

ライセンス: Link先を確認
Lei Yuan, Tao Jiang, Lihe Li, Feng Chen, Zongzhang Zhang, Yang Yu(参考訳) 多くのマルチエージェントシナリオでは、協調を促進するためにエージェント間のメッセージ共有が必要であり、メッセージの摂動環境にポリシーがデプロイされると、マルチエージェント通信の堅牢性が向上する。 メッセージチャネルの数が少ないと摂動が持続し、複雑なシナリオの効率が制限されるような、特定の前提の下で、主要な関連する作業がこの問題に対処します。 本稿では,CroMACと呼ばれるマルチビューメッセージ認証を通じて,堅牢なマルチエージェント通信ポリシーを学習することで,この問題にさらに対処する。 クロマックの下で訓練されたエージェントは、受信したメッセージが摂動したときに最悪の場合の偏差の下で最適なアクションを識別し選択するために、状態動作値の保証された下限を得ることができる。 具体的には、まずマルチエージェント通信をマルチビュー問題としてモデル化し、各メッセージが状態のビューを表す。 次に,多視点変分オートエンコーダ (MVAE) による認証された共同メッセージ表現を抽出する。 最適化フェーズでは、証明書保証のために状態の潜在空間で摂動を行う。 そして、学習した共同メッセージ表現を使用して、トレーニング中に認証された状態表現を近似する。 複数の共同マルチエージェントベンチマークにおける広範囲な実験により,提案手法の有効性が検証された。

Many multi-agent scenarios require message sharing among agents to promote coordination, hastening the robustness of multi-agent communication when policies are deployed in a message perturbation environment. Major relevant works tackle this issue under specific assumptions, like a limited number of message channels would sustain perturbations, limiting the efficiency in complex scenarios. In this paper, we take a further step addressing this issue by learning a robust multi-agent communication policy via multi-view message certification, dubbed CroMAC. Agents trained under CroMAC can obtain guaranteed lower bounds on state-action values to identify and choose the optimal action under a worst-case deviation when the received messages are perturbed. Concretely, we first model multi-agent communication as a multi-view problem, where every message stands for a view of the state. Then we extract a certificated joint message representation by a multi-view variational autoencoder (MVAE) that uses a product-of-experts inference network. For the optimization phase, we do perturbations in the latent space of the state for a certificate guarantee. Then the learned joint message representation is used to approximate the certificated state representation during training. Extensive experiments in several cooperative multi-agent benchmarks validate the effectiveness of the proposed CroMAC.
翻訳日:2023-05-28 04:59:54 公開日:2023-05-07
# 32大学における対話型人工知能の認識・性能・検出性

Perception, performance, and detectability of conversational artificial intelligence across 32 university courses ( http://arxiv.org/abs/2305.13934v1 )

ライセンス: Link先を確認
Hazem Ibrahim, Fengyuan Liu, Rohail Asim, Balaraju Battu, Sidahmed Benabderrahmane, Bashar Alhafni, Wifag Adnan, Tuka Alhanai, Bedoor AlShebli, Riyadh Baghdadi, Jocelyn J. B\'elanger, Elena Beretta, Kemal Celik, Moumena Chaqfeh, Mohammed F. Daqaq, Zaynab El Bernoussi, Daryl Fougnie, Borja Garcia de Soto, Alberto Gandolfi, Andras Gyorgy, Nizar Habash, J. Andrew Harris, Aaron Kaufman, Lefteris Kirousis, Korhan Kocak, Kangsan Lee, Seungah S. Lee, Samreen Malik, Michail Maniatakos, David Melcher, Azzam Mourad, Minsu Park, Mahmoud Rasras, Alicja Reuben, Dania Zantout, Nancy W. Gleason, Kinga Makovi, Talal Rahwan, Yasir Zaki(参考訳) 大規模な言語モデルが出現すると、ChatGPTのような強力なツールが開発され、人為的な作業と区別できないテキストを生成するようになった。 このような技術のアクセシビリティが高まる中、世界中の学生は、ai(artificial intelligence, 人工知能)時代における学生評価の完全性に関する議論を引き起こした可能性がある。 これまでのところ、これらのツールが大学レベルのコースの学生に対してどのように機能するかは明らかではない。 また、こうした道具の使用に関する学生の視点や、その使用を盗作として扱う教育者の視点も不明である。 ここでは、ChatGPTの成績を、大学レベル32の学生と比較する。 また,この目的に特化して設計された2つの分類器を用いて,その使用度を評価する。 また,チャットgptの利用に対する学生や教育者の認識を明らかにするため,著者の機関におけるより詳細な調査とともに,5カ国を対象に調査を行った。 chatgptのパフォーマンスは、多くのコースの生徒に匹敵するものの、優れているとは限りません。 さらに、現在のAIテキスト分類器は、人間による回答をAI生成に分類する妥当性や、AI生成したテキストを編集して検出を避けることの容易さから、ChatGPTの学校における使用を確実に検出することはできない。 最後に、このツールを使用する学生と、これを盗作として扱う教育者の間で、新たなコンセンサスが生まれています。 我々の発見は、AIの教育フレームワークへの統合に対処する政策議論のガイドとなる洞察を提供する。

The emergence of large language models has led to the development of powerful tools such as ChatGPT that can produce text indistinguishable from human-generated work. With the increasing accessibility of such technology, students across the globe may utilize it to help with their school work -- a possibility that has sparked discussions on the integrity of student evaluations in the age of artificial intelligence (AI). To date, it is unclear how such tools perform compared to students on university-level courses. Further, students' perspectives regarding the use of such tools, and educators' perspectives on treating their use as plagiarism, remain unknown. Here, we compare the performance of ChatGPT against students on 32 university-level courses. We also assess the degree to which its use can be detected by two classifiers designed specifically for this purpose. Additionally, we conduct a survey across five countries, as well as a more in-depth survey at the authors' institution, to discern students' and educators' perceptions of ChatGPT's use. We find that ChatGPT's performance is comparable, if not superior, to that of students in many courses. Moreover, current AI-text classifiers cannot reliably detect ChatGPT's use in school work, due to their propensity to classify human-written answers as AI-generated, as well as the ease with which AI-generated text can be edited to evade detection. Finally, we find an emerging consensus among students to use the tool, and among educators to treat this as plagiarism. Our findings offer insights that could guide policy discussions addressing the integration of AI into educational frameworks.
翻訳日:2023-05-28 04:59:10 公開日:2023-05-07
# LLM駆動人工知能統合による国家安全保障戦略の最適化

Optimizing National Security Strategies through LLM-Driven Artificial Intelligence Integration ( http://arxiv.org/abs/2305.13927v1 )

ライセンス: Link先を確認
Dmitry I Mikhailov(参考訳) 人工知能と機械学習が進歩を続ける中、我々は彼らの国家安全保障における戦略的重要性を理解する必要がある。 本稿では、軍におけるユニークなAI応用に焦点を当て、成功のための戦略的命令を強調し、国家安全保障におけるAIの役割に対する興奮を再燃させることを目的とする。 軍事的観点から米国におけるAIとMLの進歩を検証し、敵からこれらの技術を保護することの重要性を議論し、統合に関連する課題とリスクについて検討する。 最後に、国家安全に対するAIの戦略的重要性と、軍事指導者や政策立案者に対する戦略的命令の集合を強調します。

As artificial intelligence and machine learning continue to advance, we must understand their strategic importance in national security. This paper focuses on unique AI applications in the military, emphasizes strategic imperatives for success, and aims to rekindle excitement about AI's role in national security. We will examine the United States progress in AI and ML from a military standpoint, discuss the importance of securing these technologies from adversaries, and explore the challenges and risks associated with their integration. Finally, we will highlight the strategic significance of AI to national security and a set of strategic imperatives for military leaders and policymakers
翻訳日:2023-05-28 04:58:25 公開日:2023-05-07
# 深部画像分類に対するデータ中毒攻撃における検出不可能性とロバスト性

Pick your Poison: Undetectability versus Robustness in Data Poisoning Attacks against Deep Image Classification ( http://arxiv.org/abs/2305.09671v1 )

ライセンス: Link先を確認
Nils Lukas and Florian Kerschbaum(参考訳) 大量のweb階層データでトレーニングされたディープイメージ分類モデルは、バックドアモデルのメカニズムであるデータ中毒に対して脆弱である。 トレーニング中に見た有毒なサンプルでさえ、推論中のモデルの完全性を損なう可能性がある。 より多くのサンプルの中毒が攻撃の有効性と堅牢性を高めることは知られているが、過剰なサンプルの中毒がより検出しやすくすることで攻撃を弱めるかどうかは不明である。 データ中毒攻撃における基本的な検出可能性/不正性トレードオフを観察する: あまりに少ないサンプルを中毒すると、攻撃は効果がなく、堅牢ではないが、過剰なサンプルを中毒すると検出できる。 これにより、堅牢で検出不能な状態を維持するために、このトレードオフのバランスを取らなければならないデータ中毒攻撃のバーが高まる。 我々の研究は2つの防衛策を提案する (i)検出し、又は検出する (ii)限られた量の信頼された画像ラベルペアを用いてトレーニング後の処理ステップとして、汚染されたモデルを修復すること。 当社の防御は、調査対象のすべての攻撃を軽減し、モデルの修復に信頼性の低いデータを使用することで、既存の防御を上回っています。 私たちの防衛スケールは、CLIPのような共同視覚言語モデルに相当し、興味深いことに、より大きなモデルに対する攻撃は、より容易に検出できるが、より小さなモデルよりも堅牢である。 最後に,我々の研究がデータ中毒攻撃のバーを上げる一方で,バックドアのあらゆる形態を緩和できないことを示す2つの適応攻撃を提案する。

Deep image classification models trained on large amounts of web-scraped data are vulnerable to data poisoning, a mechanism for backdooring models. Even a few poisoned samples seen during training can entirely undermine the model's integrity during inference. While it is known that poisoning more samples enhances an attack's effectiveness and robustness, it is unknown whether poisoning too many samples weakens an attack by making it more detectable. We observe a fundamental detectability/robustness trade-off in data poisoning attacks: Poisoning too few samples renders an attack ineffective and not robust, but poisoning too many samples makes it detectable. This raises the bar for data poisoning attackers who have to balance this trade-off to remain robust and undetectable. Our work proposes two defenses designed to (i) detect and (ii) repair poisoned models as a post-processing step after training using a limited amount of trusted image-label pairs. We show that our defenses mitigate all surveyed attacks and outperform existing defenses using less trusted data to repair a model. Our defense scales to joint vision-language models, such as CLIP, and interestingly, we find that attacks on larger models are more easily detectable but also more robust than those on smaller models. Lastly, we propose two adaptive attacks demonstrating that while our work raises the bar for data poisoning attacks, it cannot mitigate all forms of backdooring.
翻訳日:2023-05-21 10:54:54 公開日:2023-05-07
# モデルコントラスト型フェデレーションドメイン適応

Model-Contrastive Federated Domain Adaptation ( http://arxiv.org/abs/2305.10432v1 )

ライセンス: Link先を確認
Chang'an Yi, Haotian Chen, Yonghui Xu, Yifan Zhang(参考訳) フェデレーションドメイン適応(fda)は、クライアントのローカルデータを通信することなく、ソースクライアント(ドメイン)から関連するが、異なるターゲットクライアントへ知識を協調的に転送することを目的としている。 さらに、ソースクライアントは異なるデータ分布を持つため、知識転送が極めて困難になる。 FDAの最近の進歩にもかかわらず、既存の手法では異種ドメインのモデルを利用できないため、優れたパフォーマンスを達成できないことが実証的に判明した。 本稿では,モデルに基づく手法である fdac を提案する。この手法は,視覚トランスフォーマ(vit)の学習と学習をベースとし,分散した {\bf d}omain {\bf a}daptation に対処することを目的としている。 特に対照的な学習は、ラベルのないデータを利用して優れたモデルをトレーニングし、ViTアーキテクチャは適応可能な特徴を抽出する上で、畳み込みニューラルネットワーク(CNN)よりも優れている。 我々の知る限りでは、FDACはViTの潜在アーキテクチャをフェデレートした環境で操作することで、転送可能な表現を学習する最初の試みである。 さらに、FDACは、ドメイン拡張とセマンティックマッチングに基づいて、各ソースモデルからサンプルと特徴の知識の不足を補うことで、ターゲットデータの多様性を向上させることができる。 いくつかの実データセットに関する広範囲な実験は、fdacがほとんどの条件で比較方法よりも優れていることを示している。 さらに、FDCAは、フェデレーション設定におけるもう一つの重要な要素である通信効率を向上させることができる。

Federated domain adaptation (FDA) aims to collaboratively transfer knowledge from source clients (domains) to the related but different target client, without communicating the local data of any client. Moreover, the source clients have different data distributions, leading to extremely challenging in knowledge transfer. Despite the recent progress in FDA, we empirically find that existing methods can not leverage models of heterogeneous domains and thus they fail to achieve excellent performance. In this paper, we propose a model-based method named FDAC, aiming to address {\bf F}ederated {\bf D}omain {\bf A}daptation based on {\bf C}ontrastive learning and Vision Transformer (ViT). In particular, contrastive learning can leverage the unlabeled data to train excellent models and the ViT architecture performs better than convolutional neural networks (CNNs) in extracting adaptable features. To the best of our knowledge, FDAC is the first attempt to learn transferable representations by manipulating the latent architecture of ViT under the federated setting. Furthermore, FDAC can increase the target data diversity by compensating from each source model with insufficient knowledge of samples and features, based on domain augmentation and semantic matching. Extensive experiments on several real datasets demonstrate that FDAC outperforms all the comparative methods in most conditions. Moreover, FDCA can also improve communication efficiency which is another key factor in the federated setting.
翻訳日:2023-05-21 10:35:20 公開日:2023-05-07
# テキストからブロックチェーンの概念を抽出する

Extracting Blockchain Concepts from Text ( http://arxiv.org/abs/2305.10408v1 )

ライセンス: Link先を確認
Rodrigo Veiga, Markus Endler and Valeria de Paiva(参考訳) ブロックチェーンは、相互に不信任のリモートパーティが情報の台帳の状態について合意に達するメカニズムを提供する。 このスペースが開発される大きな加速によって、ブロックチェーンについて学ぼうとする人たちの需要も増加します。 技術的なテーマなので、学び始めるのは非常に危険です。 そのため、このプロジェクトの主な目的は、機械学習モデルを適用して、ブロックチェーン分野に焦点を当てたホワイトペーパーや学術論文から情報を抽出し、その情報を整理し、ユーザが空間をナビゲートできるようにすることである。

Blockchains provide a mechanism through which mutually distrustful remote parties can reach consensus on the state of a ledger of information. With the great acceleration with which this space is developed, the demand for those seeking to learn about blockchain also grows. Being a technical subject, it can be quite intimidating to start learning. For this reason, the main objective of this project was to apply machine learning models to extract information from whitepapers and academic articles focused on the blockchain area to organize this information and aid users to navigate the space.
翻訳日:2023-05-21 10:34:49 公開日:2023-05-07
# 付加生成ポリ乳酸(PLA)試料の衝撃強度予測のためのニューロシンボリック人工知能(NSAI)に基づくアルゴリズム

Neurosymbolic Artificial Intelligence (NSAI) based Algorithm for predicting the Impact Strength of Additive Manufactured Polylactic Acid (PLA) Specimens ( http://arxiv.org/abs/2305.05668v1 )

ライセンス: Link先を確認
Akshansh Mishra, Vijaykumar S Jatti(参考訳) 本研究では, 添加性ポリ乳酸 (PLA) 成分の衝撃強度を予測するためのニューロシンボリック人工知能 (NSAI) の応用について紹介し, 添加性製造分野におけるNSAIの初めての使用例を示す。 NSAIモデルはニューラルネットワークとシンボリックAIの利点を活かし、従来の機械学習技術よりも堅牢で正確な予測を提供する。 実験データは収集され、1000データポイントまで合成的に拡張され、モデルの精度が向上した。 ニューロシンボリックモデルは、入力と2つの隠れ層と出力層からなるニューラルネットワークアーキテクチャを使用して開発された。 このモデルの性能は、トレーニングと検証の両方のデータセットの平均2乗誤差(MSE)とR-2乗誤差(R2)を評価することで、単純なニューラルネットワーク(ANN)モデルと比較された。 その結果, ニューロシンボリックモデルは単純なANNモデルを超え, トレーニングセットと検証セットの両方において, 低いMSEと高いR2値が得られることがわかった。 このニューロシンボリックアプローチによる添加物製造pla部品の衝撃強度推定の革新的応用は、添加物製造工程の最適化にその可能性の中核をなしている。 今後の研究は、ニューロシンボリックモデルをさらに改良し、その応用を他の材料や追加製造プロセスに拡張し、リアルタイムモニタリングと制御を組み込んでプロセス最適化を最適化する。

In this study, we introduce application of Neurosymbolic Artificial Intelligence (NSAI) for predicting the impact strength of additive manufactured polylactic acid (PLA) components, representing the first-ever use of NSAI in the domain of additive manufacturing. The NSAI model amalgamates the advantages of neural networks and symbolic AI, offering a more robust and accurate prediction than traditional machine learning techniques. Experimental data was collected and synthetically augmented to 1000 data points, enhancing the model's precision. The Neurosymbolic model was developed using a neural network architecture comprising input, two hidden layers, and an output layer, followed by a decision tree regressor representing the symbolic component. The model's performance was benchmarked against a Simple Artificial Neural Network (ANN) model by assessing mean squared error (MSE) and R-squared (R2) values for both training and validation datasets. The results reveal that the Neurosymbolic model surpasses the Simple ANN model, attaining lower MSE and higher R2 values for both training and validation sets. This innovative application of the Neurosymbolic approach in estimating the impact strength of additive manufactured PLA components underscores its potential for optimizing the additive manufacturing process. Future research could investigate further refinements to the Neurosymbolic model, extend its application to other materials and additive manufacturing processes, and incorporate real-time monitoring and control for enhanced process optimization.
翻訳日:2023-05-11 15:54:46 公開日:2023-05-07
# 大規模言語モデルを用いたテキストモーダル記述に基づく解釈可能なマルチモーダル感情分析

Interpretable multimodal sentiment analysis based on textual modality descriptions by using large-scale language models ( http://arxiv.org/abs/2305.06162v1 )

ライセンス: Link先を確認
Sixia Li and Shogo Okada(参考訳) マルチモーダル感情分析は、ユーザの内部状態を理解する上で重要な領域である。 深層学習の手法は有効であるが, 難解な解釈の問題は徐々に注目されてきている。 従来の研究は、注意重みやベクトル分布を使って解釈性を提供しようと試みてきた。 しかし、それらの説明は直感的ではなく、異なる訓練されたモデルの影響を受けやすい。 本研究では,非言語的モダリティをテキスト記述に変換し,感情予測のための大規模言語モデルを用いて解釈可能性を提供する新しい手法を提案する。 これは、入力テキストからの意思決定に関してモデルが依存するものを直接解釈する直感的なアプローチを提供し、解釈可能性を大幅に改善する。 具体的には、音声モダリティのための2つの特徴パターンと、顔モダリティのための離散アクションユニットに基づいて記述を変換する。 2つの感情分析タスクの実験結果から,従来の特徴を用いたベースラインに比べて,感情分析の有効性が向上し,F1スコアの2.49%が向上した。 また, マルチモーダル記述は, 従来の核融合法と同様のモーダル性を持つことを示した。 その結果,提案手法はマルチモーダル感情分析に有効であることが示唆された。

Multimodal sentiment analysis is an important area for understanding the user's internal states. Deep learning methods were effective, but the problem of poor interpretability has gradually gained attention. Previous works have attempted to use attention weights or vector distributions to provide interpretability. However, their explanations were not intuitive and can be influenced by different trained models. This study proposed a novel approach to provide interpretability by converting nonverbal modalities into text descriptions and by using large-scale language models for sentiment predictions. This provides an intuitive approach to directly interpret what models depend on with respect to making decisions from input texts, thus significantly improving interpretability. Specifically, we convert descriptions based on two feature patterns for the audio modality and discrete action units for the facial modality. Experimental results on two sentiment analysis tasks demonstrated that the proposed approach maintained, or even improved effectiveness for sentiment analysis compared to baselines using conventional features, with the highest improvement of 2.49% on the F1 score. The results also showed that multimodal descriptions have similar characteristics on fusing modalities as those of conventional fusion methods. The results demonstrated that the proposed approach is interpretable and effective for multimodal sentiment analysis.
翻訳日:2023-05-11 12:54:01 公開日:2023-05-07
# 機械翻訳のための合成ターゲットの活用

Leveraging Synthetic Targets for Machine Translation ( http://arxiv.org/abs/2305.06155v1 )

ライセンス: Link先を確認
Sarthak Mittal, Oleksii Hrinchuk, Oleksii Kuchaiev(参考訳) 本研究では,大規模事前学習モデルを用いて生成された合成対象データを活用して,限られたリソース設定で機械翻訳モデルを訓練するためのレシピを提供する。 バイリンガル、多言語、音声翻訳の異なるベンチマークにおいて、合成対象のトレーニングモデルが実際の接地ストラスデータのトレーニングより優れていることを示す。 このパフォーマンスギャップは、データセットのサイズとモデル内のパラメータの数という形で利用可能なリソースの量を制限することで大きくなります。 また、このパフォーマンス向上が最適化の容易さや予測のより決定論的性質に結び付いているか、このパラダイムがさまざまなテスト領域における分散性能向上につながるのか、予備的な分析も行っています。

In this work, we provide a recipe for training machine translation models in a limited resource setting by leveraging synthetic target data generated using a large pre-trained model. We show that consistently across different benchmarks in bilingual, multilingual, and speech translation setups, training models on synthetic targets outperforms training on the actual ground-truth data. This performance gap grows bigger with increasing limits on the amount of available resources in the form of the size of the dataset and the number of parameters in the model. We also provide preliminary analysis into whether this boost in performance is linked to ease of optimization or more deterministic nature of the predictions, and whether this paradigm leads to better out-of-distribution performance across different testing domains.
翻訳日:2023-05-11 12:51:48 公開日:2023-05-07
# K-SpecPart:マルチウェイハイパーグラフ分割ソリューション改善のためのスペクトルフレームワーク

K-SpecPart: A Supervised Spectral Framework for Multi-Way Hypergraph Partitioning Solution Improvement ( http://arxiv.org/abs/2305.06167v1 )

ライセンス: Link先を確認
Ismail Bustany, Andrew B. Kahng, Ioannis Koutis, Bodhisatta Pramanik and Zhiang Wang(参考訳) State-of-the-the-art hypergraph partitionerはマルチレベルパラダイムに従い、複数のレベルの粗いハイパーグラフを構築し、小型化を推進している。 これらの仕切りは限界に直面します (i)大域ハイパーグラフ構造を無視した局所的近傍構造に依存する粗大化過程 (ii)局所ミニマのリファインメントヒューリスティックスリスク絡み込み K-SpecPartは、一般化固有値問題の解決、低次元頂点埋め込みにおけるバランスの取れた分割目標と大域ハイパーグラフ構造を捉え、高品質なマルチレベル分割解をヒントとして活用することで、これらの制約に対処する教師付きスペクトルフレームワークである。 マルチウェイパーティショニングにおいて、K-SpecPartはマルチウェイヒントパーティショニングソリューションから複数の分割ソリューションを導出する。 これらの解を一般化固有値問題に統合し、固有ベクトルを計算する。 線形判別分析(LDA)は、これを低次元の埋め込みに変換するために用いられる。 K-SpecPartは頂点埋め込みからツリーのファミリーを構築し、ツリースウィーピングアルゴリズムを用いて分割する。 マルチウェイパーティショニングのためのspecpartのツリーパーティショニングアルゴリズムを拡張した。 複数のツリーベースのパーティショニングソリューションはオーバーレイであり、続いて、整数線形プログラミング(ILP)パーティショニング問題を解くクラスタ化されたハイパーグラフにリフトする。 実証研究はK-SpecPartの利点を示している。 分割に関しては、K-SpecPartはSpecPartよりも30%向上している。 マルチウェイパーティショニングでは、K-SpecPartがhMETISやKaHyParを超え、場合によっては最大20%改善されている。

State-of-the-art hypergraph partitioners follow the multilevel paradigm, constructing multiple levels of coarser hypergraphs to drive cutsize refinement. These partitioners face limitations: (i) coarsening processes depend on local neighborhood structure, ignoring global hypergraph structure; (ii) refinement heuristics risk entrapment in local minima. We introduce K-SpecPart, a supervised spectral framework addressing these limitations by solving a generalized eigenvalue problem, capturing balanced partitioning objectives and global hypergraph structure in a low-dimensional vertex embedding while leveraging high-quality multilevel partitioning solutions as hints. In multi-way partitioning, K-SpecPart derives multiple bipartitioning solutions from a multi-way hint partitioning solution. It integrates these solutions into the generalized eigenvalue problem to compute eigenvectors, creating a large-dimensional embedding. Linear Discriminant Analysis (LDA) is used to transform this into a lower-dimensional embedding. K-SpecPart constructs a family of trees from the vertex embedding and partitions them using a tree-sweeping algorithm. We extend SpecPart's tree partitioning algorithm for multi-way partitioning. The multiple tree-based partitioning solutions are overlaid, followed by lifting to a clustered hypergraph where an integer linear programming (ILP) partitioning problem is solved. Empirical studies show K-SpecPart's benefits. For bipartitioning, K-SpecPart outperforms SpecPart with improvements up to 30%. For multi-way partitioning, K-SpecPart surpasses hMETIS and KaHyPar, with improvements up to 20% in some cases.
翻訳日:2023-05-11 12:42:29 公開日:2023-05-07
# ラベル適応混合を用いた音声認識におけるロバストな自己注意特徴の学習

Learning Robust Self-attention Features for Speech Emotion Recognition with Label-adaptive Mixup ( http://arxiv.org/abs/2305.06273v1 )

ライセンス: Link先を確認
Lei Kang, Lichao Zhang, Dazhi Jiang(参考訳) 音声感情認識(英語: speech emotion recognition、ser)とは、機械との自然な対話シナリオにおいて、人間の感情を認識することである。 SERの最近の進歩にもかかわらず、最先端のモデルは満足なパフォーマンスを達成するのに苦労している。 ラベル適応型ミックスアップとセンターロスを併用したセルフアテンションベース手法を提案する。 提案手法は,ミックスアップにおけるラベル確率とフィッティングセンター損失をミックスアップ訓練方式に適合させることにより,最先端手法よりも優れた性能が得られる。

Speech Emotion Recognition (SER) is to recognize human emotions in a natural verbal interaction scenario with machines, which is considered as a challenging problem due to the ambiguous human emotions. Despite the recent progress in SER, state-of-the-art models struggle to achieve a satisfactory performance. We propose a self-attention based method with combined use of label-adaptive mixup and center loss. By adapting label probabilities in mixup and fitting center loss to the mixup training scheme, our proposed method achieves a superior performance to the state-of-the-art methods.
翻訳日:2023-05-11 12:26:17 公開日:2023-05-07
# 生成事前学習された自己回帰トランスフォーマグラフニューラルネットワークによる新規タンパク質の解析と発見

Generative Pretrained Autoregressive Transformer Graph Neural Network applied to the Analysis and Discovery of Novel Proteins ( http://arxiv.org/abs/2305.04934v1 )

ライセンス: Link先を確認
Markus J. Buehler(参考訳) 本稿では,トランスフォーマーとグラフ畳み込みアーキテクチャを因果的多頭グラフ機構に統合した注意ニューラルネットワークを基盤として,タンパク質モデリングにおける複雑な前方および逆問題を解くために適用した,柔軟な言語モデルに基づくディープラーニング戦略を報告する。 本モデルを用いて, 二次構造含量(残量レベル, 全体含量), タンパク質溶解度, シークエンシングタスクを予測する。 逆タスクでさらに訓練されたモデルでは、これらの特性を標的としてタンパク質を設計することができる。 このモデルは汎用フレームワークとして定式化されており、完全にプロンプトベースであり、様々な下流タスクに適応することができる。 追加のタスクを追加することで、モデルが全体的なパフォーマンス改善に利用する創発的なシナジーが得られることが分かりました。 ケーススタディは、構造タンパク質に特異的に焦点をあてたタンパク質設計と、可溶性抗菌性生体材料の設計への適用性について検証する。 私たちのモデルは最終的に8つの異なるタスクを実行するように訓練されていますが、利用可能なデータセットでは、追加の問題を解決するために拡張することができます。 より広い意味で、この研究は、究極のビルディングブロック(ここではバイトレベルのutf8文字)の集合と複雑な出力を関連付けるマルチスケールモデリングの形式を示している。 この体系は、普遍的なビルディングブロックと結果として生じる性質の間の複雑な創発的な関係を相乗学習能力を通じて捉え、普遍性と多様性の相互作用を通じて、訓練で使われる知識に埋め込まれた一連の可能性を表現する。

We report a flexible language-model based deep learning strategy, applied here to solve complex forward and inverse problems in protein modeling, based on an attention neural network that integrates transformer and graph convolutional architectures in a causal multi-headed graph mechanism, to realize a generative pretrained model. The model is applied to predict secondary structure content (per-residue level and overall content), protein solubility, and sequencing tasks. Further trained on inverse tasks, the model is rendered capable of designing proteins with these properties as target features. The model is formulated as a general framework, completely prompt-based, and can be adapted for a variety of downstream tasks. We find that adding additional tasks yields emergent synergies that the model exploits in improving overall performance, beyond what would be possible by training a model on each dataset alone. Case studies are presented to validate the method, yielding protein designs specifically focused on structural proteins, but also exploring the applicability in the design of soluble, antimicrobial biomaterials. While our model is trained to ultimately perform 8 distinct tasks, with available datasets it can be extended to solve additional problems. In a broader sense, this work illustrates a form of multiscale modeling that relates a set of ultimate building blocks (here, byte-level utf8 characters) to complex output. This materiomic scheme captures complex emergent relationships between universal building block and resulting properties via a synergizing learning capacity to express a set of potentialities embedded in the knowledge used in training, via the interplay of universality and diversity.
翻訳日:2023-05-10 20:21:52 公開日:2023-05-07
# CIT-EmotionNet:脳波認識のためのCNNインタラクティブトランスフォーマネットワーク

CIT-EmotionNet: CNN Interactive Transformer Network for EEG Emotion Recognition ( http://arxiv.org/abs/2305.05548v1 )

ライセンス: Link先を確認
Wei Lu, Hua Ma, and Tien-Ping Tan(参考訳) 脳波(EEG)信号を用いた感情認識は、感情コンピューティングと知的相互作用において重要な研究課題となっている。 しかし、脳波信号のグローバルおよびローカル機能を効果的に組み合わせ、感情認識のパフォーマンスを向上させることは依然として難しい課題である。 本研究では,脳波信号のグローバル・ローカルな特徴を効率的に統合する,脳波認識のための新しいCNN Interactive Transformer Network(CIT-EmotionNet)を提案する。 当初、生の脳波信号を空間周波数表現に変換し、入力として機能する。 次に,畳み込みニューラルネットワーク(cnn)とトランスフォーマーを並列に1つのフレームワークに統合する。 最後に,局所的特徴と大域的特徴の相互作用と融合を容易にするcnnインタラクティブトランスフォーマモジュールを設計し,eeg空間周波数表現から両方の特徴を抽出できるモデルの能力を高めた。 提案したCIT-EmotionNetは最先端の手法より優れており、2つの公開データセットSEEDとSEED-IVの平均認識精度は98.57\%と92.09\%である。

Emotion recognition using Electroencephalogram (EEG) signals has emerged as a significant research challenge in affective computing and intelligent interaction. However, effectively combining global and local features of EEG signals to improve performance in emotion recognition is still a difficult task. In this study, we propose a novel CNN Interactive Transformer Network for EEG Emotion Recognition, known as CIT-EmotionNet, which efficiently integrates global and local features of EEG signals. Initially, we convert raw EEG signals into spatial-frequency representations, which serve as inputs. Then, we integrate Convolutional Neural Network (CNN) and Transformer within a single framework in a parallel manner. Finally, we design a CNN interactive Transformer module, which facilitates the interaction and fusion of local and global features, thereby enhancing the model's ability to extract both types of features from EEG spatial-frequency representations. The proposed CIT-EmotionNet outperforms state-of-the-art methods, achieving an average recognition accuracy of 98.57\% and 92.09\% on two publicly available datasets, SEED and SEED-IV, respectively.
翻訳日:2023-05-10 19:24:29 公開日:2023-05-07
# 工学設計と健康予測のための機械学習の不確実性定量化:チュートリアル

Uncertainty Quantification in Machine Learning for Engineering Design and Health Prognostics: A Tutorial ( http://arxiv.org/abs/2305.04933v1 )

ライセンス: Link先を確認
Venkat Nemani, Luca Biggio, Xun Huan, Zhen Hu, Olga Fink, Anh Tran, Yan Wang, Xiaoping Du, Xiaoge Zhang, Chao Hu(参考訳) 機械学習モデルに加えて、不確実性定量化(uq)は、健全なリスク評価と管理を可能にすることによって、より原則化された意思決定につながる安全保証の必須層として機能する。 UQによって強化されたMLモデルの安全性と信頼性の向上は、医療、製造、航空といった高い意思決定環境におけるMLソリューションの広範な採用を促進する可能性がある。 本チュートリアルでは,ニューラルネットワークに着目したMLモデルの新たなUQ手法と,工学的設計や予後,健康管理といった問題に対するこれらのUQ手法の適用について,総合的なレンズを提供することを目的とする。 この目標に向けて、我々は、MLモデルのUQに関連する不確実性タイプ、ソース、原因の包括的分類から始める。 次に、ガウス過程回帰法、ベイズニューラルネットワーク法、ニューラルネットワークアンサンブル法、およびスペクトル正規化ニューラルガウス過程に焦点をあてた決定論的uq法をチュートリアル形式で記述する。 数学的定式化に基づいて, これらのUQ手法の音質を定量的, 質的に検討し, その強度と欠点を異なる次元から検討した。 次に,分類問題と回帰問題における予測不確実性の質を評価するためによく用いられる定量的指標について検討する。 その後,工学設計と健康診断における課題解決におけるMLモデルのUQの役割について考察する。 ソースコードがgithubにある2つのケーススタディは、これらのuqメソッドの実証と、初期のリチウムイオン電池の寿命予測とターボファンエンジンの有用な寿命予測の比較に使用される。

On top of machine learning models, uncertainty quantification (UQ) functions as an essential layer of safety assurance that could lead to more principled decision making by enabling sound risk assessment and management. The safety and reliability improvement of ML models empowered by UQ has the potential to significantly facilitate the broad adoption of ML solutions in high-stakes decision settings, such as healthcare, manufacturing, and aviation, to name a few. In this tutorial, we aim to provide a holistic lens on emerging UQ methods for ML models with a particular focus on neural networks and the applications of these UQ methods in tackling engineering design as well as prognostics and health management problems. Toward this goal, we start with a comprehensive classification of uncertainty types, sources, and causes pertaining to UQ of ML models. Next, we provide a tutorial-style description of several state-of-the-art UQ methods: Gaussian process regression, Bayesian neural network, neural network ensemble, and deterministic UQ methods focusing on spectral-normalized neural Gaussian process. Established upon the mathematical formulations, we subsequently examine the soundness of these UQ methods quantitatively and qualitatively (by a toy regression example) to examine their strengths and shortcomings from different dimensions. Then, we review quantitative metrics commonly used to assess the quality of predictive uncertainty in classification and regression problems. Afterward, we discuss the increasingly important role of UQ of ML models in solving challenging problems in engineering design and health prognostics. Two case studies with source codes available on GitHub are used to demonstrate these UQ methods and compare their performance in the life prediction of lithium-ion batteries at the early stage and the remaining useful life prediction of turbofan engines.
翻訳日:2023-05-10 14:51:48 公開日:2023-05-07
# professional certification benchmark dataset: 大規模言語モデルのための最初の500ジョブ

Professional Certification Benchmark Dataset: The First 500 Jobs For Large Language Models ( http://arxiv.org/abs/2305.05377v1 )

ライセンス: Link先を確認
David Noever and Matt Ciolino(参考訳) この調査は、大規模な言語モデルをテストし、採用可能なスキルを評価するための専門的な認定調査を作成する。 GPT-3とTurbo-GPT3.5の2つのAIモデルのパフォーマンスを1149のプロフェッショナル認定のベンチマークデータセットで比較し、学術的なパフォーマンスよりも職業的準備性を強調する。 GPT-3は、微調整や試験の準備なしに、プロ認定の39%でパススコア(70%以上)を達成した。 これらのモデルは、クラウドや仮想化、ビジネス分析、サイバーセキュリティ、ネットワークのセットアップと修復、データ分析など、さまざまなコンピュータ関連分野の資格を示した。 ターボGPT3.5は、OSCP(Offensive Security Certified Professional)試験で100%得点した。 このモデルは、看護、認可カウンセリング、薬局、教育など、他の専門分野の能力も示した。 ターボGPT3.5はファイナンシャル・インダストリー・レギュレーション・オーソリティ(FINRA)シリーズ6の試験に合格し、70%の成績を残した。 興味深いことに、turbo-gpt3.5はカスタマーサービスのタスクでうまく動作し、コールセンターや日常的なアドバイスサービスにおけるチャットボットの人的拡張の潜在的な応用を示唆している。 このモデルはまた、ワインソムリエ、ビールテイザー、感情的商、ボディランゲージリーダーなどの感覚と経験に基づくテストでもよく評価される。 BabbageからTurboへのOpenAIモデルの改良により、数年以内に中央値の60%のパフォーマンスが向上した。 この進歩は、最新のモデルの欠点に注目することが、最も要求の多いプロフェッショナル認定を習得できる高性能なAIにつながることを示唆している。 テスト可能なプロフェッショナルスキルの範囲を広げるためのベンチマークをオープンソースとして公開しています。

The research creates a professional certification survey to test large language models and evaluate their employable skills. It compares the performance of two AI models, GPT-3 and Turbo-GPT3.5, on a benchmark dataset of 1149 professional certifications, emphasizing vocational readiness rather than academic performance. GPT-3 achieved a passing score (>70% correct) in 39% of the professional certifications without fine-tuning or exam preparation. The models demonstrated qualifications in various computer-related fields, such as cloud and virtualization, business analytics, cybersecurity, network setup and repair, and data analytics. Turbo-GPT3.5 scored 100% on the valuable Offensive Security Certified Professional (OSCP) exam. The models also displayed competence in other professional domains, including nursing, licensed counseling, pharmacy, and teaching. Turbo-GPT3.5 passed the Financial Industry Regulatory Authority (FINRA) Series 6 exam with a 70% grade without preparation. Interestingly, Turbo-GPT3.5 performed well on customer service tasks, suggesting potential applications in human augmentation for chatbots in call centers and routine advice services. The models also score well on sensory and experience-based tests such as wine sommelier, beer taster, emotional quotient, and body language reader. The OpenAI model improvement from Babbage to Turbo resulted in a median 60% better-graded performance in less than a few years. This progress suggests that focusing on the latest model's shortcomings could lead to a highly performant AI capable of mastering the most demanding professional certifications. We open-source the benchmark to expand the range of testable professional skills as the models improve or gain emergent capabilities.
翻訳日:2023-05-10 12:59:01 公開日:2023-05-07
# ハイブリッドネット:VLSI混雑予測のための幾何学的・位相的視点のデュアルブランチ融合

HybridNet: Dual-Branch Fusion of Geometrical and Topological Views for VLSI Congestion Prediction ( http://arxiv.org/abs/2305.05374v1 )

ライセンス: Link先を確認
Yuxiang Zhao, Zhuomin Chai, Yibo Lin, Runsheng Wang, Ru Huang(参考訳) 正確な早期混雑予測は、ルーティングステージでの不快なサプライズを防止し、設計者がvlsi設計サイクルを高速化するのを助ける重要な役割を果たす。 本稿では,回路のトポロジカルな特徴と幾何学的特徴を,ネットワークアーキテクチャの重要な設計手法として取り入れる手法を提案する。 より具体的に言うと、異なるエッジ構成スキームを持つ2つの個別グラフ(ジオメトリグラフ、トポロジーグラフ)を構成する。 次に,各経路に異なるエンコーダ層を持つデュアルブランチネットワークと,高度な融合戦略を持つアグリゲート表現を提案する。 われわれのネットワークであるHybridNetは、セルの幾何学的相互作用を捉えるための単純かつ効果的な方法を提供するだけでなく、ネットリストにおける元のトポロジ的関係も保存する。 ISPD2015ベンチマーク実験の結果,従来の手法と比較して10.9%の改善が得られた。

Accurate early congestion prediction can prevent unpleasant surprises at the routing stage, playing a crucial character in assisting designers to iterate faster in VLSI design cycles. In this paper, we introduce a novel strategy to fully incorporate topological and geometrical features of circuits by making several key designs in our network architecture. To be more specific, we construct two individual graphs (geometry-graph, topology-graph) with distinct edge construction schemes according to their unique properties. We then propose a dual-branch network with different encoder layers in each pathway and aggregate representations with a sophisticated fusion strategy. Our network, named HybridNet, not only provides a simple yet effective way to capture the geometric interactions of cells, but also preserves the original topological relationships in the netlist. Experimental results on the ISPD2015 benchmarks show that we achieve an improvement of 10.9% compared to previous methods.
翻訳日:2023-05-10 12:58:34 公開日:2023-05-07
# ニューラルネットワークを用いた超高密度エミッタの局所化

Localization of Ultra-dense Emitters with Neural Networks ( http://arxiv.org/abs/2305.05542v1 )

ライセンス: Link先を確認
Armin Abdehkakha and Craig Snoeyink(参考訳) 単一分子局在顕微鏡(SMLM)は細胞構造を可視化する能力を拡大したが、時間分解能は制限されている。 エミッタ密度の増大は時間分解能を向上させるが、現在の解析アルゴリズムはエミッタ画像が著しく重なるにつれて困難である。 ここでは,分離したエミッタ仮定を拒絶するユニークなアーキテクチャを使用するluennと呼ばれる深い畳み込みニューラルネットワークを提案する。 このアーキテクチャは、正確な位置不確かさを推定すると共に、使用可能なエミッタ密度の範囲を6から31マイクロメートルあたりのエミッタまで拡大し、局所化精度の低下と時間分解能の向上を図っている。 不確実性推定の他に、このアルゴリズムは、撮像時間を短縮し、実験成功の要求を緩和することにより、研究室のユーザビリティを向上させる。

Single-Molecule Localization Microscopy (SMLM) has expanded our ability to visualize subcellular structures but is limited in its temporal resolution. Increasing emitter density will improve temporal resolution, but current analysis algorithms struggle as emitter images significantly overlap. Here we present a deep convolutional neural network called LUENN which utilizes a unique architecture that rejects the isolated emitter assumption; it can smoothly accommodate emitters that range from completely isolated to co-located. This architecture, alongside an accurate estimator of location uncertainty, extends the range of usable emitter densities by a factor of 6 to over 31 emitters per micrometer-squared with reduced penalty to localization precision and improved temporal resolution. Apart from providing uncertainty estimation, the algorithm improves usability in laboratories by reducing imaging times and easing requirements for successful experiments.
翻訳日:2023-05-10 12:22:35 公開日:2023-05-07
# 多変量デバイスネットワークにおける効率的なパターンベース異常検出

Efficient pattern-based anomaly detection in a network of multivariate devices ( http://arxiv.org/abs/2305.05538v1 )

ライセンス: Link先を確認
Len Feremans, Boris Cule, Bart Goethals(参考訳) 多くの組織はサービス品質を管理し、テレメトリや物理センサーデータシリーズに関連付けられた大規模なデバイスやサーバを監視している。 近年,行動異常を検出するために様々な手法が提案されているが,既存の手法では多変量時系列に着目し,エンティティ間の通信を無視している。 さらに,ある期間に異常を引き起こす物体やセンサの配置だけでなく,この決定についてもエンドユーザーを支援することを目的としている。 2段階のアプローチで異常を検出するスケーラブルな手法を提案する。 まず、ネットワーク内のエンティティ間の関係を回復する。関係は本質的に動的であり、未知のプロセスによって引き起こされることが多いからだ。 次に,逐次パターンの埋め込みに基づく異常を報告する。 パターンマイニングは効率的であり、解釈をサポートする。 パターンマイニングを周波数、時間制約、最小記述長に基づいて逐次パターンをフィルタリングするために拡張する。 我々は、インターネット企業から国際放送のための2つの公開データセットとXを収集し、リリースする。 \textit{bad} は、9つのベンチマークデータセットで全体の f1-score が 0.78 となり、最高のベースラインを3\%上回っている。 さらに、 \textit{BAD} は最先端の異常検出方法よりも高速である。

Many organisations manage service quality and monitor a large set devices and servers where each entity is associated with telemetry or physical sensor data series. Recently, various methods have been proposed to detect behavioural anomalies, however existing approaches focus on multivariate time series and ignore communication between entities. Moreover, we aim to support end-users in not only in locating entities and sensors causing an anomaly at a certain period, but also explain this decision. We propose a scalable approach to detect anomalies using a two-step approach. First, we recover relations between entities in the network, since relations are often dynamic in nature and caused by an unknown underlying process. Next, we report anomalies based on an embedding of sequential patterns. Pattern mining is efficient and supports interpretation, i.e. patterns represent frequent occurring behaviour in time series. We extend pattern mining to filter sequential patterns based on frequency, temporal constraints and minimum description length. We collect and release two public datasets for international broadcasting and X from an Internet company. \textit{BAD} achieves an overall F1-Score of 0.78 on 9 benchmark datasets, significantly outperforming the best baseline by 3\%. Additionally, \textit{BAD} is also an order-of-magnitude faster than state-of-the-art anomaly detection methods.
翻訳日:2023-05-10 12:22:20 公開日:2023-05-07
# 高速かつスケーラブルなグラフ処理のためのGRAPEとランダムウォークベース埋め込み

GRAPE for Fast and Scalable Graph Processing and random walk-based Embedding ( http://arxiv.org/abs/2110.06196v3 )

ライセンス: Link先を確認
Luca Cappelletti, Tommaso Fontana, Elena Casiraghi, Vida Ravanmehr, Tiffany J.Callahan, Carlos Cano, Marcin P. Joachimiak, Christopher J. Mungall, Peter N. Robinson, Justin Reese and Giorgio Valentini(参考訳) グラフ表現学習(GRL)手法は、グラフで表される複雑な実世界の問題に対処するための新たな道を開いた。 しかし、これらのアプリケーションで使われる多くのグラフは数百万のノードと数十億のエッジから構成されており、現在のメソッドやソフトウェア実装の能力を超えています。 本稿では,特殊でスマートなデータ構造,アルゴリズム,ランダムウォークベースの高速並列実装を用いて,大規模グラフにスケール可能なグラフ処理および埋め込みのためのソフトウェアリソースであるgrapeを提案する。 GRAPEは、最先端のソフトウェアリソースと比較して、経験的空間と時間的複雑さの桁数の改善、および競合エッジとノードラベル予測性能を示している。 GRAPEは、約170万行のPythonとRustのコードがドキュメント化されており、69のノード埋め込みメソッド、25の推論モデル、効率的なグラフ処理ユーティリティのコレクション、文学やその他のソースからの80,000以上のグラフを提供している。 標準化されたインターフェースはサードパーティのライブラリをシームレスに統合するが、ready-to-useとmodular pipelinesはgrlメソッドの使いやすい評価を可能にするため、grapeをソフトウェアリソースとして位置づけ、グラフ処理と埋め込みのためのメソッドとライブラリを公平に比較する。

Graph Representation Learning (GRL) methods opened new avenues for addressing complex, real-world problems represented by graphs. However, many graphs used in these applications comprise millions of nodes and billions of edges and are beyond the capabilities of current methods and software implementations. We present GRAPE, a software resource for graph processing and embedding that can scale with big graphs by using specialized and smart data structures, algorithms, and a fast parallel implementation of random walk-based methods. Compared with state-of-the-art software resources, GRAPE shows an improvement of orders of magnitude in empirical space and time complexity, as well as a competitive edge and node label prediction performance. GRAPE comprises about 1.7 million well-documented lines of Python and Rust code and provides 69 node embedding methods, 25 inference models, a collection of efficient graph processing utilities and over 80,000 graphs from the literature and other sources. Standardized interfaces allow seamless integration of third-party libraries, while ready-to-use and modular pipelines permit an easy-to-use evaluation of GRL methods, therefore also positioning GRAPE as a software resource to perform a fair comparison between methods and libraries for graph processing and embedding.
翻訳日:2023-05-10 01:33:48 公開日:2023-05-07
# 代数的ショートカット融合による多型動的プログラミング

Polymorphic dynamic programming by algebraic shortcut fusion ( http://arxiv.org/abs/2107.01752v4 )

ライセンス: Link先を確認
Max A. Little and Ugur Kayas(参考訳) 動的プログラミング (dp) は広く適用可能なアルゴリズム設計パラダイムであり、それ以外は難解な組合せ問題に対する効率的で正確な解法である。 しかし、そのようなアルゴリズムの設計は、しばしばアドホックな方法で非公式に提示され、その結果、正しく適用することはしばしば困難である。 本稿では,既存のDPアルゴリズムから,あるいは単純な機能的再帰から,新しいDPアルゴリズムを体系的に導出するための厳密な代数形式について述べる。 これらの導出は、任意の半環に対して証明可能正確かつ多型なアルゴリズムに導かれるので、半環の観点で表現可能な組合せ問題の全範囲に適用することができる。 例えば、最適化、最適確率、ビタビ復号、確率的辺縁化、論理的推論、ファジィ集合、微分可能なソフトマックス、リレーショナルおよび前駆的クエリなどである。 このアプローチは、構成的アルゴリズムに関する既存の文献からの多くのアイデアに基づいており、(半)多型函数、tuplingとformal sums(リフト)、および制約代数から生じる代数的単純化の一般的な性質を利用する。 本稿では,信号処理,バイオインフォマティクス,信頼性工学などの応用例について,この形式の有効性を示す。 これらのアルゴリズムを実装するPythonソフトウェアは、http://www.maxlittle.net/software/dppolyalg.zipからダウンロードできる。

Dynamic programming (DP) is a broadly applicable algorithmic design paradigm for the efficient, exact solution of otherwise intractable, combinatorial problems. However, the design of such algorithms is often presented informally in an ad-hoc manner, and as a result is often difficult to apply correctly. In this paper, we present a rigorous algebraic formalism for systematically deriving novel DP algorithms, either from existing DP algorithms or from simple functional recurrences. These derivations lead to algorithms which are provably correct and polymorphic over any semiring, which means that they can be applied to the full scope of combinatorial problems expressible in terms of semirings. This includes, for example: optimization, optimal probability and Viterbi decoding, probabilistic marginalization, logical inference, fuzzy sets, differentiable softmax, and relational and provenance queries. The approach, building on many ideas from the existing literature on constructive algorithmics, exploits generic properties of (semiring) polymorphic functions, tupling and formal sums (lifting), and algebraic simplifications arising from constraint algebras. We demonstrate the effectiveness of this formalism for some example applications arising in signal processing, bioinformatics and reliability engineering. Python software implementing these algorithms can be downloaded from: http://www.maxlittle.net/software/dppolyalg.zip.
翻訳日:2023-05-10 01:32:45 公開日:2023-05-07
# VCGAN:ハイブリッド世代対応ネットワークによるビデオカラー化

VCGAN: Video Colorization with Hybrid Generative Adversarial Network ( http://arxiv.org/abs/2104.12357v2 )

ライセンス: Link先を確認
Yuzhi Zhao, Lai-Man Po, Wing-Yin Yu, Yasar Abbas Ur Rehman, Mengyang Liu, Yujia Zhang, Weifeng Ou(参考訳) 本稿では,ビデオカラー化に対するエンドツーエンド学習による改良アプローチとして,vcgan(hybrid generative adversarial network)を用いたビデオカラー化のハイブリッド化を提案する。 vcganは、ビデオカラー化領域において、時間的一貫性とカラー化ネットワークの統合、ネットワークの洗練という2つの問題に対処している。 着色品質と時空間整合性を高めるため、VCGANのジェネレータの主流は、それぞれグローバル特徴抽出器とプレースホルダー特徴抽出器という2つの追加ネットワークによって支援される。 グローバル特徴抽出器はグレースケール入力のグローバルセマンティクスをエンコードし、カラー化品質を高めるが、プレースホルダ特徴抽出器は以前のカラー化フレームのセマンティクスをエンコードするフィードバック接続として働き、時空間的一貫性を維持する。 プレースホルダー特徴抽出器の入力をグレースケール入力として変更する場合、ハイブリッドVCGANは画像のカラー化を行うことができる。 遠方フレームの一貫性を向上させるために,2つのリモートフレーム間の時間的不一致を平滑化する高密度な長期損失を提案する。 カラー化と時間的損失を併用してトレーニングされたVCGANは、色鮮度とビデオ連続性のバランスが良好である。 実験の結果,VCGANは既存の手法よりも高品質で時間的に一貫したカラービデオを生成することがわかった。

We propose a hybrid recurrent Video Colorization with Hybrid Generative Adversarial Network (VCGAN), an improved approach to video colorization using end-to-end learning. The VCGAN addresses two prevalent issues in the video colorization domain: Temporal consistency and unification of colorization network and refinement network into a single architecture. To enhance colorization quality and spatiotemporal consistency, the mainstream of generator in VCGAN is assisted by two additional networks, i.e., global feature extractor and placeholder feature extractor, respectively. The global feature extractor encodes the global semantics of grayscale input to enhance colorization quality, whereas the placeholder feature extractor acts as a feedback connection to encode the semantics of the previous colorized frame in order to maintain spatiotemporal consistency. If changing the input for placeholder feature extractor as grayscale input, the hybrid VCGAN also has the potential to perform image colorization. To improve the consistency of far frames, we propose a dense long-term loss that smooths the temporal disparity of every two remote frames. Trained with colorization and temporal losses jointly, VCGAN strikes a good balance between color vividness and video continuity. Experimental results demonstrate that VCGAN produces higher-quality and temporally more consistent colorful videos than existing approaches.
翻訳日:2023-05-10 01:30:50 公開日:2023-05-07
# 記憶に制限のある一般グラフにおける協調学習:複雑さ、学習可能性、信頼性

Collaborative Learning in General Graphs with Limited Memorization: Complexity, Learnability, and Reliability ( http://arxiv.org/abs/2201.12482v3 )

ライセンス: Link先を確認
Feng Li, Xuyang Yuan, Lina Wang, Huan Yang, Dongxiao Yu, Weifeng Lv, Xiuzhen Cheng(参考訳) エージェントが任意に接続され、それぞれに記憶能力と通信帯域が制限された一般グラフにおけるk-armed bandit問題を考える。 目標は、各エージェントが最終的に最高の腕を学習できるようにすることです。 これらの研究では、コミュニケーショングラフは完全あるいは十分に構造化されるべきであるが、そのような仮定は実際には必ずしも有効ではない。 さらに、記憶力や通信帯域が限られており、エージェントが記憶し通信する経験が極めて少ないため、エージェントのコラボレーションも制限されている。 さらに、エージェントは不正な経験を仲間に共有するために腐敗することもあるが、記憶とコミュニケーションのリソース制限は学習プロセスの信頼性を著しく制限する可能性がある。 上記の課題に対処するために,三段階協調学習アルゴリズムを提案する。 それぞれのステップで、エージェントは、一般的なコミュニケーショングラフ内の軽量なランダムウォークを通じて、最新の経験を共有し、仲間から受け取った推奨に従って、どのアームを引っ張るかを決定する。 エージェントは最終的に、腕を引くことで得られる報酬に基づいて、採用(腕への好み)を更新する。 理論的分析により,協調学習プロセスに十分な数のエージェントが参加すると,記憶力や軽量なコミュニケーションが制限された場合でも,すべてのエージェントが最終的に最高のアームを高い確率で学習することが示された。 また,理論解析では,アルゴリズムが許容できる腐敗したエージェントの数の上限を明らかにした。 提案する3段階協調学習アルゴリズムの有効性は,合成データと実データの両方について広範な実験により検証された。

We consider a K-armed bandit problem in general graphs where agents are arbitrarily connected and each of them has limited memorizing capabilities and communication bandwidth. The goal is to let each of the agents eventually learn the best arm. It is assumed in these studies that the communication graph should be complete or well-structured, whereas such an assumption is not always valid in practice. Furthermore, limited memorization and communication bandwidth also restrict the collaborations of the agents, since the agents memorize and communicate very few experiences. Additionally, an agent may be corrupted to share falsified experiences to its peers, while the resource limit in terms of memorization and communication may considerably restrict the reliability of the learning process. To address the above issues, we propose a three-staged collaborative learning algorithm. In each step, the agents share their latest experiences with each other through light-weight random walks in a general communication graph, and then make decisions on which arms to pull according to the recommendations received from their peers. The agents finally update their adoptions (i.e., preferences to the arms) based on the reward obtained by pulling the arms. Our theoretical analysis shows that, when there are a sufficient number of agents participating in the collaborative learning process, all the agents eventually learn the best arm with high probability, even with limited memorizing capabilities and light-weight communications. We also reveal in our theoretical analysis the upper bound on the number of corrupted agents our algorithm can tolerate. The efficacy of our proposed three-staged collaborative learning algorithm is finally verified by extensive experiments on both synthetic and real datasets.
翻訳日:2023-05-10 01:23:38 公開日:2023-05-07
# ニューラルネットワークを用いた3次元軸対称オイラー方程式の漸近自己相似ブローアッププロファイル

Asymptotic self-similar blow-up profile for three-dimensional axisymmetric Euler equations using neural networks ( http://arxiv.org/abs/2201.06780v3 )

ライセンス: Link先を確認
Yongji Wang, Ching-Yao Lai, Javier G\'omez-Serrano, Tristan Buckmaster(参考訳) 2次元ブーサインと3次元オイラー方程式の有限時間ブロウアップ解が存在するかどうかは流体力学の分野において極めて重要である。 物理インフォームドニューラルネットワーク(PINN)を用いて,両方程式のスムーズな自己相似ブローアッププロファイルを初めて発見する,新しい数値フレームワークを開発した。 この解そのものは、将来のコンピュータ支援による両方の方程式の爆発の証明の基礎となる可能性がある。 さらに, c\'ordoba-c\'ordoba-fontelos方程式に対する不安定な自己相似解の最初の例を構築し, 流体方程式に対する不安定な自己相似解の発見にピンを応用できることを実証した。 我々の数値的枠組みは他の様々な方程式に頑健で適応可能であることを示す。

Whether there exist finite time blow-up solutions for the 2-D Boussinesq and the 3-D Euler equations are of fundamental importance to the field of fluid mechanics. We develop a new numerical framework, employing physics-informed neural networks (PINNs), that discover, for the first time, a smooth self-similar blow-up profile for both equations. The solution itself could form the basis of a future computer-assisted proof of blow-up for both equations. In addition, we demonstrate PINNs could be successfully applied to find unstable self-similar solutions to fluid equations by constructing the first example of an unstable self-similar solution to the C\'ordoba-C\'ordoba-Fontelos equation. We show that our numerical framework is both robust and adaptable to various other equations.
翻訳日:2023-05-10 01:21:57 公開日:2023-05-07
# ニューラルネットワークの普遍性のための統一的で構成的なフレームワーク

A Unified and Constructive Framework for the Universality of Neural Networks ( http://arxiv.org/abs/2112.14877v4 )

ライセンス: Link先を確認
Tan Bui-Thanh(参考訳) 多くのニューラルネットワークが複雑なタスクや関数を複製できる理由の1つは、その普遍性である。 過去数十年間、ニューラルネットワークの理論は飛躍的に進歩してきたが、ニューラルネットワークの普遍性のための単一の構成的枠組みは、いまだ利用できない。 本稿は,既存の機能を含む多数のアクティベーション関数の普遍性のための統一的かつ建設的なフレームワークを提供する最初の試みである。 フレームワークの中心にあるのは、ニューラルネットワーク近似id(na)の概念である。 主な結果は: "em any nai activation function is universal} である。 既存のアクティベーション関数のほとんどは nai であり、従って compacta 上の連続関数の空間において普遍的である。 この枠組みは、現代のそれよりもいくつかの利点をもたらす。 まず, 関数解析, 確率論, 数値解析などの基礎的手法を用いて構成する。 第二に、既存のアクティベーション関数のほとんどに有効である最初の統一試行である。 第3に、このフレームワークは製品として、Mish、SiLU、ELU、GELUなど、既存のアクティベーション関数のいくつかに対する最初の普遍性証明を提供する。 第4に、ほとんどのアクティベーション関数に対する新しい証明を提供する。 第5に、普遍性を保証する新しい活性化関数を発見する。 第6のフレームワークは、与えられたアクティベーションとエラー耐性のために、所定の数のニューロンと重み/バイアス値を持つ対応する1つの隠れたニューラルネットワークのアーキテクチャを正確に提供する。 第7に、この枠組みにより、有利な非漸近率で最初の普遍近似を抽象的に提示することができる。

One of the reasons why many neural networks are capable of replicating complicated tasks or functions is their universal property. Though the past few decades have seen tremendous advances in theories of neural networks, a single constructive framework for neural network universality remains unavailable. This paper is the first effort to provide a unified and constructive framework for the universality of a large class of activation functions including most of existing ones. At the heart of the framework is the concept of neural network approximate identity (nAI). The main result is: {\em any nAI activation function is universal}. It turns out that most of existing activation functions are nAI, and thus universal in the space of continuous functions on compacta. The framework induces {\bf several advantages} over the contemporary counterparts. First, it is constructive with elementary means from functional analysis, probability theory, and numerical analysis. Second, it is the first unified attempt that is valid for most of existing activation functions. Third, as a by product, the framework provides the first universality proof for some of the existing activation functions including Mish, SiLU, ELU, GELU, and etc. Fourth, it provides new proofs for most activation functions. Fifth, it discovers new activation functions with guaranteed universality property. Sixth, for a given activation and error tolerance, the framework provides precisely the architecture of the corresponding one-hidden neural network with predetermined number of neurons, and the values of weights/biases. Seventh, the framework allows us to abstractly present the first universal approximation with favorable non-asymptotic rate.
翻訳日:2023-05-10 01:21:14 公開日:2023-05-07
# 非線形双曲保存法における最小二乗ニューラルネットワーク(LSNN)法:離散分散演算子

Least-Squares Neural Network (LSNN) Method For Scalar Nonlinear Hyperbolic Conservation Laws: Discrete Divergence Operator ( http://arxiv.org/abs/2110.10895v3 )

ライセンス: Link先を確認
Zhiqiang Cai, Jingshuang Chen, Min Liu(参考訳) 7, 6] におけるスカラー線形・非線形双曲保存則(HCL)の解法として, 最小二乗ニューラルネットワーク(LSNN)法を導入した。 この方法は、等価最小二乗法(LS)の定式化に基づいており、ReLUニューラルネットワークを近似関数として使用し、不連続関数を未知のインターフェース位置で近似するのに最適である。 HCLのLSNN法の設計において、微分演算子の数値近似は重要な要素であり、座標方向に沿った標準的な数値や自動微分は、しばしば失敗するNN法につながる。 この課題を克服するため,本稿ではhclを空間と時間の発散形式で書き直し,新たな離散発散演算子を導入する。 その結果,LSNN法は人工粘度のペナル化を伴わないことがわかった。 理論的には、離散発散作用素の精度は不連続解に対しても推定される。 数値的には、新しい離散分散演算子を用いたLSNN法は、凸流と非凸流の双方でいくつかのベンチマーク問題に対して試験され、希薄化、衝撃波、複合波の問題に対する正しい物理解を計算することができた。 エントロピー条件、全変動、および/又は人工粘度をペナライゼーションすることなく、振動やスメアリングをすることなく、基礎となる問題の衝撃を捉えることができる。

A least-squares neural network (LSNN) method was introduced for solving scalar linear and nonlinear hyperbolic conservation laws (HCLs) in [7, 6]. This method is based on an equivalent least-squares (LS) formulation and uses ReLU neural network as approximating functions, making it ideal for approximating discontinuous functions with unknown interface location. In the design of the LSNN method for HCLs, the numerical approximation of differential operators is a critical factor, and standard numerical or automatic differentiation along coordinate directions can often lead to a failed NN-based method. To overcome this challenge, this paper rewrites HCLs in their divergence form of space and time and introduces a new discrete divergence operator. As a result, the proposed LSNN method is free of penalization of artificial viscosity. Theoretically, the accuracy of the discrete divergence operator is estimated even for discontinuous solutions. Numerically, the LSNN method with the new discrete divergence operator was tested for several benchmark problems with both convex and non-convex fluxes, and was able to compute the correct physical solution for problems with rarefaction, shock or compound waves. The method is capable of capturing the shock of the underlying problem without oscillation or smearing, even without any penalization of the entropy condition, total variation, and/or artificial viscosity.
翻訳日:2023-05-10 01:20:41 公開日:2023-05-07
# フィードバックによる勾配上昇パルス工学

Gradient Ascent Pulse Engineering with Feedback ( http://arxiv.org/abs/2203.04271v2 )

ライセンス: Link先を確認
Riccardo Porotti, Vittorio Peano, Florian Marquardt(参考訳) 量子制御とフィードバックに対する効率的なアプローチは、センシングから量子計算まで、量子技術にとって不可欠である。 オープンループ制御タスクは、量子力学の微分可能なモデルに依存する勾配上昇パルス工学(GRAPE)のような手法を含む最適化手法を用いて、うまく解決されている。 フィードバックタスクでは、測定結果に基づいて条件づけられた戦略を見つけることを目的としているため、そのような手法は直接適用されない。 本研究では,モデルのない強化学習の概念を取り入れたフィードバック-GRAPEを導入し,強い確率的(離散的あるいは連続的)測定に対する応答を取り入れながら,量子力学による直進勾配の上昇を継続する。 キャビティQED設定に基づく様々なシナリオを考慮したパワーについて説明する。 提案手法は,雑音発生時の状態形成と安定化のための解釈可能なフィードバック戦略を導出する。 提案手法は,マルチ量子ビットデバイスのキャリブレーション,線形光学量子計算戦略,適応計測を用いた量子エンハンスセンシング,量子誤差補正など,幅広いフィードバックタスクにおける戦略の発見に応用できる。

Efficient approaches to quantum control and feedback are essential for quantum technologies, from sensing to quantum computation. Open-loop control tasks have been successfully solved using optimization techniques, including methods like gradient-ascent pulse engineering (GRAPE), relying on a differentiable model of the quantum dynamics. For feedback tasks, such methods are not directly applicable, since the aim is to discover strategies conditioned on measurement outcomes. In this work, we introduce feedback-GRAPE, which borrows some concepts from model-free reinforcement learning to incorporate the response to strong stochastic (discrete or continuous) measurements, while still performing direct gradient ascent through the quantum dynamics. We illustrate its power considering various scenarios based on cavity QED setups. Our method yields interpretable feedback strategies for state preparation and stabilization in the presence of noise. Our approach could be employed for discovering strategies in a wide range of feedback tasks, from calibration of multi-qubit devices to linear-optics quantum computation strategies, quantum-enhanced sensing with adaptive measurements, and quantum error correction.
翻訳日:2023-05-10 01:14:00 公開日:2023-05-07
# 胸部X線写真を用いたDense Convolutional Networkを用いた胸部疾患のマルチラベル分類

Multi-Label Classification of Thoracic Diseases using Dense Convolutional Network on Chest Radiographs ( http://arxiv.org/abs/2202.03583v2 )

ライセンス: Link先を確認
Dipkamal Bhusal, Sanjeeb Prasad Panday(参考訳) X線画像の病理を識別する伝統的な方法は、熟練した人間の解釈に大きく依存しており、しばしば時間を要する。 ディープラーニング技術の出現により、自動疾患診断システムの開発が可能となったが、そのようなシステムの性能は、モデルの品質とそれが提供する解釈可能性のレベルに依存する。 本稿では,高密度畳み込みニューラルネットワーク(DenseNet)とGRADCAMを用いたモデル解釈可能性を用いた胸部X線診断モデルを提案する。 我々は,前頭前頭X線を用いてモデルを訓練し,受信器動作特性曲線 (AUC) の下の領域を含む様々な定量的指標を用いて評価した。 提案モデルでは,NoduleのAUCスコアは0.655,精度0.66のAUCスコアは0.826で,AUCスコアは0.896,Noduleは0.655であった。 モデル解釈可能性の向上と意思決定における信頼構築のために,X線上にヒートマップを作成し,モデルが注意を払って予測を行う領域を可視化した。 さらに,モデル予測の不確かさを,測定結果の信頼区間を提示することによって推定した。 提案する疾患診断モデルでは,マルチラベル疾患診断タスクにおいて高性能な指標が得られ,モデル解釈可能性に対するモデル予測の可視化が可能であった。

Traditional methods of identifying pathologies in X-ray images rely heavily on skilled human interpretation and are often time-consuming. The advent of deep learning techniques has enabled the development of automated disease diagnosis systems, but the performance of such systems is dependent on the quality of the model and the level of interpretability it provides. In this paper, we propose a multi-label disease diagnosis model for chest X-rays using a dense convolutional neural network (DenseNet) and model interpretability using GRADCAM. We trained our model using frontal X-rays and evaluated its performance using various quantitative metrics, including the area under the receiver operating characteristic curve (AUC). Our proposed model achieved the highest AUC score of 0.896 for the condition Cardiomegaly with an accuracy of 0.826, while the lowest AUC score was obtained for Nodule, at 0.655 with an accuracy of 0.66. To promote model interpretability and build trust in decision making, we generated heatmaps on X-rays to visualize the regions where the model paid attention to make certain predictions. Additionally, we estimated the uncertainty in model predictions by presenting the confidence interval of our measurements. Our proposed automated disease diagnosis model obtained high performance metrics in multi-label disease diagnosis tasks and provided visualization of model predictions for model interpretability.
翻訳日:2023-05-10 01:12:38 公開日:2023-05-07
# DPMS: 一般化MaxSAT解法におけるADDに基づくシンボリックアプローチ

DPMS: An ADD-Based Symbolic Approach for Generalized MaxSAT Solving ( http://arxiv.org/abs/2205.03747v2 )

ライセンス: Link先を確認
Anastasios Kyrillidis, Moshe Y. Vardi, Zhiwei Zhang(参考訳) ブールマックスSATは、Min-MaxSATやMax-hybrid-SATのような一般化された定式化とともに、ブール推論の基本的な最適化問題である。 MaxSATの既存の手法は、ベンチマークをCNF形式で解くことに成功している。 しかし 対処する能力が欠如しています 1)XORなどの(非CNF)ハイブリッド制約 2) 一般化されたmaxsat問題。 この問題に対処するために,代数的決定図(ADDs)に基づいて,ハイブリッド制約付き一般化MaxSAT問題の解法として,短縮DPMS(emph{Dynamic-Programming-MaxSAT} または DPMS)を提案する。 ADDと(段階的な)プロジェクト-ジョイントツリービルダーの力により、当社の汎用フレームワークは、MaxSAT、Min-MaxSAT、MinSATといったCNF-MaxSATの多くの一般化をハイブリッド制約で認めています。 さらに、DPMSは低い幅のインスタンスで確実にスケールする。 実験の結果、DPMSは様々な手法に基づく他のアルゴリズムがすべて失敗し、特定の問題を迅速に解決できることがわかった。 したがって、DPMSは有望なフレームワークであり、将来さらなる調査を招待する新たな研究ラインを開く。

Boolean MaxSAT, as well as generalized formulations such as Min-MaxSAT and Max-hybrid-SAT, are fundamental optimization problems in Boolean reasoning. Existing methods for MaxSAT have been successful in solving benchmarks in CNF format. They lack, however, the ability to handle 1) (non-CNF) hybrid constraints, such as XORs and 2) generalized MaxSAT problems natively. To address this issue, we propose a novel dynamic-programming approach for solving generalized MaxSAT problems with hybrid constraints -- called \emph{Dynamic-Programming-MaxSAT} or DPMS for short -- based on Algebraic Decision Diagrams (ADDs). With the power of ADDs and the (graded) project-join-tree builder, our versatile framework admits many generalizations of CNF-MaxSAT, such as MaxSAT, Min-MaxSAT, and MinSAT with hybrid constraints. Moreover, DPMS scales provably well on instances with low width. Empirical results indicate that DPMS is able to solve certain problems quickly, where other algorithms based on various techniques all fail. Hence, DPMS is a promising framework and opens a new line of research that invites more investigation in the future.
翻訳日:2023-05-10 01:04:41 公開日:2023-05-07
# タスク数が少ない小ショット学習のための区間境界補間法

Interval Bound Interpolation for Few-shot Learning with Few Tasks ( http://arxiv.org/abs/2204.03511v4 )

ライセンス: Link先を確認
Shounak Datta, Sankha Subhra Mullick, Anish Chakrabarty, Swagatam Das(参考訳) 少数ショット学習は、さまざまなタスクのトレーニングから得られた知識を、ラベル付きデータの限られた量で同じタスク分散から未発見のタスクに移すことを目的としている。 効果的な少数ショット一般化の基本的な要件は、タスク多様体のよい表現を学ぶことである。 限られた数のタスクしかトレーニングできない場合、これはより難しくなります。 このような少数タスクの少数ショット設定では、タスク多様体から局所的な近傍を明示的に保存し、これを利用してトレーニングのための人工的なタスクを生成することが有益である。 そこで本研究では,頑健な学習文献から少人数学習への区間境界の概念を導入する。 インターバルバウンダリは、トレーニングタスクの周辺を特徴付けるために使用される。 これらの近傍はタスクとそれぞれの境界の間の距離を最小化することで保存することができる。 次に、利用可能なタスクと各インターバル境界を補間することにより、トレーニングのための新しいタスクを人工的に形成する。 このフレームワークをモデルに依存しないメタラーニングとプロトタイプベースのメトリックラーニングの両方に適用する。 提案手法の有効性は,従来の手法と比較して,様々な分野のデータセットの性能が向上していることから明らかである。

Few-shot learning aims to transfer the knowledge acquired from training on a diverse set of tasks to unseen tasks from the same task distribution with a limited amount of labeled data. The underlying requirement for effective few-shot generalization is to learn a good representation of the task manifold. This becomes more difficult when only a limited number of tasks are available for training. In such a few-task few-shot setting, it is beneficial to explicitly preserve the local neighborhoods from the task manifold and exploit this to generate artificial tasks for training. To this end, we introduce the notion of interval bounds from the provably robust training literature to few-shot learning. The interval bounds are used to characterize neighborhoods around the training tasks. These neighborhoods can then be preserved by minimizing the distance between a task and its respective bounds. We then use a novel strategy to artificially form new tasks for training by interpolating between the available tasks and their respective interval bounds. We apply our framework to both model-agnostic meta-learning as well as prototype-based metric-learning paradigms. The efficacy of our proposed approach is evident from the improved performance on several datasets from diverse domains compared to current methods.
翻訳日:2023-05-10 01:02:56 公開日:2023-05-07
# クリップの開放性にこだわるさま

Delving into the Openness of CLIP ( http://arxiv.org/abs/2206.01986v3 )

ライセンス: Link先を確認
Shuhuai Ren, Lei Li, Xuancheng Ren, Guangxiang Zhao, Xu Sun(参考訳) Contrastive Language-Image Pre-Training (CLIP)は、画像分類を画像とテキストのマッチングタスク、すなわち、個別のカテゴリIDの代わりに対応する自然言語記述とマッチングするタスクとして定式化する。 これによりオープン語彙認識が可能となり、オープンクラスセット(オープン語彙とも呼ばれる)からゼロショットで画像を認識することができる。 しかし,モデルが任意の語彙に対して理論上はオープンであるため,クリップ様モデルのオープン性を評価することは困難であるが,その正確性は実際には異なる。 これを解決するために,語彙拡張による開度評価を漸進的な視点に置き,新しいクラスを扱うモデルの能力を評価する拡張性を定義する。 評価の結果,CLIP様モデルは真のオープンではなく,語彙が拡大するにつれて性能が低下することがわかった。 我々はさらに、CLIPの特徴空間を、表現アライメントと均一性の観点から識別する。 オープン性の過大評価は,画像特徴と新規クラスのテキスト特徴の類似性を捉えられなかったのではなく,競合するテキスト特徴の混同によるものであることが明らかになった。 今後のCLIP開放性問題の調査と分析が促進されることを願っている。

Contrastive Language-Image Pre-training (CLIP) formulates image classification as an image-to-text matching task, i.e., matching images to the corresponding natural language descriptions instead of discrete category IDs. This allows for open-vocabulary visual recognition, where the model can recognize images from an open class set (also known as an open vocabulary) in a zero-shot manner. However, evaluating the openness of CLIP-like models is challenging, as the models are open to arbitrary vocabulary in theory, but their accuracy varies in practice. To address this, we resort to an incremental perspective to assess the openness through vocabulary expansions, and define extensibility to measure a model's ability to handle novel classes. Our evaluation shows that CLIP-like models are not truly open, and their performance deteriorates as the vocabulary expands. We further dissect the feature space of CLIP from the perspectives of representation alignment and uniformity. Our investigation reveals that the overestimation of openness is due to confusion among competing text features, rather than a failure to capture the similarity between image features and text features of novel classes. We hope that our investigation and analysis will facilitate future research on the CLIP openness issue.
翻訳日:2023-05-10 00:56:03 公開日:2023-05-07
# タスク指向対話システムのヘルプネスと公正性

Helpfulness and Fairness of Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2205.12554v3 )

ライセンス: Link先を確認
Jiao Sun, Yu Hou, Jiin Kim and Nanyun Peng(参考訳) 目標指向対話システムは,ユーザの目標達成を支援する。 したがって、人間がいかに役に立つかは重要である。 しかし、目標指向対話システムの人間による有益性やその公平性はよく研究されていない。 本稿では,有用性の計算測度について検討する。 対話応答は、クエリに関連があり、一貫性があり、有用で、情報に富む場合に役立つと、最初に正式に定義する。 そこで我々は,対話応答の有用性に関する人間のアノテーションを収集し,応答の有用性を自動的に判定する分類器を構築する。 さらに,対話システムの妥当性を測定するために,対話システムの利便性レベルを異なるユーザクエリに適用することを提案する。 3つの情報探索シナリオ下での最先端の対話システムを用いた実験では、既存のシステムは、先進国よりも先進国からの概念に関する質問に役立ち、現在の目標指向対話システムに根ざした潜在的公正性に関する懸念を明らかにする傾向にある。

Goal-oriented dialogue systems aim to help users achieve certain goals. Therefore, how humans perceive their helpfulness is important. However, neither the human-perceived helpfulness of goal-oriented dialogue systems nor its fairness implication has been well studied. In this paper, we study computational measurements of helpfulness. We first formally define a dialogue response as helpful if it is relevant & coherent, useful, and informative to a query. Then, we collect human annotations for the helpfulness of dialogue responses based on our definition and build a classifier to automatically determine the helpfulness of a response. We further propose to use the helpfulness level of a dialogue system towards different user queries to measure the fairness of a dialogue system. Experiments with state-of-the-art dialogue systems under three information-seeking scenarios reveal that existing systems tend to be more helpful for questions regarding concepts from highly-developed countries than less-developed countries, uncovering potential fairness concerns underlying the current goal-oriented dialogue systems.
翻訳日:2023-05-10 00:53:32 公開日:2023-05-07
# アンサンブルカルマン更新の非漸近的解析:有効次元と局在

Non-Asymptotic Analysis of Ensemble Kalman Updates: Effective Dimension and Localization ( http://arxiv.org/abs/2208.03246v2 )

ライセンス: Link先を確認
Omar Al Ghattas, Daniel Sanz-Alonso(参考訳) 逆問題やデータ同化のための現代のアルゴリズムの多くは、先行予測と観測データとをブレンドするために、アンサンブル・カルマンの更新に依存している。 アンサンブルカルマン法は小さなアンサンブルサイズでよく機能するが、これは各粒子の生成に費用がかかるアプリケーションに必須である。 本稿では,先行共分散が高速スペクトル崩壊や近似空間性により適度な有効次元を持つ場合,小さなアンサンブルサイズが十分である理由を,カルマンの更新の漸近的でない解析法を開発した。 本理論は,摂動観測,平方根フィルタリング,ローカライゼーションを用いたアンサンブルカルマン更新のいくつかの実装を比較し,統一的な枠組みで提案する。 解析の一環として,独立性のある約スパース行列に対する次元自由共分散推定境界を新たに開発した。

Many modern algorithms for inverse problems and data assimilation rely on ensemble Kalman updates to blend prior predictions with observed data. Ensemble Kalman methods often perform well with a small ensemble size, which is essential in applications where generating each particle is costly. This paper develops a non-asymptotic analysis of ensemble Kalman updates that rigorously explains why a small ensemble size suffices if the prior covariance has moderate effective dimension due to fast spectrum decay or approximate sparsity. We present our theory in a unified framework, comparing several implementations of ensemble Kalman updates that use perturbed observations, square root filtering, and localization. As part of our analysis, we develop new dimension-free covariance estimation bounds for approximately sparse matrices that may be of independent interest.
翻訳日:2023-05-10 00:46:17 公開日:2023-05-07
# 2成分分解アルゴリズムとオープン量子システムシミュレーション

Two-Unitary Decomposition Algorithm and Open Quantum System Simulation ( http://arxiv.org/abs/2207.10007v2 )

ライセンス: Link先を確認
Nishchay Suri, Joseph Barreto, Stuart Hadfield, Nathan Wiebe, Filip Wudarski, Jeffrey Marshall(参考訳) 非単体進化に続く量子システムの現実的な相互作用を記述する一般的な量子プロセスのシミュレーションは、単体ゲートを直接実装する従来の量子コンピュータでは難しい。 szのような有望な手法で複雑度を分析する。 -非ユニタリ作用素の確率的実現により開系をシミュレートできるユニタリの動的拡張と線形結合は、エンコーディングと状態準備の両方に複数の呼び出しを必要とする。 量子特異値変換アルゴリズムを用いて,非零特異値が$a=(u_1+u_2)/2$であるような,d$次元作用素 $a$ を分解する量子二元分解 (tud) アルゴリズムを提案し,o(d^3)$のオーバーヘッドを持つ古典的コストの特異値分解 (svd) を回避する。 2つのユニタリは決定論的に実装できるため、それぞれの状態準備オラクルへの単一の呼び出しのみが必要になる。 符号化オラクルへの呼び出しは、測定の許容誤差を犠牲にして大幅に削減することができる。 TUD法は、非ユニタリ作用素を2つのユニタリとして実装することができるため、線形代数や量子機械学習にも応用できる。

Simulating general quantum processes that describe realistic interactions of quantum systems following a non-unitary evolution is challenging for conventional quantum computers that directly implement unitary gates. We analyze complexities for promising methods such as the Sz.-Nagy dilation and linear combination of unitaries that can simulate open systems by the probabilistic realization of non-unitary operators, requiring multiple calls to both the encoding and state preparation oracles. We propose a quantum two-unitary decomposition (TUD) algorithm to decompose a $d$-dimensional operator $A$ with non-zero singular values as $A=(U_1+U_2)/2$ using the quantum singular value transformation algorithm, avoiding classically expensive singular value decomposition (SVD) with an $O(d^3)$ overhead in time. The two unitaries can be deterministically implemented, thus requiring only a single call to the state preparation oracle for each. The calls to the encoding oracle can also be reduced significantly at the expense of an acceptable error in measurements. Since the TUD method can be used to implement non-unitary operators as only two unitaries, it also has potential applications in linear algebra and quantum machine learning.
翻訳日:2023-05-10 00:44:46 公開日:2023-05-07
# tabpfn:小さな表の分類問題を1秒で解決するトランスフォーマー

TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second ( http://arxiv.org/abs/2207.01848v5 )

ライセンス: Link先を確認
Noah Hollmann, Samuel M\"uller, Katharina Eggensperger, Frank Hutter(参考訳) 我々は,少量の表型データセットの教師付き分類を1秒未満で実行し,ハイパーパラメータチューニングを必要とせず,最先端の分類手法と競合するトレーニングされたトランスフォーマであるtabpfnを提案する。 tabpfnは、トレーニングとテストサンプルをセット値入力として受け入れ、1回のフォワードパスでテストセット全体の予測を行うネットワークの重みに完全に関係しています。 TabPFNはPFN(Presideed-Data Fitted Network)で、オフラインで1度トレーニングされ、ベイジアン推論を事前の合成データセットに近似する。 これは、単純な構造を好む構造的因果モデルの大きな空間を伴っている。 最大10000のトレーニングデータポイントを含む18のデータセット、100までの純粋に数値的な特徴を欠いた100の値、最大10のクラスについて、本手法がブーストツリーよりも明らかに優れ、最大70$\times$の複雑なautomlシステムと同等のパフォーマンスを示す。 これはGPUが利用可能になると3200$\times$スピードアップになる。 また、これらの結果をOpenMLから67個の小さな数値データセットで検証する。 すべてのコード、トレーニング済みのTabPFN、インタラクティブなブラウザデモ、Colabノートブックをhttps://github.com/automl/TabPFNで提供しています。

We present TabPFN, a trained Transformer that can do supervised classification for small tabular datasets in less than a second, needs no hyperparameter tuning and is competitive with state-of-the-art classification methods. TabPFN is fully entailed in the weights of our network, which accepts training and test samples as a set-valued input and yields predictions for the entire test set in a single forward pass. TabPFN is a Prior-Data Fitted Network (PFN) and is trained offline once, to approximate Bayesian inference on synthetic datasets drawn from our prior. This prior incorporates ideas from causal reasoning: It entails a large space of structural causal models with a preference for simple structures. On the 18 datasets in the OpenML-CC18 suite that contain up to 1 000 training data points, up to 100 purely numerical features without missing values, and up to 10 classes, we show that our method clearly outperforms boosted trees and performs on par with complex state-of-the-art AutoML systems with up to 70$\times$ speedup. This increases to a 3200$\times$ speedup when a GPU is available. We also validate these results on an additional 67 small numerical datasets from OpenML. We provide all our code, the trained TabPFN, an interactive browser demo and a Colab notebook at https://github.com/automl/TabPFN.
翻訳日:2023-05-10 00:44:04 公開日:2023-05-07
# 自然言語理解における大規模言語モデルのショートカット学習

Shortcut Learning of Large Language Models in Natural Language Understanding ( http://arxiv.org/abs/2208.11857v2 )

ライセンス: Link先を確認
Mengnan Du, Fengxiang He, Na Zou, Dacheng Tao and Xia Hu(参考訳) 大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。 しかし、これらのllmは予測の近道としてデータセットのバイアスとアーティファクトに依存するかもしれない。 これは、その一般化性と敵対的堅牢性に大きな影響を与えている。 本稿では,LLMにおけるショートカット学習とロバストネスの課題に対処する最近の展開について概説する。 まず,言語モデルのショートカット学習の概念を紹介する。 次に,言語モデルにおける近道学習行動を識別する手法を導入し,近道学習の理由を特徴付けるとともに,軽減策を提案する。 最後に,LLMの分野を前進させるために重要な研究課題と今後の研究方向性について論じる。

Large language models (LLMs) have achieved state-of-the-art performance on a series of natural language understanding tasks. However, these LLMs might rely on dataset bias and artifacts as shortcuts for prediction. This has significantly affected their generalizability and adversarial robustness. In this paper, we provide a review of recent developments that address the shortcut learning and robustness challenge of LLMs. We first introduce the concepts of shortcut learning of language models. We then introduce methods to identify shortcut learning behavior in language models, characterize the reasons for shortcut learning, as well as introduce mitigation solutions. Finally, we discuss key research challenges and potential research directions in order to advance the field of LLMs.
翻訳日:2023-05-10 00:37:01 公開日:2023-05-07
# 混合状態のレートゆがみ理論

Rate-Distortion Theory for Mixed States ( http://arxiv.org/abs/2208.11698v2 )

ライセンス: Link先を確認
Zahra Baghali Khanian and Kohdai Kuroiwa and Debbie Leung(参考訳) 本稿では,エンコーダが側情報システムにアクセス可能な混合量子状態のアンサンブルの漸近的に多数のコピーを圧縮することを検討する。 メリットの数字は、コピー単位またはローカルエラー基準です。 速度歪理論は圧縮率とコピー毎の誤差の間のトレードオフを研究する。 最適トレードオフは、一定の歪みを与える最良のレートであるレート歪関数によって特徴づけられる。 本稿では,混合状態圧縮のレートゆらぎ関数を導出する。 エンタングルメント支援シナリオと無支援シナリオにおけるレート歪み関数はそれぞれ、シングルレターの相互情報量と、精製の正規化エンタングルメントである。 通信と絡み合いの両方の消費が考慮される一般的な設定として、全キュービット絡み合い率領域を提案する。 我々の圧縮方式は、側情報システムの構造に依存して、視覚的および可視的な圧縮モデル(およびその中間の他のモデル)の両方をカバーする。

In this paper we consider the compression of asymptotically many i.i.d. copies of ensembles of mixed quantum states where the encoder has access to a side information system. The figure of merit is per-copy or local error criterion. Rate-distortion theory studies the trade-off between the compression rate and the per-copy error. The optimal trade-off can be characterized by the rate-distortion function, which is the best rate given a certain distortion. In this paper, we derive the rate-distortion function of mixed-state compression. The rate-distortion functions in the entanglement-assisted and unassisted scenarios are in terms of a single-letter mutual information quantity and the regularized entanglement of purification, respectively. For the general setting where the consumption of both communication and entanglement are considered, we present the full qubit-entanglement rate region. Our compression scheme covers both blind and visible compression models (and other models in between) depending on the structure of the side information system.
翻訳日:2023-05-10 00:36:52 公開日:2023-05-07
# ドメイン適応型keyphrase生成のためのgeneral-to-specific transfer labeling

General-to-Specific Transfer Labeling for Domain Adaptable Keyphrase Generation ( http://arxiv.org/abs/2208.09606v2 )

ライセンス: Link先を確認
Rui Meng, Tong Wang, Xingdi Yuan, Yingbo Zhou, Daqing He(参考訳) 訓練用キーフレーズ生成(kpg)モデルは大量の注釈付きデータを必要とするが、これは禁止的に高価であり、しばしば特定のドメインに限定される。 本研究では,各領域間の大きな分布変化がKPGモデルの伝達性を著しく阻害することを示した。 次に,kpgモデルの学習焦点を一般構文的特徴からドメイン関連意味論へ,データ効率のよい方法で徐々に誘導する3段階パイプラインを提案する。 ドメイン一般句事前学習により,web上で広く利用可能な汎用句アノテーションを用いたシーケンス・ツー・シーケンスモデルを事前学習し,幅広い領域で句を生成することができる。 結果のモデルがTransfer Labelingの段階で適用され、ドメイン固有の擬似キーフレーズが生成され、モデルが新しいドメインに適応するのに役立つ。 最後に、ターゲットドメインに完全に適応するために、真のラベルを持つ限られたデータでモデルを微調整する。 実験の結果,提案手法は,新しい領域において良質なキーフレーズを生成でき,制限されたドメイン内アノテートデータへの適応により一貫した改善が得られた。 すべてのコードとデータセットはhttps://github.com/memray/opennmt-kpg-releaseで利用可能である。

Training keyphrase generation (KPG) models require a large amount of annotated data, which can be prohibitively expensive and often limited to specific domains. In this study, we first demonstrate that large distribution shifts among different domains severely hinder the transferability of KPG models. We then propose a three-stage pipeline, which gradually guides KPG models' learning focus from general syntactical features to domain-related semantics, in a data-efficient manner. With Domain-general Phrase pre-training, we pre-train Sequence-to-Sequence models with generic phrase annotations that are widely available on the web, which enables the models to generate phrases in a wide range of domains. The resulting model is then applied in the Transfer Labeling stage to produce domain-specific pseudo keyphrases, which help adapt models to a new domain. Finally, we fine-tune the model with limited data with true labels to fully adapt it to the target domain. Our experiment results show that the proposed process can produce good-quality keyphrases in new domains and achieve consistent improvements after adaptation with limited in-domain annotated data. All code and datasets are available at https://github.com/memray/OpenNMT-kpg-release.
翻訳日:2023-05-10 00:35:20 公開日:2023-05-07
# 力と危険弧の変動による本中の物語時間の特徴付け

Characterizing narrative time in books through fluctuations in power and danger arcs ( http://arxiv.org/abs/2208.09496v3 )

ライセンス: Link先を確認
Mikaela Irene Fudolig, Thayer Alshaabi, Kathryn Cramer, Christopher M. Danforth, Peter Sheridan Dodds(参考訳) 書籍における単語使用量の変化を定量的に調べる手法が用いられてきたが、本の長さに依存しない物語の形など全般的な傾向に焦点が当てられている。 代わりに、ある特定の時点で完結した本の分数ではなく、単語の数の関数として、書籍の途中で単語がどのように変化するかに注目し、この尺度を「累積ワードタイム」と定義する。 意味的微分から得られる意味の原子価-覚醒-支配の枠組みを再解釈する ousiometrics を用いて,テキストを累積単語時間におけるパワーと危険スコアの時系列に変換する。 各時系列は経験的モード分解を用いて構成振動モードと非振動トレンドの合計に分解される。 原典のパワーと危険時刻の分解をシャッフルテキストから導出したものと比較することにより、短い本は一般的な傾向を示すだけであり、長い本は一般的な傾向に加えて変動があることがわかった。 これらの変動は通常、本の長さや図書館の分類コードに関わらず数千語という期間を持つが、本の内容や構造によって異なる。 以上の結果から,長書は短書の拡張版ではなく,短書の結合構造に類似していることが示唆された。 さらに、より長いテキストを章などのセクションに分割する必要がある編集慣行とも一致している。 提案手法は,様々な長さのテキストに対して,特に短いテキストに対して,不注意に関連情報を取り除くような大きなウィンドウサイズを用いる従来の手法とは対照的に,データ駆動分別手法も提供する。 これらの結果は、将来の計算的文学的分析、特に物語の基本単位の測定への道を開く。

While quantitative methods have been used to examine changes in word usage in books, studies have focused on overall trends, such as the shapes of narratives, which are independent of book length. We instead look at how words change over the course of a book as a function of the number of words, rather than the fraction of the book, completed at any given point; we define this measure as "cumulative word-time". Using ousiometrics, a reinterpretation of the valence-arousal-dominance framework of meaning obtained from semantic differentials, we convert text into time series of power and danger scores in cumulative word-time. Each time series is then decomposed using empirical mode decomposition into a sum of constituent oscillatory modes and a non-oscillatory trend. By comparing the decomposition of the original power and danger time series with those derived from shuffled text, we find that shorter books exhibit only a general trend, while longer books have fluctuations in addition to the general trend. These fluctuations typically have a period of a few thousand words regardless of the book length or library classification code, but vary depending on the content and structure of the book. Our findings suggest that, in the ousiometric sense, longer books are not expanded versions of shorter books, but are more similar in structure to a concatenation of shorter texts. Further, they are consistent with editorial practices that require longer texts to be broken down into sections, such as chapters. Our method also provides a data-driven denoising approach that works for texts of various lengths, in contrast to the more traditional approach of using large window sizes that may inadvertently smooth out relevant information, especially for shorter texts. These results open up avenues for future work in computational literary analysis, particularly the measurement of a basic unit of narrative.
翻訳日:2023-05-10 00:34:57 公開日:2023-05-07
# ロボットマニピュレーションにおける解釈性と相互作用の促進:ニューロシンボリックアプローチ

Enhancing Interpretability and Interactivity in Robot Manipulation: A Neurosymbolic Approach ( http://arxiv.org/abs/2210.00858v3 )

ライセンス: Link先を確認
Georgios Tziafas, Hamidreza Kasaei(参考訳) 本稿では,言語誘導視覚推論とロボット操作を結合するニューロシンボリックアーキテクチャを提案する。 非熟練の人間ユーザは、制約のない自然言語を用いてロボットに刺激を与え、参照表現(REF)、質問(VQA)、つかみ動作指示を提供する。 このシステムは、原始的スキルの共有ライブラリの利用を通じて、タスクに依存しない方法で全てのケースに取り組む。 各プリミティブは、視覚的属性の推論、空間的関係の理解、論理と列挙、アームコントロールなどの独立したサブタスクを処理する。 言語パーサは、入力クエリを、コンテキストに応じて、そのようなプリミティブからなる実行可能なプログラムにマップする。 一部のプリミティブは純粋にシンボリックな操作(カウントなど)であるが、他のプリミティブは訓練可能なニューラル関数(視覚的接地など)であるため、離散的シンボリックアプローチの解釈可能性と体系的一般化の利点と、ディープネットワークのスケーラビリティと表現力とを結びつける。 シミュレーション環境でテーブルトップシーンの3次元視覚・言語合成データセットを作成し,そのアプローチをトレーニングし,合成シーンと実世界シーンの両方で広範な評価を行う。 その結果,ユーザの語彙に対する正確性,サンプル効率,頑健性といった面でのアプローチの利点が示された。 最後に,本手法をロボットフレームワークと統合し,シミュレーションと実ロボットの両方において,対話型オブジェクトピッキングタスクの解釈可能なソリューションとして機能する方法を実証する。 データセットはhttps://gtziafas.github.io/neurosymbolic-manipulationで利用可能です。

In this paper we present a neurosymbolic architecture for coupling language-guided visual reasoning with robot manipulation. A non-expert human user can prompt the robot using unconstrained natural language, providing a referring expression (REF), a question (VQA), or a grasp action instruction. The system tackles all cases in a task-agnostic fashion through the utilization of a shared library of primitive skills. Each primitive handles an independent sub-task, such as reasoning about visual attributes, spatial relation comprehension, logic and enumeration, as well as arm control. A language parser maps the input query to an executable program composed of such primitives, depending on the context. While some primitives are purely symbolic operations (e.g. counting), others are trainable neural functions (e.g. visual grounding), therefore marrying the interpretability and systematic generalization benefits of discrete symbolic approaches with the scalability and representational power of deep networks. We generate a 3D vision-and-language synthetic dataset of tabletop scenes in a simulation environment to train our approach and perform extensive evaluations in both synthetic and real-world scenes. Results showcase the benefits of our approach in terms of accuracy, sample-efficiency, and robustness to the user's vocabulary, while being transferable to real-world scenes with few-shot visual fine-tuning. Finally, we integrate our method with a robot framework and demonstrate how it can serve as an interpretable solution for an interactive object-picking task, both in simulation and with a real robot. We make our datasets available in https://gtziafas.github.io/neurosymbolic-manipulation.
翻訳日:2023-05-10 00:28:02 公開日:2023-05-07
# テンソルコア上の効率的な量子化スパース行列演算

Efficient Quantized Sparse Matrix Operations on Tensor Cores ( http://arxiv.org/abs/2209.06979v4 )

ライセンス: Link先を確認
Shigang Li, Kazuki Osawa, Torsten Hoefler(参考訳) 指数関数的に増加するモデルサイズは、ディープラーニングの成功を継続させるが、計算の禁止とメモリコストをもたらす。 アルゴリズムの観点からは、問題を緩和するためにモデルスパース化と量子化が研究されている。 アーキテクチャの観点からは、ハードウェアベンダーはアクセラレーションのためにテンソルコアを提供する。 しかし、データレイアウトの厳格な要件と、低精度整数を効率的に操作するサポートの欠如のため、テンソルコア上でのスパースで低精度な行列操作から実用的なスピードアップを得ることは非常に困難である。 本稿では,テンソルコア上の低精度整数に対する高性能スパース行列ライブラリMagicubeを提案する。 Magicubeは、深層学習と混合精度の2つの主要なスパース操作であるSpMMとSDDMMをサポートしている。 nvidia a100 gpuの実験結果によると、magicubeは、スパースカーネルのベンダー最適化ライブラリ上で平均1.44倍(最大2.37倍)のスピードアップを達成し、エンドツーエンドスパーストランスフォーメーションの精度に匹敵する1.43倍のスピードアップを達成している。

The exponentially growing model size drives the continued success of deep learning, but it brings prohibitive computation and memory cost. From the algorithm perspective, model sparsification and quantization have been studied to alleviate the problem. From the architecture perspective, hardware vendors provide Tensor cores for acceleration. However, it is very challenging to gain practical speedups from sparse, low-precision matrix operations on Tensor cores, because of the strict requirements for data layout and lack of support for efficiently manipulating the low-precision integers. We propose Magicube, a high-performance sparse-matrix library for low-precision integers on Tensor cores. Magicube supports SpMM and SDDMM, two major sparse operations in deep learning with mixed precision. Experimental results on an NVIDIA A100 GPU show that Magicube achieves on average 1.44x (up to 2.37x) speedup over the vendor-optimized library for sparse kernels, and 1.43x speedup over the state-of-the-art with a comparable accuracy for end-to-end sparse Transformer inference.
翻訳日:2023-05-10 00:25:23 公開日:2023-05-07
# MMRNet:マルチモーダルオブジェクト検出の信頼性向上とマルチモーダル冗長性によるビンピッキングのセグメンテーション

MMRNet: Improving Reliability for Multimodal Object Detection and Segmentation for Bin Picking via Multimodal Redundancy ( http://arxiv.org/abs/2210.10842v3 )

ライセンス: Link先を確認
Yuhao Chen, Hayden Gunraj, E. Zhixuan Zeng, Robbie Meyer, Maximilian Gilles, Alexander Wong(参考訳) 近年,グローバルサプライチェーンの労働不足に対処する産業4.0インフラへの関心が高まっている。 人工知能を利用したロボットビンピッキングシステムを現実世界に展開することは、倉庫のスピードと効率を高めながら、労働者のストレスと身体的要求を減らすために特に重要になっている。 この目的のために、人工知能を利用したロボットビンピッキングシステムは、注文ピッキングの自動化に使用されるが、センサー故障などの異常発生時に高価な損傷を引き起こすリスクがある。 そのため、人工知能研究を現実世界のアプリケーションや製品に翻訳する上で、信頼性は重要な要素となる。 本稿では,マルチモーダル冗長性(mmrnet)を用いたロボットビンピッキングにおける物体検出とセグメント化のための信頼性の高い物体検出・セグメント化システムを提案する。 これは、デプロイ中のセンサ障害に対処するためにマルチモーダル冗長性の概念を導入する最初のシステムである。 特に,ゲート融合モジュールと動的アンサンブル学習を用いたマルチモーダル冗長性フレームワークを実現する。 最後に、全てのモダリティからの出力を利用して、システム全体の出力信頼性と不確実性を測定する新しいラベルフリーマルチモーダル整合性(MC)スコアを提案する。 実験により,モダリティが欠如している場合,本システムはベースラインモデルよりもはるかに信頼性の高い性能を提供することを示した。 また、我々のMCスコアは、しばしば自信過剰なモデルが生成した信頼度よりも、推論時間中の出力の信頼性指標であることを示す。

Recently, there has been tremendous interest in industry 4.0 infrastructure to address labor shortages in global supply chains. Deploying artificial intelligence-enabled robotic bin picking systems in real world has become particularly important for reducing stress and physical demands of workers while increasing speed and efficiency of warehouses. To this end, artificial intelligence-enabled robotic bin picking systems may be used to automate order picking, but with the risk of causing expensive damage during an abnormal event such as sensor failure. As such, reliability becomes a critical factor for translating artificial intelligence research to real world applications and products. In this paper, we propose a reliable object detection and segmentation system with MultiModal Redundancy (MMRNet) for tackling object detection and segmentation for robotic bin picking using data from different modalities. This is the first system that introduces the concept of multimodal redundancy to address sensor failure issues during deployment. In particular, we realize the multimodal redundancy framework with a gate fusion module and dynamic ensemble learning. Finally, we present a new label-free multi-modal consistency (MC) score that utilizes the output from all modalities to measure the overall system output reliability and uncertainty. Through experiments, we demonstrate that in an event of missing modality, our system provides a much more reliable performance compared to baseline models. We also demonstrate that our MC score is a more reliability indicator for outputs during inference time compared to the model generated confidence scores that are often over-confident.
翻訳日:2023-05-10 00:18:12 公開日:2023-05-07
# CLIP-PAE: 絡み合った、解釈可能な、制御可能なテキストガイド型顔マニピュレーションのための関連特徴抽出のための投影拡張埋め込み

CLIP-PAE: Projection-Augmentation Embedding to Extract Relevant Features for a Disentangled, Interpretable, and Controllable Text-Guided Face Manipulation ( http://arxiv.org/abs/2210.03919v4 )

ライセンス: Link先を確認
Chenliang Zhou, Fangcheng Zhong, Cengiz Oztireli(参考訳) 最近導入されたContrastive Language- Image Pre-Training (CLIP) は、画像とテキストを結合した潜在空間に埋め込むことでブリッジする。 これにより、テキストによる説明を提供することで、入力画像を操作することを目的とした文献を多用する扉を開く。 しかし、画像とテキストの埋め込みの相違により、最適化対象としてテキスト埋め込みを使用することで、結果の画像に望ましくないアーティファクトをしばしば導入する。 絡み合い、解釈可能性、制御性も操作の保証が難しい。 これらの問題を緩和するために,関連するプロンプトにまたがるコーパス部分空間を定義し,特定の画像特性をキャプチャする。 テキスト誘導画像操作の性能向上のための最適化ターゲットとして,CLIPプロジェクション拡張埋め込み(PAE)を導入する。 提案手法は単純で汎用的なパラダイムであり,任意のCLIPベースの画像操作アルゴリズムにスムーズに組み込むことができる。 本手法の有効性を示すために,いくつかの理論および経験的研究を行った。 ケーススタディとして,テキスト誘導型セマンティックフェイス編集の手法を用いる。 我々はPAEが、最先端の品質と精度で、より不整合で、解釈可能で、制御可能な画像操作を促進することを定量的に、質的に証明する。

Recently introduced Contrastive Language-Image Pre-Training (CLIP) bridges images and text by embedding them into a joint latent space. This opens the door to ample literature that aims to manipulate an input image by providing a textual explanation. However, due to the discrepancy between image and text embeddings in the joint space, using text embeddings as the optimization target often introduces undesired artifacts in the resulting images. Disentanglement, interpretability, and controllability are also hard to guarantee for manipulation. To alleviate these problems, we propose to define corpus subspaces spanned by relevant prompts to capture specific image characteristics. We introduce CLIP Projection-Augmentation Embedding (PAE) as an optimization target to improve the performance of text-guided image manipulation. Our method is a simple and general paradigm that can be easily computed and adapted, and smoothly incorporated into any CLIP-based image manipulation algorithm. To demonstrate the effectiveness of our method, we conduct several theoretical and empirical studies. As a case study, we utilize the method for text-guided semantic face editing. We quantitatively and qualitatively demonstrate that PAE facilitates a more disentangled, interpretable, and controllable image manipulation with state-of-the-art quality and accuracy.
翻訳日:2023-05-10 00:15:53 公開日:2023-05-07
# 効率的な音声分類のための簡易プールフロントエンド

Simple Pooling Front-ends For Efficient Audio Classification ( http://arxiv.org/abs/2210.00943v5 )

ライセンス: Link先を確認
Xubo Liu, Haohe Liu, Qiuqiang Kong, Xinhao Mei, Mark D. Plumbley, Wenwu Wang(参考訳) 近年、デバイス上のシナリオに効率的な音声ニューラルネットワークを構築することへの関心が高まっている。 既存のアプローチのほとんどは、モデルプルーニングなどの手法を用いて、オーディオニューラルネットワークのサイズを減らすように設計されている。 本研究では,複雑な手法を用いてモデルサイズを小さくする代わりに,入力音声特徴量(メルスペクトログラムなど)の時間的冗長性を排除することが,効率的な音声分類に有効なアプローチであることを示す。 そこで我々は,単純な非パラメトリックプーリング操作を用いて,メルスペクトル内の冗長情報を低減できる単純なプールフロントエンド(SimPFs)のファミリーを提案する。 我々は,SimPFの性能を評価するために,4つの音声分類タスクについて広範な実験を行った。 実験結果から,SimPFは既設の音声ニューラルネットワークの浮動小数点演算(FLOP)の半数以上を削減できることがわかった。

Recently, there has been increasing interest in building efficient audio neural networks for on-device scenarios. Most existing approaches are designed to reduce the size of audio neural networks using methods such as model pruning. In this work, we show that instead of reducing model size using complex methods, eliminating the temporal redundancy in the input audio features (e.g., mel-spectrogram) could be an effective approach for efficient audio classification. To do so, we proposed a family of simple pooling front-ends (SimPFs) which use simple non-parametric pooling operations to reduce the redundant information within the mel-spectrogram. We perform extensive experiments on four audio classification tasks to evaluate the performance of SimPFs. Experimental results show that SimPFs can achieve a reduction in more than half of the number of floating point operations (FLOPs) for off-the-shelf audio neural networks, with negligible degradation or even some improvements in audio classification performance.
翻訳日:2023-05-10 00:15:18 公開日:2023-05-07
# web ベース質問応答とマルチモーダル融合を用いた知識ベース補完

Knowledge Base Completion using Web-Based Question Answering and Multimodal Fusion ( http://arxiv.org/abs/2211.07098v4 )

ライセンス: Link先を確認
Yang Peng and Daisy Zhe Wang(参考訳) 過去数年間、大量の知識を蓄積する大規模な知識基盤が構築されてきた。 しかし、これらの知識は極めて不完全である。 この問題を解決するために,構造化されていない情報と構造化されていない情報をマルチモーダルに融合したWebベースの質問応答システムを提案する。 知識ベース補完のためにWebからの非構造化情報を活用するために,多モーダル特徴と質問テンプレートを用いたWebベースの質問応答システムを設計し,欠落した事実を抽出し,極めて少ない質問で優れた性能を実現する。 抽出品質を向上させるため、質問応答システムは、エンティティタイプやエンティティ間関連性といった知識ベースからの構造化情報を用いる。

Over the past few years, large knowledge bases have been constructed to store massive amounts of knowledge. However, these knowledge bases are highly incomplete. To solve this problem, we propose a web-based question answering system system with multimodal fusion of unstructured and structured information, to fill in missing information for knowledge bases. To utilize unstructured information from the Web for knowledge base completion, we design a web-based question answering system using multimodal features and question templates to extract missing facts, which can achieve good performance with very few questions. To help improve extraction quality, the question answering system employs structured information from knowledge bases, such as entity types and entity-to-entity relatedness.
翻訳日:2023-05-10 00:08:21 公開日:2023-05-07
# 光画像を用いた機械学習におけるデータセットドリフト制御のためのデータモデル

Data Models for Dataset Drift Controls in Machine Learning With Optical Images ( http://arxiv.org/abs/2211.02578v3 )

ライセンス: Link先を確認
Luis Oala, Marco Aversa, Gabriel Nobis, Kurt Willis, Yoan Neuenschwander, Mich\`ele Buck, Christian Matek, Jerome Extermann, Enrico Pomarico, Wojciech Samek, Roderick Murray-Smith, Christoph Clausen, Bruno Sanguinetti(参考訳) カメラ画像は機械学習研究においてユビキタスである。 また、医療や環境調査にまたがる重要なサービスの提供においても中心的な役割を担っている。 しかし、これらの領域における機械学習モデルの適用は、堅牢性に関する懸念から制限されている。 主な障害モードは、トレーニングデータとデプロイメントデータの違いによるパフォーマンス低下である。 このようなデータセットドリフトに対する機械学習モデルのロバスト性を検証する方法は存在するが、既存のアプローチでは、関心のある主要な対象であるデータに対する明示的なモデルは考慮されていない。 これにより、データ生成と下流機械学習モデルのパフォーマンスを物理的に正確な方法で研究し、理解する能力が制限される。 本研究では、従来の機械学習と物理光学を組み合わせることで、明示的かつ微分可能なデータモデルを得ることにより、この制限を克服する方法を示す。 本研究では、画像データに対してそのようなデータモデルを構築する方法を示し、データセットのドリフトに関連する下流機械学習モデルの性能を制御する。 結果は3つの応用に抽出される。 まず、ドリフト合成により、物理的に忠実なドリフトテストケースが生成され、モデル選択とターゲットの一般化が可能となる。 次に、機械学習タスクモデルとデータモデル間の勾配接続により、データ生成の変化に対するタスクモデルの感度を高度かつ正確に許容することができる。 これらのドリフト法医学は、タスクモデルを実行することができる許容されるデータ環境を正確に特定するために使用することができる。 第三に、ドリフト最適化は、タスクモデルがより速く学習し、データ生成プロセス自体を効果的に最適化できるドリフトを作成する可能性を開く。 オープンコードとデータセットにアクセスするガイドは、https://github.com/aiaudit-org/raw2logitで入手できる。

Camera images are ubiquitous in machine learning research. They also play a central role in the delivery of important services spanning medicine and environmental surveying. However, the application of machine learning models in these domains has been limited because of robustness concerns. A primary failure mode are performance drops due to differences between the training and deployment data. While there are methods to prospectively validate the robustness of machine learning models to such dataset drifts, existing approaches do not account for explicit models of the primary object of interest: the data. This limits our ability to study and understand the relationship between data generation and downstream machine learning model performance in a physically accurate manner. In this study, we demonstrate how to overcome this limitation by pairing traditional machine learning with physical optics to obtain explicit and differentiable data models. We demonstrate how such data models can be constructed for image data and used to control downstream machine learning model performance related to dataset drift. The findings are distilled into three applications. First, drift synthesis enables the controlled generation of physically faithful drift test cases to power model selection and targeted generalization. Second, the gradient connection between machine learning task model and data model allows advanced, precise tolerancing of task model sensitivity to changes in the data generation. These drift forensics can be used to precisely specify the acceptable data environments in which a task model may be run. Third, drift optimization opens up the possibility to create drifts that can help the task model learn better faster, effectively optimizing the data generating process itself. A guide to access the open code and datasets is available at https://github.com/aiaudit-org/raw2logit.
翻訳日:2023-05-10 00:07:00 公開日:2023-05-07
# 韻律的特徴と言語的特徴を用いた内容認識型ニューラルテキスト音声MOS予測の検討

Investigating Content-Aware Neural Text-To-Speech MOS Prediction Using Prosodic and Linguistic Features ( http://arxiv.org/abs/2211.00342v2 )

ライセンス: Link先を確認
Alexandra Vioni, Georgia Maniati, Nikolaos Ellinas, June Sig Sung, Inchul Hwang, Aimilios Chalamandaris, Pirros Tsiakoulis(参考訳) MOS予測ニューラルモデルに基づく自動合成音声評価の最先端手法について検討した。 このようなMOS予測モデルには、スペクトル特徴を入力として使用するMOSNetと、音声信号を直接入力として使用する事前学習モデルに依存するSSL-MOSが含まれる。 現代の高品質のニューラルttsシステムでは、音声コンテンツに対する韻律的適切性は、音声自然性にとって決定的な要因である。 そこで本研究では,MOS予測システムに付加的な入力として韻律的・言語的特徴を含め,予測結果への影響を評価することを提案する。 音素レベルF0と持続時間の特徴を韻律入力とみなし、タコトロンエンコーダ出力、POSタグ、BERT埋め込みを高レベル言語入力とみなす。 すべてのMOS予測システムは、クラウドソースされた自然性MOS評価を備えた、TSSのみのニューラルネットワークであるSOMOSでトレーニングされている。 提案手法は,発話レベルおよびシステムレベルの予測において,予測されたMOSスコアと基礎的事実との相関性を改善することにより,MOS予測タスクにおいて有益であることを示す。

Current state-of-the-art methods for automatic synthetic speech evaluation are based on MOS prediction neural models. Such MOS prediction models include MOSNet and LDNet that use spectral features as input, and SSL-MOS that relies on a pretrained self-supervised learning model that directly uses the speech signal as input. In modern high-quality neural TTS systems, prosodic appropriateness with regard to the spoken content is a decisive factor for speech naturalness. For this reason, we propose to include prosodic and linguistic features as additional inputs in MOS prediction systems, and evaluate their impact on the prediction outcome. We consider phoneme level F0 and duration features as prosodic inputs, as well as Tacotron encoder outputs, POS tags and BERT embeddings as higher-level linguistic inputs. All MOS prediction systems are trained on SOMOS, a neural TTS-only dataset with crowdsourced naturalness MOS evaluations. Results show that the proposed additional features are beneficial in the MOS prediction task, by improving the predicted MOS scores' correlation with the ground truths, both at utterance-level and system-level predictions.
翻訳日:2023-05-10 00:06:16 公開日:2023-05-07
# ニューラルネットワーク探索のための階層型量子回路表現

Hierarchical quantum circuit representations for neural architecture search ( http://arxiv.org/abs/2210.15073v3 )

ライセンス: Link先を確認
Matt Lourens, Ilya Sinayskiy, Daniel K. Park, Carsten Blank and Francesco Petruccione(参考訳) 階層型量子回路を用いた機械学習(通常量子畳み込みニューラルネットワーク(QCNN)と呼ばれる)は、短期量子コンピューティングの有望な展望である。 QCNNは、畳み込みニューラルネットワーク(CNN)のアーキテクチャにインスパイアされた回路モデルである。 CNNは手動の機能設計を必要とせず、生データから高レベルの機能を学ぶことができるため、成功している。 neural architecture search (nas)は、ネットワークアーキテクチャを学習することでこの成功を基盤とし、最先端のパフォーマンスを実現している。 しかし、nasをqcnnに適用することは、よく定義された検索空間がないため、ユニークな課題である。 本研究では,NASの手法を用いてQCNNアーキテクチャを表現し,検索空間の設計とアーキテクチャ検索を可能にする新しいフレームワークを提案する。 このフレームワークを用いて、逆二分木に似た人気QCNNのファミリーを生成する。 次に,音楽ジャンル分類データセットgtzan上で,このモデル群を評価し,回路アーキテクチャの重要性を正当化する。 さらに,この表現を用いたアーキテクチャ探索の例として,量子位相認識(QPR)を行う遺伝的アルゴリズムを用いる。 この作業は、複雑さを増すことなくモデルパフォーマンスを改善する方法を提供し、不毛の高原を避けるためにコスト環境を飛び回る手段を提供する。 最後に、このフレームワークをオープンソースのPythonパッケージとして実装し、動的QCNN作成を可能にし、NASのためのQCNN検索空間設計を容易にする。

Machine learning with hierarchical quantum circuits, usually referred to as Quantum Convolutional Neural Networks (QCNNs), is a promising prospect for near-term quantum computing. The QCNN is a circuit model inspired by the architecture of Convolutional Neural Networks (CNNs). CNNs are successful because they do not need manual feature design and can learn high-level features from raw data. Neural Architecture Search (NAS) builds on this success by learning network architecture and achieves state-of-the-art performance. However, applying NAS to QCNNs presents unique challenges due to the lack of a well-defined search space. In this work, we propose a novel framework for representing QCNN architectures using techniques from NAS, which enables search space design and architecture search. Using this framework, we generate a family of popular QCNNs, those resembling reverse binary trees. We then evaluate this family of models on a music genre classification dataset, GTZAN, to justify the importance of circuit architecture. Furthermore, we employ a genetic algorithm to perform Quantum Phase Recognition (QPR) as an example of architecture search with our representation. This work provides a way to improve model performance without increasing complexity and to jump around the cost landscape to avoid barren plateaus. Finally, we implement the framework as an open-source Python package to enable dynamic QCNN creation and facilitate QCNN search space design for NAS.
翻訳日:2023-05-10 00:05:35 公開日:2023-05-07
# Twin-S:スカルベース手術のためのデジタルツイン

Twin-S: A Digital Twin for Skull-base Surgery ( http://arxiv.org/abs/2211.11863v2 )

ライセンス: Link先を確認
Hongchao Shu, Ruixing Liang, Zhaoshuo Li, Anna Goodridge, Xiangyu Zhang, Hao Ding, Nimesh Nagururu, Manish Sahu, Francis X. Creighton, Russell H. Taylor, Adnan Munawar and Mathias Unberath(参考訳) 目的:デジタル双生児は現実世界の仮想インタラクティブモデルであり、同一の行動や特性を示す。 外科的応用では、例えば、デジタル双生児の計算分析を用いて状況認識を高めることができる。 方法:我々はtwin-sと呼ばれる頭蓋骨ベース手術のためのデジタル・ツイン・フレームワークを提案する。 Twin-Sは高精度光追跡とリアルタイムシミュレーションを組み合わせる。 我々は、デジタル双対表現が現実世界のすべてのプロセスを正確に模倣することを保証するために厳密な校正ルーチンに依存している。 twin-sは、手術用具、患者の解剖学、外科用カメラなど、頭蓋骨ベース手術の重要な要素をモデル化し追跡する。 興味深いことに、ツインsはフレームレートで解剖モデルの実世界のドリルングを更新、反映する。 結果: 掘削過程で平均1.39mmの誤差が得られるツインSの精度を広範囲に評価した。 さらに, 連続的に更新されたデジタル双生児由来のセグメンテーションマスクは, 複合現実環境下での手術用顕微鏡の視野を増強し, 骨のアブレーションを強調することにより, 外科医にさらなる状況認識を与える。 結語:Twin-Sは頭蓋底手術のためのデジタル双生児環境である。 Twin-Sは、最新のトラッキング技術からリアルタイムで仮想モデルを追跡、更新する。 高精度ビジョンベースアプローチによる光追跡の補完に関する今後の研究は、ツインsの精度をさらに高めるかもしれない。

Purpose: Digital twins are virtual interactive models of the real world, exhibiting identical behavior and properties. In surgical applications, computational analysis from digital twins can be used, for example, to enhance situational awareness. Methods: We present a digital twin framework for skull-base surgeries, named Twin-S, which can be integrated within various image-guided interventions seamlessly. Twin-S combines high-precision optical tracking and real-time simulation. We rely on rigorous calibration routines to ensure that the digital twin representation precisely mimics all real-world processes. Twin-S models and tracks the critical components of skull-base surgery, including the surgical tool, patient anatomy, and surgical camera. Significantly, Twin-S updates and reflects real-world drilling of the anatomical model in frame rate. Results: We extensively evaluate the accuracy of Twin-S, which achieves an average 1.39 mm error during the drilling process. We further illustrate how segmentation masks derived from the continuously updated digital twin can augment the surgical microscope view in a mixed reality setting, where bone requiring ablation is highlighted to provide surgeons additional situational awareness. Conclusion: We present Twin-S, a digital twin environment for skull-base surgery. Twin-S tracks and updates the virtual model in real-time given measurements from modern tracking technologies. Future research on complementing optical tracking with higher-precision vision-based approaches may further increase the accuracy of Twin-S.
翻訳日:2023-05-09 23:58:37 公開日:2023-05-07
# 統合空間領域認識・通信システム

Integrated Space Domain Awareness and Communication System ( http://arxiv.org/abs/2211.10260v2 )

ライセンス: Link先を確認
Selen Gecgel Cetin, Berna Ozbek, Gunes Karabulut Kurt(参考訳) 宇宙は改革され、この進化は新たな脅威をもたらし、技術の発展と悪意のある意図とともに、大きな課題を生じさせる。 新たな概念概念であるspace domain awareness(sda)が最前線に登場した。 宇宙における潜在的な脅威に対して自律性、知性、柔軟性を提供することで、センシング、検出、識別および対策を目標としている。 本研究では,まず,新しい空間の洞察と明確さについて考察する。 次に,攻撃者検出のための統合SDAと通信システムを提案する。 我々は、攻撃者はビームステアリングアンテナを持ち、いくつかの受信アンテナに対するランダムアタックのような攻撃シナリオが異なると仮定する。 ランダムパターンを追跡し,SDA要求を満たすために,軽量な畳み込みニューラルネットワークアーキテクチャを開発した。 提案するisdacシステムは12種類の攻撃者構成で優れた性能を示し,検出精度は97.8%以上である。

Space has been reforming and this evolution brings new threats that, together with technological developments and malicious intent, can pose a major challenge. Space domain awareness (SDA), a new conceptual idea, has come to the forefront. It aims sensing, detection, identification and countermeasures by providing autonomy, intelligence and flexibility against potential threats in space. In this study, we first present an insightful and clear view of the new space. Secondly, we propose an integrated SDA and communication (ISDAC) system for attacker detection. We assume that the attacker has beam-steering antennas and is capable to vary attack scenarios, such as random attacks on some receiver antennas. To track random patterns and meet SDA requirements, a lightweight convolutional neural network architecture is developed. The proposed ISDAC system shows superior and robust performance under 12 different attacker configurations with a detection accuracy of over 97.8%.
翻訳日:2023-05-09 23:57:54 公開日:2023-05-07
# 対訳 対訳 コントラスト フェデレーション セミスーパービジョン ラーニング

Dual Class-Aware Contrastive Federated Semi-Supervised Learning ( http://arxiv.org/abs/2211.08914v2 )

ライセンス: Link先を確認
Qi Guo, Yong Qi, Saiyu Qi, Di Wu(参考訳) フェデレートされた半教師付き学習(FSSL)は、ラベル付きクライアントとラベルなしクライアントが、プライベートデータを共有せずにグローバルモデルを共同でトレーニングすることを促進する。 既存のFSSLメソッドは、主に擬似ラベル付けと整合性正規化を使用して、ラベルなしデータの知識を活用する。 しかし、これらのトレーニングプロセスは、ラベル付きクライアントとラベルなしクライアントのアップロードされたローカルモデル間の大きなずれや、疑似ラベルによる確認バイアスによって妨げられ、どちらもグローバルモデルの性能に悪影響を及ぼす。 本稿では,Dual Class-aware Contrastive Federated Semi-Supervised Learning (DCCFSSL)と呼ばれる新しいFSSL手法を提案する。 このメソッドは、各クライアントのデータのローカルクラスアウェア分布と、機能空間内のすべてのクライアントデータのグローバルクラスアウェア分布の両方を記述します。 デュアルクラス対応コントラストモジュールを実装することで、DCCFSSLは、異なるクライアントが大きなずれに対処するための統一的なトレーニング目標を確立し、特徴空間にコントラスト情報を組み込んで、確認バイアスを軽減する。 さらに、DCCFSSLは、サーバのアグリゲーションロバスト性を改善するために、認証強化アグリゲーション技術を導入している。 CIFAR-10, CIFAR-100, STL-10データセットでは, DCCFSSLは3つのベンチマークデータセットで現在の最先端メソッドよりも優れており, ラベルなしクライアントでFedAvgを上回ります。 私たちの知る限りでは、ラベル付きクライアントのみを使用するfsslメソッドを初めて提示し、ラベル付きデータを持つすべてのクライアントを使用する標準フェデレーション教師付き学習よりも優れたパフォーマンスを実現しています。

Federated semi-supervised learning (FSSL), facilitates labeled clients and unlabeled clients jointly training a global model without sharing private data. Existing FSSL methods predominantly employ pseudo-labeling and consistency regularization to exploit the knowledge of unlabeled data, achieving notable success in raw data utilization. However, these training processes are hindered by large deviations between uploaded local models of labeled and unlabeled clients, as well as confirmation bias introduced by noisy pseudo-labels, both of which negatively affect the global model's performance. In this paper, we present a novel FSSL method called Dual Class-aware Contrastive Federated Semi-Supervised Learning (DCCFSSL). This method accounts for both the local class-aware distribution of each client's data and the global class-aware distribution of all clients' data within the feature space. By implementing a dual class-aware contrastive module, DCCFSSL establishes a unified training objective for different clients to tackle large deviations and incorporates contrastive information in the feature space to mitigate confirmation bias. Moreover, DCCFSSL introduces an authentication-reweighted aggregation technique to improve the server's aggregation robustness. Our comprehensive experiments show that DCCFSSL outperforms current state-of-the-art methods on three benchmark datasets and surpasses the FedAvg with relabeled unlabeled clients on CIFAR-10, CIFAR-100, and STL-10 datasets. To our knowledge, we are the first to present an FSSL method that utilizes only 10\% labeled clients, while still achieving superior performance compared to standard federated supervised learning, which uses all clients with labeled data.
翻訳日:2023-05-09 23:57:40 公開日:2023-05-07
# YoloCurvSeg: 容器型曲線構造セグメンテーションのためのノイズのみをラベル付けする

YoloCurvSeg: You Only Label One Noisy Skeleton for Vessel-style Curvilinear Structure Segmentation ( http://arxiv.org/abs/2212.05566v4 )

ライセンス: Link先を確認
Li Lin, Linkai Peng, Huaqing He, Pujin Cheng, Jiewei Wu, Kenneth K. Y. Wong, Xiaoying Tang(参考訳) 弱教師付き学習(weakly supervised learning,wsl)は、粗粒度(point-, box-, scribble-wise)の監督を用いてデータアノテーションコストとモデル性能の衝突を軽減するために提案され、特に画像分割の分野で有望な性能を示している。 しかし、限定的な監督のため、特に少数のラベル付きサンプルしか入手できないため、依然として非常に困難な作業である。 加えて、既存のWSLセグメンテーション手法のほとんど全ては、血管や神経などの曲線構造とは大きく異なる恒星凸構造のために設計されている。 本稿では, 線形構造のための, 疎アノテートなセグメンテーションフレームワーク yolocurvseg を提案する。 YoloCurvSegの重要な構成要素は画像合成である。 具体的には、背景生成器は、拡大した骨格を塗りつぶして実際の分布と密接に一致する画像背景を提供する。 抽出した背景は、Space Colonization Algorithmベースの前景生成器とマルチレイヤパッチワイドコントラスト学習シンセサイザによって生成されるランダムなエミュレーション曲線と結合される。 このようにして、画像と曲線セグメンテーションラベルの両方を持つ合成データセットが、1つまたは数個のノイズスケルトンアノテーションのコストで取得される。 最後に、セグメンタは生成されたデータセットとおそらくラベルのないデータセットでトレーニングされる。 提案したYoloCurvSegは4つの公開データセット(OCTA500, CORN, DRIVE, CHASEDB1)で評価され、その結果、YoloCurvSegは最先端のWSLセグメンテーション手法を大きなマージンで上回る結果となった。 ノイズの多いスケルトンアノテーション(0.14%、0.03%、1.440%、0.65%)は、各データセットの完全な教師付きパフォーマンスの97%以上をyolocurvsegが達成している。 コードとデータセットはhttps://github.com/llmir/YoloCurvSegで公開される。

Weakly-supervised learning (WSL) has been proposed to alleviate the conflict between data annotation cost and model performance through employing sparsely-grained (i.e., point-, box-, scribble-wise) supervision and has shown promising performance, particularly in the image segmentation field. However, it is still a very challenging task due to the limited supervision, especially when only a small number of labeled samples are available. Additionally, almost all existing WSL segmentation methods are designed for star-convex structures which are very different from curvilinear structures such as vessels and nerves. In this paper, we propose a novel sparsely annotated segmentation framework for curvilinear structures, named YoloCurvSeg. A very essential component of YoloCurvSeg is image synthesis. Specifically, a background generator delivers image backgrounds that closely match the real distributions through inpainting dilated skeletons. The extracted backgrounds are then combined with randomly emulated curves generated by a Space Colonization Algorithm-based foreground generator and through a multilayer patch-wise contrastive learning synthesizer. In this way, a synthetic dataset with both images and curve segmentation labels is obtained, at the cost of only one or a few noisy skeleton annotations. Finally, a segmenter is trained with the generated dataset and possibly an unlabeled dataset. The proposed YoloCurvSeg is evaluated on four publicly available datasets (OCTA500, CORN, DRIVE and CHASEDB1) and the results show that YoloCurvSeg outperforms state-of-the-art WSL segmentation methods by large margins. With only one noisy skeleton annotation (respectively 0.14%, 0.03%, 1.40%, and 0.65% of the full annotation), YoloCurvSeg achieves more than 97% of the fully-supervised performance on each dataset. Code and datasets will be released at https://github.com/llmir/YoloCurvSeg.
翻訳日:2023-05-09 23:50:04 公開日:2023-05-07
# 有限サイズの量子化系に対する準静的プロトコルの量子不可逆性

Quantum irreversibility of quasistatic protocols for finite-size quantized systems ( http://arxiv.org/abs/2212.05512v3 )

ライセンス: Link先を確認
Yehoshua Winsten, Doron Cohen(参考訳) 量子力学的には、駆動過程は準静的極限(アディバティック定理としても知られる)で可逆であると期待されている。 この言明は古典力学に反し、正規力学とカオス力学の混合が不可逆性を意味する。 量子可逆性におけるカオスのシグネチャを示すパラダイムは、凝縮ボソンを源軌道から転送することを目的としているスイーププロセスである。 このようなプロトコルは、断熱処理とカオス支援による枯渇プロセスの相互作用によって支配されていることを示す。 後者は、ハミルトニアンのボゴリューボフ可積分性を損なう相互作用項によって示唆される。 スイープレートが低下するにつれて、量子ゆらぎに支配される体制へのクロスオーバーが発生し、量子-古典的対応が崩壊する。 この図の主な側面は、よく知られた多体ランドーゼナーパラダイムの失敗を意味する一般的な2軌道近似によって捉えられていない。

Quantum mechanically, a driving process is expected to be reversible in the quasistatic limit, also known as the adiabatic theorem. This statement stands in opposition to classical mechanics, where a mix of regular and chaotic dynamics implies irreversibility. A paradigm for demonstrating the signatures of chaos in quantum irreversibility is a sweep process whose objective is to transfer condensed bosons from a source orbital. We show that such a protocol is dominated by an interplay of adiabatic-shuttling and chaos-assisted depletion processes. The latter is implied by interaction terms that spoil the Bogoliubov integrability of the Hamiltonian. As the sweep rate is lowered, a crossover to a regime that is dominated by quantum fluctuations is encountered, featuring a breakdown of quantum-to-classical correspondence. The major aspects of this picture are not captured by the common two-orbital approximation, which implies failure of the familiar many-body Landau-Zener paradigm.
翻訳日:2023-05-09 23:49:24 公開日:2023-05-07
# 多様体の線形切断の計算:量子絡み合い、テンソル分解など

Computing linear sections of varieties: quantum entanglement, tensor decompositions and beyond ( http://arxiv.org/abs/2212.03851v3 )

ライセンス: Link先を確認
Nathaniel Johnston, Benjamin Lovitz and Aravindan Vijayaraghavan(参考訳) 我々は、与えられた線型部分空間(ここで$\mathbb{F}$は実あるいは複素体)との任意の円錐多様体の交叉における元を見つける問題を研究する。 この問題は、多種多様な選択の下でアルゴリズムの問題の豊富な族を捉えている。 ランク1行列からなる多様体の特殊ケースは、量子情報理論やテンソル分解など、様々な領域における中心問題と強く結びついている。 この問題は、ランク1の様々な行列であっても、最悪の場合NPハードであることが知られている。 驚くべきことに、これらの困難さにもかかわらず、我々は「定型」部分空間に対して効率的にこの問題を解決するアルゴリズムを開発した。 ここで、部分空間 $u \subseteq \mathbb{f}^n$ は、ある次元のジェネリックに選択され、その多様体のいくつかのジェネリック要素がそれに含まれる可能性がある。 我々の主な結果は、我々のアルゴリズムが、多様体上のいくつかの穏やかな非退化仮定の下で、多様体に存在する$u$のすべての要素を回復する保証である。 量子エンタングルメントにおけるいくつかのエンタングルド部分空間問題に対する $\bullet$ Polynomial time algorithm は、r-エンタングルメント、完全エンタングルメント、および部分空間の真のエンタングルメントを決定する。 これらの問題はすべて最悪の場合np-hardであるが、本アルゴリズムは最大値の定数倍までの次元の一般部分空間に対して多項式時間で解く。 $\bullet$ 特異性の結果と多項式時間アルゴリズムによるテンソル分解を超える幅広い低ランク分解問題の一般的なインスタンスの保証。 ここでは、$\sum_{i=1}^R v_i \otimes w_i$ という形の分解を復元する。 これは、テンソル分解の特別な場合においても、新しい一意性の結果と一般性を保証することを意味する。

We study the problem of finding elements in the intersection of an arbitrary conic variety in $\mathbb{F}^n$ with a given linear subspace (where $\mathbb{F}$ can be the real or complex field). This problem captures a rich family of algorithmic problems under different choices of the variety. The special case of the variety consisting of rank-1 matrices already has strong connections to central problems in different areas like quantum information theory and tensor decompositions. This problem is known to be NP-hard in the worst case, even for the variety of rank-1 matrices. Surprisingly, despite these hardness results we develop an algorithm that solves this problem efficiently for "typical" subspaces. Here, the subspace $U \subseteq \mathbb{F}^n$ is chosen generically of a certain dimension, potentially with some generic elements of the variety contained in it. Our main result is a guarantee that our algorithm recovers all the elements of $U$ that lie in the variety, under some mild non-degeneracy assumptions on the variety. As corollaries, we obtain the following new results: $\bullet$ Polynomial time algorithms for several entangled subspaces problems in quantum entanglement, including determining r-entanglement, complete entanglement, and genuine entanglement of a subspace. While all of these problems are NP-hard in the worst case, our algorithm solves them in polynomial time for generic subspaces of dimension up to a constant multiple of the maximum possible. $\bullet$ Uniqueness results and polynomial time algorithmic guarantees for generic instances of a broad class of low-rank decomposition problems that go beyond tensor decompositions. Here, we recover a decomposition of the form $\sum_{i=1}^R v_i \otimes w_i$, where the $v_i$ are elements of the variety $X$. This implies new uniqueness results and genericity guarantees even in the special case of tensor decompositions.
翻訳日:2023-05-09 23:48:26 公開日:2023-05-07
# Diffusion-SDF:Voxelized Diffusionによるテキスト・ツー・シェイプ

Diffusion-SDF: Text-to-Shape via Voxelized Diffusion ( http://arxiv.org/abs/2212.03293v2 )

ライセンス: Link先を確認
Muheng Li, Yueqi Duan, Jie Zhou, Jiwen Lu(参考訳) 3d仮想モデリング技術への産業的注目が高まり、特定の条件(テキストなど)に基づいた新たな3dコンテンツの生成がホットな問題となっている。 本稿では,テキスト・ツー・シェイプ合成の課題に対して,Diffusion-SDFと呼ばれる新しい3次元モデリングフレームワークを提案する。 従来のアプローチでは、3Dデータ表現と形状生成の両方に柔軟性が欠けており、与えられたテキスト記述に応じて高度に多様化された3D形状を生成することができない。 これを解決するために,Voxelized DiffusionモデルとともにSDFオートエンコーダを提案し,3次元形状のvoxelized signed distance field (SDF) の表現を学習・生成する。 具体的には,標準的なU-Netアーキテクチャ内にローカルなネットワークを組み込む新しいUinU-Netアーキテクチャを設計し,パッチ非依存のSDF表現を再構築する。 我々はこのアプローチを,テキストコンディショニングによる形状の補完や操作を含む,さらにテキストから形状へのタスクに拡張する。 実験結果から,Diffusion-SDFは,従来の手法と比較して,与えられたテキスト記述によく適合する高品質かつ多様な3次元形状を生成することがわかった。 https://github.com/ttlmh/Diffusion-SDF

With the rising industrial attention to 3D virtual modeling technology, generating novel 3D content based on specified conditions (e.g. text) has become a hot issue. In this paper, we propose a new generative 3D modeling framework called Diffusion-SDF for the challenging task of text-to-shape synthesis. Previous approaches lack flexibility in both 3D data representation and shape generation, thereby failing to generate highly diversified 3D shapes conforming to the given text descriptions. To address this, we propose a SDF autoencoder together with the Voxelized Diffusion model to learn and generate representations for voxelized signed distance fields (SDFs) of 3D shapes. Specifically, we design a novel UinU-Net architecture that implants a local-focused inner network inside the standard U-Net architecture, which enables better reconstruction of patch-independent SDF representations. We extend our approach to further text-to-shape tasks including text-conditioned shape completion and manipulation. Experimental results show that Diffusion-SDF generates both higher quality and more diversified 3D shapes that conform well to given text descriptions when compared to previous approaches. Code is available at: https://github.com/ttlmh/Diffusion-SDF
翻訳日:2023-05-09 23:46:32 公開日:2023-05-07
# CLIPVG:微分ベクトルグラフを用いたテキストガイド画像操作

CLIPVG: Text-Guided Image Manipulation Using Differentiable Vector Graphics ( http://arxiv.org/abs/2212.02122v2 )

ライセンス: Link先を確認
Yiren Song, Xuning Shao, Kang Chen, Weidong Zhang, Minzhe Li, Zhongliang Jing(参考訳) CLIP(Contrastive Language- Image Pre-Training)モデルをテキスト誘導イメージ操作に活用する上で、考慮すべき進歩が最近行われた。 しかし、CLIPだけでは微細なピクセルレベルの変更に対して十分なガイダンス情報を提供できないため、既存のすべての研究は結果の品質を保証するために追加の生成モデルに依存している。 本稿では,テキストガイドによるベクトルグラフィックスを用いた画像操作フレームワークである clipvg を紹介する。このフレームワークは,新たな生成モデルを必要としない最初のクリップベースの汎用画像操作フレームワークでもある。 私たちはCLIPVGが意味的正しさと合成品質の両方で最先端のパフォーマンスを達成できるだけでなく、既存のすべてのメソッドの能力を超える様々なアプリケーションをサポートするのに十分な柔軟性を持つことを示した。

Considerable progress has recently been made in leveraging CLIP (Contrastive Language-Image Pre-Training) models for text-guided image manipulation. However, all existing works rely on additional generative models to ensure the quality of results, because CLIP alone cannot provide enough guidance information for fine-scale pixel-level changes. In this paper, we introduce CLIPVG, a text-guided image manipulation framework using differentiable vector graphics, which is also the first CLIP-based general image manipulation framework that does not require any additional generative models. We demonstrate that CLIPVG can not only achieve state-of-art performance in both semantic correctness and synthesis quality, but also is flexible enough to support various applications far beyond the capability of all existing methods.
翻訳日:2023-05-09 23:46:11 公開日:2023-05-07
# 文書レベル情報抽出のためのイベント識別について

On Event Individuation for Document-Level Information Extraction ( http://arxiv.org/abs/2212.09702v2 )

ライセンス: Link先を確認
William Gantt, Reno Kriz, Yunmo Chen, Siddharth Vashishtha, Aaron Steven White(参考訳) 情報抽出(IE)システムがドキュメント全体の処理に長けているため、テンプレートフィリングの古典的なタスクは文書レベルのIEのベンチマークとして再び注目されている。 本稿では,この目的のためにテンプレート充填の妥当性に疑問を呈する。 我々は、このタスクが、個々の出来事を区別する問題である、出来事の特定に関する微妙な疑問に対する決定的な答えを要求すると論じている。 アノテーション研究とエラー分析を通じて、テンプレート充填メトリクスの有用性、タスクのためのデータセットの品質、モデルが学習する能力に懸念があることが示されている。 最後に、可能な解決策を検討する。

As information extraction (IE) systems have grown more adept at processing whole documents, the classic task of template filling has seen renewed interest as benchmark for document-level IE. In this position paper, we call into question the suitability of template filling for this purpose. We argue that the task demands definitive answers to thorny questions of event individuation -- the problem of distinguishing distinct events -- about which even human experts disagree. Through an annotation study and error analysis, we show that this raises concerns about the usefulness of template filling metrics, the quality of datasets for the task, and the ability of models to learn it. Finally, we consider possible solutions.
翻訳日:2023-05-09 23:39:28 公開日:2023-05-07
# Retriever-Augmented Language Modelsは理にかなっているか? レトリバーと言語モデルの間の非難ゲーム

Can Retriever-Augmented Language Models Reason? The Blame Game Between the Retriever and the Language Model ( http://arxiv.org/abs/2212.09146v2 )

ライセンス: Link先を確認
Parishad BehnamGhader, Santiago Miret, Siva Reddy(参考訳) 言語モデリングや質問応答など,一般的なNLP問題を解釈可能な方法で効果的に解決する上で,事前学習された言語モデルに支援文書を選択することが期待できる。 本稿では,検索言語モデル(REALM,$k$NN-LM,FiDとDPR,ATLASとFlan-T5とContriever)の長所と短所を,異なるタスクにおける検索文の推論で検討する。 本稿では、検索モジュールと言語モデルの両方において、推論における検索対象モデルの制限がどのように根付いているかを示す。 実験の結果,レトリバーが使用する類似度指標は,一般的に推論作業において不十分であることが判明した。 さらに,レトリバー型モデルにおける言語モデルは文間の複雑な関係を考慮せず,より大きなモデルを用いた場合でも推論性能が低下することを示した。 さらに,マルチホップ検索を用いた大規模言語モデルの推論性能の分析を行った。 全体的に見れば、この分野のさらなる研究の余地は大きい。

Augmenting pretrained language models with retrievers to select the supporting documents has shown promise in effectively solving common NLP problems, including language modeling and question answering, in an interpretable way. In this paper, we first study the strengths and weaknesses of different retriever-augmented language models (REALM, $k$NN-LM, FiD coupled with DPR, and ATLAS and Flan-T5 coupled with Contriever) in reasoning over the retrieved statements in different tasks. We show how the retrieve-then-read models' limitations in reasoning are rooted both in the retriever module as well as the language model. Our experimental results demonstrate that the similarity metric used by the retrievers is generally insufficient for reasoning tasks. Additionally, we show that the language models in retriever-augmented models do not take the complicated relations between the statements into account, which leads to poor reasoning performance even when using the larger models. Moreover, we analyze the reasoning performance of large language models using multihop retrieval but we only observe minor improvements. Overall, this shows great room for further research in this area.
翻訳日:2023-05-09 23:38:24 公開日:2023-05-07
# Diff-Font:ロバストワンショットフォント生成のための拡散モデル

Diff-Font: Diffusion Model for Robust One-Shot Font Generation ( http://arxiv.org/abs/2212.05895v3 )

ライセンス: Link先を確認
Haibin He, Xinyuan Chen, Chaoyue Wang, Juhua Liu, Bo Du, Dacheng Tao, Yu Qiao(参考訳) フォント生成は困難で時間を要する作業であり、特に中国語など多数の文字を持つ複雑な構造を持つイデオグラムを用いた言語では特に困難である。 この問題を解決するために、少数ショットフォント生成やワンショットフォント生成さえも注目されている。 しかし、既存のフォント生成メソッドの多くは、まだ苦しむ可能性がある。 (i)大規模なクロスファントギャップチャレンジ (二)微妙なクロスファント変動問題、及び (三)複雑な文字を誤って生成すること。 本稿では,大きなデータセット上で安定的に学習できる拡散モデルに基づく新しいワンショットフォント生成法diff-fontを提案する。 提案モデルは,フォントライブラリ全体を生成することを目的として,参照として1つのサンプルのみを与える。 具体的には、大きなストロークワイドデータセットを構築し、各生成された文字の構造と完了を保存するためのストロークワイド拡散モデルを提案する。 我々の知る限りでは、フォント生成タスクを処理する拡散モデルを開発した最初のDiff-Fontが提案されている。 十分に訓練されたdiff-fontはフォントギャップやフォントのバリエーションに頑健なだけでなく、難しい文字生成でも有望な性能を達成している。 従来のフォント生成手法と比較して,本モデルは質的かつ定量的に,最先端の性能に達する。

Font generation is a difficult and time-consuming task, especially in those languages using ideograms that have complicated structures with a large number of characters, such as Chinese. To solve this problem, few-shot font generation and even one-shot font generation have attracted a lot of attention. However, most existing font generation methods may still suffer from (i) large cross-font gap challenge; (ii) subtle cross-font variation problem; and (iii) incorrect generation of complicated characters. In this paper, we propose a novel one-shot font generation method based on a diffusion model, named Diff-Font, which can be stably trained on large datasets. The proposed model aims to generate the entire font library by giving only one sample as the reference. Specifically, a large stroke-wise dataset is constructed, and a stroke-wise diffusion model is proposed to preserve the structure and the completion of each generated character. To our best knowledge, the proposed Diff-Font is the first work that developed diffusion models to handle the font generation task. The well-trained Diff-Font is not only robust to font gap and font variation, but also achieved promising performance on difficult character generation. Compared to previous font generation methods, our model reaches state-of-the-art performance both qualitatively and quantitatively.
翻訳日:2023-05-09 23:37:27 公開日:2023-05-07
# 複数の介入分布上の一貫した因果抽象を共同学習する

Jointly Learning Consistent Causal Abstractions Over Multiple Interventional Distributions ( http://arxiv.org/abs/2301.05893v2 )

ライセンス: Link先を確認
Fabio Massimo Zennaro, M\'at\'e Dr\'avucz, Geanina Apachitei, W. Dhammika Widanage, Theodoros Damoulas(参考訳) 抽象化は、同じシステムを表す2つの構造因果モデルを異なる解像度で関連付けるために使用できる。 介入分布に関する一貫性を保証する抽象学習は、基礎となる因果関係を尊重しながら、複数のレベルの粒度の証拠を共同で推論することを可能にする。 本稿では,Rishel (2020) が最近提案した抽象化の形式化に基づく,SCM間の因果的抽象化学習のための第1の枠組みを紹介する。 そこで本研究では,多数の組換えサブプロブレムを共同で解決する微分可能プログラミングソリューションを提案し,その性能と,合成環境における独立および逐次的アプローチに対する利点を,電気自動車のバッテリー製造に関する課題に基づいて検討する。

An abstraction can be used to relate two structural causal models representing the same system at different levels of resolution. Learning abstractions which guarantee consistency with respect to interventional distributions would allow one to jointly reason about evidence across multiple levels of granularity while respecting the underlying cause-effect relationships. In this paper, we introduce a first framework for causal abstraction learning between SCMs based on the formalization of abstraction recently proposed by Rischel (2020). Based on that, we propose a differentiable programming solution that jointly solves a number of combinatorial sub-problems, and we study its performance and benefits against independent and sequential approaches on synthetic settings and on a challenging real-world problem related to electric vehicle battery manufacturing.
翻訳日:2023-05-09 23:29:46 公開日:2023-05-07
# メタパスコンテキストと重み付き負のサンプルを用いた不均一グラフコントラスト学習

Heterogeneous Graph Contrastive Learning with Meta-path Contexts and Weighted Negative Samples ( http://arxiv.org/abs/2212.13847v2 )

ライセンス: Link先を確認
Jianxiang Yu, Xiang Li(参考訳) 異種グラフコントラスト学習は近年広く注目されている。 既存のメソッドでは、オブジェクト間の意味的関係をキャプチャするオブジェクトタイプのシーケンスであるメタパスを使用して、コントラストビューを構築する。 しかし、そのほとんどは、メタパスによって2つのオブジェクトが接続される方法を記述するリッチなメタパスコンテキスト情報を無視している。 さらに、モデルの性能に悪影響を及ぼす可能性のある負のサンプルを区別することができない。 本稿ではメタパスコンテキストと重み付き負のサンプルの両方を考慮したMEOWを提案する。 具体的には、MEOWは、粗いビューとコントラストのためのきめ細かいビューを構築する。 前者は、どのオブジェクトがメタパスによって接続されているかを反映し、後者は、メタパスコンテキストを使用し、オブジェクトの接続方法の詳細を特徴付ける。 そこで我々は,InfoNCEの損失を理論的に解析し,負サンプルの勾配計算の限界を認識する。 負のサンプルをよりよく識別するために、ノードクラスタリングに基づいてそれらの重み付けを強く評価し、プロトタイプのコントラスト学習を用いて同一クラスタ内のノードの密着な埋め込みを抽出する。 さらに,ノード表現を改善するために,負サンプルの軟値重みを適応的に学習する変種モデルAdaMEOWを提案する。 最後に,他の最先端手法に対するMEOWとAdaMEOWの優位性を示すため,広範な実験を行った。

Heterogeneous graph contrastive learning has received wide attention recently. Some existing methods use meta-paths, which are sequences of object types that capture semantic relationships between objects, to construct contrastive views. However, most of them ignore the rich meta-path context information that describes how two objects are connected by meta-paths. Further, they fail to distinguish negative samples, which could adversely affect the model performance. To address the problems, we propose MEOW, which considers both meta-path contexts and weighted negative samples. Specifically, MEOW constructs a coarse view and a fine-grained view for contrast. The former reflects which objects are connected by meta-paths, while the latter uses meta-path contexts and characterizes details on how the objects are connected. Then, we theoretically analyze the InfoNCE loss and recognize its limitations for computing gradients of negative samples. To better distinguish negative samples, we learn hard-valued weights for them based on node clustering and use prototypical contrastive learning to pull close embeddings of nodes in the same cluster. In addition, we propose a variant model AdaMEOW that adaptively learns soft-valued weights of negative samples to further improve node representation. Finally, we conduct extensive experiments to show the superiority of MEOW and AdaMEOW against other state-of-the-art methods.
翻訳日:2023-05-09 23:27:46 公開日:2023-05-07
# 時間グラフのためのグラフニューラルネットワーク:最先端、オープン課題、そして機会

Graph Neural Networks for temporal graphs: State of the art, open challenges, and opportunities ( http://arxiv.org/abs/2302.01018v3 )

ライセンス: Link先を確認
Antonio Longa, Veronica Lachi, Gabriele Santin, Monica Bianchini, Bruno Lepri, Pietro Lio, Franco Scarselli and Andrea Passerini(参考訳) グラフニューラルネットワーク(GNN)は、(静的)グラフ構造化データを学ぶための主要なパラダイムとなっている。 しかし、グラフとノード/エッジ属性は時間とともに変化するため、現実世界のシステムの多くは本質的に動的である。 近年, 時間グラフのためのGNNベースのモデルが, GNNの能力を拡張するための研究分野として注目されている。 本稿では,時間的GNNの現状を概観し,学習環境とタスクの厳密な形式化と,時間的側面の表現・処理方法の観点から既存のアプローチを分類する新たな分類法を提案する。 調査は、研究とアプリケーションの両方の観点から、この分野の最も関連するオープンチャレンジについて議論して締めくくった。

Graph Neural Networks (GNNs) have become the leading paradigm for learning on (static) graph-structured data. However, many real-world systems are dynamic in nature, since the graph and node/edge attributes change over time. In recent years, GNN-based models for temporal graphs have emerged as a promising area of research to extend the capabilities of GNNs. In this work, we provide the first comprehensive overview of the current state-of-the-art of temporal GNN, introducing a rigorous formalization of learning settings and tasks and a novel taxonomy categorizing existing approaches in terms of how the temporal aspect is represented and processed. We conclude the survey with a discussion of the most relevant open challenges for the field, from both research and application perspectives.
翻訳日:2023-05-09 23:20:47 公開日:2023-05-07
# 測定による新しい臨界状態

New critical states induced by measurement ( http://arxiv.org/abs/2301.11337v3 )

ライセンス: Link先を確認
Xinyu Sun, Hong Yao, Shao-Kai Jian(参考訳) 物質の新しい臨界状態を見つけることは、現代の多体物理学において重要な主題である。 本稿では,Luttinger液体理論の臨界基底状態に対する測定とポストセレクションの効果について検討し,定性的に新しい臨界状態をもたらすことを示す。 ルッティンガーパラメータ$K$により、測定の効果は、K>1$$$K<1$で無関係(関連)である。 これは2つの位相間の絡み合い遷移を引き起こし、一方は部分領域(K>1$)の対数的絡み合いエントロピーを持ち、もう一方は代数的絡み合いエントロピー(K<1$)を持つ。 臨界点$K=1$では、測定値が限界であり、エントロピーの絡み合いが測定強度の関数として連続的な有効中心電荷を持つ対数的挙動を示す新しい臨界状態が見つかる。 また, 数値密度行列再正規化群とフェルミオンガウス状態シミュレーションを行い, 実験結果を裏付けた。 我々はさらに,本研究における新たな臨界条件を実験的に実現するための有望かつ実現可能な経路について検討する。

Finding new critical states of matter is an important subject in modern many-body physics. Here we study the effect of measurement and postselection on the critical ground state of a Luttinger liquid theory and show that it can lead to qualitatively new critical states. Depending on the Luttinger parameter $K$, the effect of measurement is irrelevant (relevant) at $K>1$ ($K<1$). We reveal that this causes an entanglement transition between two phases, one with logarithmic entanglement entropy for a subregion ($K>1$), and the other with algebraic entanglement entropy ($K<1$). At the critical point $K=1$, the measurement is marginal, and we find new critical states whose entanglement entropy exhibits a logarithmic behavior with a continuous effective central charge as a function of measurement strength. We also performed numerical density matrix renormalization group and fermionic Gaussian state simulations to support our results. We further discuss promising and feasible routes to experimentally realize new critical states in our work.
翻訳日:2023-05-09 23:18:46 公開日:2023-05-07
# Enactive Artificial Intelligence: ロボットと人間のインタラクションにおけるジェンダーノルムの変換

Enactive Artificial Intelligence: Subverting Gender Norms in Robot-Human Interaction ( http://arxiv.org/abs/2301.08741v3 )

ライセンス: Link先を確認
Ines Hipolito, Katie Winkle, Merete Lie(参考訳) 本稿では,AIに対するジェンダー非包摂的スタンスとして,eAI(Enactive Artificial Intelligence)を紹介する。 AIデザインは、人間の文化と価値観を反映した、制定された人間の社会文化的実践である。 表現できないAIデザインは、社会的疎外につながる可能性がある。 第1節は、急進的な活動から引き出された、具体的文化実践の概要である。 第2節では、交叉性のジェンダーが社会文化的実践として技術科学とどのように交わるかを考察している。 第3節は、AIにおけるロボットと人間のインタラクションの特定のケースにおけるジェンダー規範の転向に焦点を当てている。 最後に、セクション4は4つの倫理のベクトルを識別する: 説明可能性、公正性、透明性、そしてロボット設計における既存のジェンダー規範を覆す、ジェンダー非包括的スタンスを採用するためのオーディビリティである。

This paper introduces Enactive Artificial Intelligence (eAI) as an intersectional gender-inclusive stance towards AI. AI design is an enacted human sociocultural practice that reflects human culture and values. Unrepresentative AI design could lead to social marginalisation. Section 1, drawing from radical enactivism, outlines embodied cultural practices. In Section 2, explores how intersectional gender intertwines with technoscience as a sociocultural practice. Section 3 focuses on subverting gender norms in the specific case of Robot-Human Interaction in AI. Finally, Section 4 identifies four vectors of ethics: explainability, fairness, transparency, and auditability for adopting an intersectionality-inclusive stance in developing gender-inclusive AI and subverting existing gender norms in robot design.
翻訳日:2023-05-09 23:18:14 公開日:2023-05-07
# AUTOLYCUS: ホワイトボックスモデルに対するモデル抽出攻撃のための説明可能なAI(XAI)の爆発

AUTOLYCUS: Exploiting Explainable AI (XAI) for Model Extraction Attacks against White-Box Models ( http://arxiv.org/abs/2302.02162v2 )

ライセンス: Link先を確認
Abdullah Caglar Oksuz, Anisa Halimi, Erman Ayday(参考訳) 説明可能な人工知能(XAI)は、AIモデルの意思決定プロセスの解明を目的とした、さまざまな技術と手順を含んでいる。 XAIはAIモデルの背後にある理由を理解するのに価値があるが、そのような暴露に使用されるデータは、潜在的なセキュリティとプライバシの脆弱性を引き起こす。 既存の文献では、メンバーシップ推論、モデル反転、モデル抽出攻撃を含む機械学習モデルをターゲットにしたプライバシーリスクが特定されている。 関連する設定やパーティによって、そのような攻撃はモデル自体あるいはモデル作成に使用されるトレーニングデータのいずれかをターゲットにする可能性がある。 我々は、XAIを提供するツールが、モデル抽出攻撃の脆弱性を特に増大させることができることを確認した。これは、AIモデルの所有者が、モデルパラメータとアーキテクチャを他の当事者と共有するのではなく、ブラックボックスアクセスのみを提供することを好む場合、重大な問題となる可能性がある。 このプライバシーリスクを探るため、一般的なAIツールが提供する説明を活用するモデル抽出攻撃であるAUTOLYCUSを提案する。 特に,決定木やロジスティック回帰モデルといったホワイトボックス機械学習(ml)モデルに注目した。 5つの機械学習データセット上でのAUTOLYCUSの性能を,サロゲートモデルの精度とターゲットモデルとの類似性の観点から評価した。 我々は,提案した攻撃が極めて効果的であることを観察し,その精度と類似性を提供しながら,対象モデルに対するクエリを最先端攻撃と比較して最大60倍少なくする。 まず,提案アルゴリズムの性能を決定木上で検証し,提案アルゴリズムが一般にホワイトボックスMLモデルでよく動作することを示す指標として,ロジスティック回帰モデル上での性能を示す。 最後に,既存の対策が提案した攻撃に対して効果がないことを示す。

Explainable Artificial Intelligence (XAI) encompasses a range of techniques and procedures aimed at elucidating the decision-making processes of AI models. While XAI is valuable in understanding the reasoning behind AI models, the data used for such revelations poses potential security and privacy vulnerabilities. Existing literature has identified privacy risks targeting machine learning models, including membership inference, model inversion, and model extraction attacks. Depending on the settings and parties involved, such attacks may target either the model itself or the training data used to create the model. We have identified that tools providing XAI can particularly increase the vulnerability of model extraction attacks, which can be a significant issue when the owner of an AI model prefers to provide only black-box access rather than sharing the model parameters and architecture with other parties. To explore this privacy risk, we propose AUTOLYCUS, a model extraction attack that leverages the explanations provided by popular explainable AI tools. We particularly focus on white-box machine learning (ML) models such as decision trees and logistic regression models. We have evaluated the performance of AUTOLYCUS on 5 machine learning datasets, in terms of the surrogate model's accuracy and its similarity to the target model. We observe that the proposed attack is highly effective; it requires up to 60x fewer queries to the target model compared to the state-of-the-art attack, while providing comparable accuracy and similarity. We first validate the performance of the proposed algorithm on decision trees, and then show its performance on logistic regression models as an indicator that the proposed algorithm performs well on white-box ML models in general. Finally, we show that the existing countermeasures remain ineffective for the proposed attack.
翻訳日:2023-05-09 23:08:52 公開日:2023-05-07
# エッジ上の2dエンパワーのpoint cloud analytics

2D-Empowered Point Cloud Analytics on the Edge ( http://arxiv.org/abs/2302.09221v2 )

ライセンス: Link先を確認
Jingzong Li, Yik Hong Cai, Libin Liu, Yu Mao, Chun Jason Xue, Hong Xu(参考訳) 3dオブジェクト検出は、自動運転やロボット工学など、多くのアプリケーションで重要な役割を果たす。 これらのアプリケーションは、環境と迅速に対話するために一般的にエッジデバイスにデプロイされる。 計算能力が限られているため、高度に複雑なニューラルネットワークを用いてエッジ上で3d検出を行うことは困難である。 クラウドへのオフロードのような一般的なアプローチは、送信中の大量のポイントクラウドデータのために、大きな遅延オーバーヘッドを引き起こす。 ワイムピーエッジデバイスと計算集約型推論ワークロードの緊張を解消するため,高速な2次元検出による3次元境界ボックスの外挿の可能性を探る。 この目的のために,我々のアプローチの実現可能性と可能性を示す新しいシステムであるMobyを紹介する。 3dバウンディングボックスを効率的に高精度に生成する変換パイプラインを,3d検出器を動作させることなく2d検出結果に基づいて設計する。 さらに,誤差の蓄積を避けるため,クラウド上で適切に3d検出器を起動するタイミングを決定するフレームオフロードスケジューラを考案する。 NVIDIA Jetson TX2と現実の自律運転データセットの大規模な評価は、Mobyが91.9%のレイテンシ改善と、最先端の精度の低下を提供することを示している。

3D object detection plays a pivotal role in many applications, most notably autonomous driving and robotics. These applications are commonly deployed on edge devices to promptly interact with the environment, and often require near real-time response. With limited computation power, it is challenging to execute 3D detection on the edge using highly complex neural networks. Common approaches such as offloading to the cloud induce significant latency overheads due to the large amount of point cloud data during transmission. To resolve the tension between wimpy edge devices and compute-intensive inference workloads, we explore the possibility of empowering fast 2D detection to extrapolate 3D bounding boxes. To this end, we present Moby, a novel system that demonstrates the feasibility and potential of our approach. We design a transformation pipeline for Moby that generates 3D bounding boxes efficiently and accurately based on 2D detection results without running 3D detectors. Further, we devise a frame offloading scheduler that decides when to launch the 3D detector judiciously in the cloud to avoid the errors from accumulating. Extensive evaluations on NVIDIA Jetson TX2 with real-world autonomous driving datasets demonstrate that Moby offers up to 91.9% latency improvement with modest accuracy loss over state of the art.
翻訳日:2023-05-09 23:02:15 公開日:2023-05-07
# 多重グラフにおける量子対称性

Quantum symmetry in multigraphs ( http://arxiv.org/abs/2302.08726v3 )

ライセンス: Link先を確認
Debashish Goswami and Sk Asfaq Hossain(参考訳) 有向あるいは無向の多重グラフにおいて、孤立頂点を持たない様々な量子対称性の概念を導入し、それらの関係を探求する。 多重グラフが(ループの有無に関わらず)単純であれば、量子対称性のすべての概念は、ビコンとバナカによって既に存在する量子対称性の概念に還元される。

We introduce various notions of quantum symmetry in a directed or undirected multigraph with no isolated vertex and explore relations among them. If the multigraph is simple (with or without loops), all our notions of quantum symmetry reduce to the already existing notions of quantum symmetry provided by Bichon and Banica.
翻訳日:2023-05-09 23:00:22 公開日:2023-05-07
# FOSI:ハイブリッド第一次および第二次最適化

FOSI: Hybrid First and Second Order Optimization ( http://arxiv.org/abs/2302.08484v3 )

ライセンス: Link先を確認
Hadar Sivan, Moshe Gabel, Assaf Schuster(参考訳) 二階最適化手法は非常に効果的であるが、sgdやadamのような機械学習における一般的なアプローチでは、高次元の曲率計算が難しいため、一階情報のみを使用する。 本稿では,最適化プロセス中に二階情報を効率的に組み込むことにより,任意の一階最適化器の性能を向上させるメタアルゴリズムFOSIを提案する。 各反復において、FOSIは関数を直交部分空間上で定義された2つの二次函数に暗黙的に分割し、次に第1の最小化に二階法を使い、他方の最小化には基底最適化器を使用する。 我々はFOSIが収束することを証明し、さらに多くのオプティマイザ群に対する条件数を改善することを示す。 我々の経験的評価は,GD,ヘビーボール,アダムの収束率と最適化時間を,音声分類,伝達学習,オブジェクト分類などの深層ニューラルネットワークトレーニングタスクに適用した場合や,凸関数に適用する場合に改善することを示した。 さらに, FOSI は K-FAC や L-BFGS などの他の2次手法よりも優れていた。

Though second-order optimization methods are highly effective, popular approaches in machine learning such as SGD and Adam use only first-order information due to the difficulty of computing curvature in high dimensions. We present FOSI, a novel meta-algorithm that improves the performance of any first-order optimizer by efficiently incorporating second-order information during the optimization process. In each iteration, FOSI implicitly splits the function into two quadratic functions defined on orthogonal subspaces, then uses a second-order method to minimize the first, and the base optimizer to minimize the other. We prove FOSI converges and further show it improves the condition number for a large family of optimizers. Our empirical evaluation demonstrates that FOSI improves the convergence rate and optimization time of GD, Heavy-Ball, and Adam when applied to several deep neural networks training tasks such as audio classification, transfer learning, and object classification, as well as when applied to convex functions. Furthermore, our results show that FOSI outperforms other second-order methods such as K-FAC and L-BFGS.
翻訳日:2023-05-09 23:00:16 公開日:2023-05-07
# 深部運動量多角形schr\"odinger橋

Deep Momentum Multi-Marginal Schr\"odinger Bridge ( http://arxiv.org/abs/2303.01751v2 )

ライセンス: Link先を確認
Tianrong Chen, Guan-Horng Liu, Molei Tao, Evangelos A. Theodorou(参考訳) 粗い時間間隔の分布から非ラベル標本を用いて人口動態を再構築することは重要な課題である。 フローベースモデルやschr\"odinger bridge (sb) モデルのような最近のアプローチは魅力的な性能を示しているが、推定されたサンプルトラジェクタは、基礎となる確率性の説明に失敗するか、あるいは、時を超えて限界的な制約を満たす確率システムの滑らかな測度値のスプラインを学習する新しい計算フレームワークである$\underline{d}$eep $\underline{m}$omentum multi-marginal $\underline{s}$chr\"odinger $\underline{b}$ridge(dmsb)である。 有名なブレグマン・イテレーションを調整し、イテレーション・プロポーショナル・フィッティングを位相空間に拡張することにより、高次元マルチマルジナル軌道推論タスクを効率的に処理できる。 我々のアルゴリズムは、合成データセットと実世界の単一細胞RNA配列データセットの実験によって証明されたように、ベースラインを著しく上回る。 さらに,提案手法は位置スナップショットのみから,しかしながら到達不能な基底真理速度が存在する場合に,速度分布の進化を合理的に再構築することができる。

It is a crucial challenge to reconstruct population dynamics using unlabeled samples from distributions at coarse time intervals. Recent approaches such as flow-based models or Schr\"odinger Bridge (SB) models have demonstrated appealing performance, yet the inferred sample trajectories either fail to account for the underlying stochasticity or are $\underline{D}$eep $\underline{M}$omentum Multi-Marginal $\underline{S}$chr\"odinger $\underline{B}$ridge(DMSB), a novel computational framework that learns the smooth measure-valued spline for stochastic systems that satisfy position marginal constraints across time. By tailoring the celebrated Bregman Iteration and extending the Iteration Proportional Fitting to phase space, we manage to handle high-dimensional multi-marginal trajectory inference tasks efficiently. Our algorithm outperforms baselines significantly, as evidenced by experiments for synthetic datasets and a real-world single-cell RNA sequence dataset. Additionally, the proposed approach can reasonably reconstruct the evolution of velocity distribution, from position snapshots only, when there is a ground truth velocity that is nevertheless inaccessible.
翻訳日:2023-05-09 22:52:59 公開日:2023-05-07
# ランダム性の物理的定義

Physical defintion of randomness ( http://arxiv.org/abs/2303.08057v2 )

ライセンス: Link先を確認
Mario Stip\v{c}evi\'c(参考訳) 乱数を生成する能力は、科学研究から実用的な暗号や量子技術まで、多くのアプリケーションにとって重要なリソースである。 しかし、ランダム数(ランダム性)の広く受け入れられている定義は、これまで研究者を困惑させてきた。 定義がなければ、セキュリティ証明を完成させたり、新しい産業標準を作ることは不可能である。 本稿では,ランダム性に関する情報理論に基づく定義を提案し,その手法とは違って,生成する数の望ましい性質を見出すのではなく,ランダム数生成の物理的プロセスに焦点をあてる。 その直感性を説明し、その妥当性を示し、乱数生成プロセスや装置の品質の尺度として乱数偏差を更に定義する。

Ability to generate random numbers is an important resource for many applications ranging from scientific research to practical cryptography and quantum technologies. However, a widely accepted definition of random numbers, or randomness, has eluded researchers thus far. Without a definition, it is impossible to complete security proofs or make new industrial standards. Here, we propose an information-theory-based definition of randomness which, unlike state of the art, does not try to find desirable properties of generated numbers, but rather focus on the physical process of random number generation. We explain its intuitiveness, demonstrate its verifiability and further define randomness deviation as a measure of quality of the random number generating process or device.
翻訳日:2023-05-09 21:06:46 公開日:2023-05-07
# ブラックホールを記述する単純な量子系

A simple quantum system that describes a black hole ( http://arxiv.org/abs/2303.11534v3 )

ライセンス: Link先を確認
Juan Maldacena(参考訳) 過去数十年間、理論家はブラックホールを表すと考えられている量子力学システムを研究してきた。 最も単純な例の1つをレビューする。 相互作用する振動子とマヨラナフェルミオンの集まりである。 アインシュタイン方程式によって支配される創発宇宙のブラックホールを記述することが予想される。 これまでの数値計算に基づいて、ブラックホールの特徴を見るのに必要な量子ビット数を推定する。

During the past decades, theorists have been studying quantum mechanical systems that are believed to describe black holes. We review one of the simplest examples. It involves a collection of interacting oscillators and Majorana fermions. It is conjectured to describe a black hole in an emergent universe governed by Einstein equations. Based on previous numerical computations, we make an estimate of the necessary number of qubits necessary to see some black hole features.
翻訳日:2023-05-09 20:56:03 公開日:2023-05-07
# スマートグリッドにおける短期的エネルギー需要予測:SDG7,9,13ラインの再生可能エネルギー源統合のためのディープラーニングアプローチ

Predicting Short Term Energy Demand in Smart Grid: A Deep Learning Approach for Integrating Renewable Energy Sources in Line with SDGs 7, 9, and 13 ( http://arxiv.org/abs/2304.03997v3 )

ライセンス: Link先を確認
Md Saef Ullah Miah and Junaida Sulaiman and Md. Imamul Islam and Md. Masuduzzaman and Nimay Chandra Giri and Siddhartha Bhattacharyya and Segbedji Geraldo Favi and Leo Mrsic(参考訳) 世界がSDG7に則ってより持続可能なエネルギーの未来に向かっていくにつれ、再生可能エネルギー源を電力網に統合することの重要性が高まっている。 しかし、再生可能エネルギー源の断続的な性質は、電力網の管理と電力の安定確保を困難にし、SDG 9の実現に不可欠である。 本稿では,電力需要の正確な予測を提供することにより,再生可能エネルギー源の統合を向上できるスマート電力グリッドにおけるエネルギー需要予測のための深層学習に基づくアプローチを提案する。 温暖化対策としてsdg13と協調し,再生可能エネルギー資源のより効率的な管理を実現する。 我々は、時系列データに適した長期短期記憶ネットワークを用いて、エネルギー需要データにおける複雑なパターンと依存関係をキャプチャする。 提案手法は、アメリカ電力、コモンウェルス・エジソン、デイトン・パワー・アンド・ライト、ペンシルバニア・ニュージャージー・メリーランド相互接続など、異なるエネルギー流通会社による4つの歴史的短期的エネルギー需要データデータセットを用いて評価される。 提案されたモデルは、facebook prophet、 support vector regression、random forest regressionの3つの最先端予測アルゴリズムと比較される。 実験の結果,提案したREDfモデルは平均絶対誤差1.4%でエネルギー需要を正確に予測し,電力グリッドの安定性と効率を高める可能性を示し,SDG7,9,13の達成に寄与することが示された。 提案モデルはまた,再生可能エネルギー源の統合を効果的に管理する可能性を秘めている。

Integrating renewable energy sources into the power grid is becoming increasingly important as the world moves towards a more sustainable energy future in line with SDG 7. However, the intermittent nature of renewable energy sources can make it challenging to manage the power grid and ensure a stable supply of electricity, which is crucial for achieving SDG 9. In this paper, we propose a deep learning-based approach for predicting energy demand in a smart power grid, which can improve the integration of renewable energy sources by providing accurate predictions of energy demand. Our approach aligns with SDG 13 on climate action, enabling more efficient management of renewable energy resources. We use long short-term memory networks, well-suited for time series data, to capture complex patterns and dependencies in energy demand data. The proposed approach is evaluated using four historical short-term energy demand data datasets from different energy distribution companies, including American Electric Power, Commonwealth Edison, Dayton Power and Light, and Pennsylvania-New Jersey-Maryland Interconnection. The proposed model is also compared with three other state-of-the-art forecasting algorithms: Facebook Prophet, Support Vector Regression, and Random Forest Regression. The experimental results show that the proposed REDf model can accurately predict energy demand with a mean absolute error of 1.4%, indicating its potential to enhance the stability and efficiency of the power grid and contribute to achieving SDGs 7, 9, and 13. The proposed model also has the potential to manage the integration of renewable energy sources in an effective manner.
翻訳日:2023-05-09 20:49:21 公開日:2023-05-07
# Spam-T5: メールスパム検出のための大規模言語モデルのベンチマーク

Spam-T5: Benchmarking Large Language Models for Few-Shot Email Spam Detection ( http://arxiv.org/abs/2304.01238v3 )

ライセンス: Link先を確認
Maxime Labonne and Sean Moran(参考訳) 本稿では,メールスパム検出における大規模言語モデル (LLM) の有効性について,BERT-like, Sentence Transformers, Seq2Seq の3家系の著名なモデルを比較検討した。 さらに,Na\"ive Bayes や LightGBM などのスパム検出のための機械学習手法をベースライン手法として検討した。 4つの公開データセットにまたがってこれらのモデルの性能を評価し、異なる数のトレーニングサンプル(フルトレーニングセットと数ショット設定)を利用する。 その結果,ほとんどのケースでllmが一般的なベースライン技術,特に少数のシナリオのパフォーマンスを上回っていることが明らかとなった。 この適応性は、ラベル付きサンプルの数に制限があり、モデルは頻繁な更新を必要とするスパム検出タスクに特有のLLMをレンダリングする。 さらに,eメールのスパム検出に特化・微調整されたflan-t5モデルについても紹介する。 以上の結果から,Spam-T5 がベースラインモデルや他の LLM をはるかに上回っていることが明らかとなった。 私たちのコードはhttps://github.com/jpmorganchase/emailspamdetectionで公開されています。

This paper investigates the effectiveness of large language models (LLMs) in email spam detection by comparing prominent models from three distinct families: BERT-like, Sentence Transformers, and Seq2Seq. Additionally, we examine well-established machine learning techniques for spam detection, such as Na\"ive Bayes and LightGBM, as baseline methods. We assess the performance of these models across four public datasets, utilizing different numbers of training samples (full training set and few-shot settings). Our findings reveal that, in the majority of cases, LLMs surpass the performance of the popular baseline techniques, particularly in few-shot scenarios. This adaptability renders LLMs uniquely suited to spam detection tasks, where labeled samples are limited in number and models require frequent updates. Additionally, we introduce Spam-T5, a Flan-T5 model that has been specifically adapted and fine-tuned for the purpose of detecting email spam. Our results demonstrate that Spam-T5 surpasses baseline models and other LLMs in the majority of scenarios, particularly when there are a limited number of training samples available. Our code is publicly available at https://github.com/jpmorganchase/emailspamdetection.
翻訳日:2023-05-09 20:47:04 公開日:2023-05-07
# 未観測エージェントリワードと完全知識エージェントを用いた繰り返し主エージェントゲーム

Repeated Principal-Agent Games with Unobserved Agent Rewards and Perfect-Knowledge Agents ( http://arxiv.org/abs/2304.07407v2 )

ライセンス: Link先を確認
Ilgin Dogan, Zuo-Jun Max Shen, and Anil Aswani(参考訳) 本稿では、医療や持続可能な輸送といった分野からの多くの現実世界の応用に動機づけられ、マルチアームのバンディット(mab)フレームワーク内で繰り返されるプリンシパルエージェントゲーム(principal-agent game)のシナリオについて検討する。 プリンシパルのポリシー設計は、プリンシパルがエージェントが選択した行動に対して受ける報酬を直接観察できないため、プリンシパルが既存の推定手法を使って期待される報酬を直接学習できないため、難しい。 結果として、このシナリオのためのポリシーを設計する問題は、同様のものと同様に、ほとんど未調査のままである。 本稿では, エージェントが各バンディットアームに対して期待される報酬を十分に把握している場合に, 低い後悔(すなわち, ログファクターに対する平方根の後悔)を達成する政策を構築する。 我々はまず,各バンドバンドアームに対するエージェントの期待報酬に対する推定器を構築することで,ポリシーを設計する。 我々の推定器は、提供されたインセンティブのシーケンスと選択されたアームのシーケンスをデータとして使用するので、プリンシパルの推定はMABのオンライン逆最適化のアナロジーとみなすことができる。 次に, 推定器の有限サンプル濃度境界を導出することにより, 低い後悔を証明できる方針を構築する。 我々は,協調輸送計画から実生活環境への政策の適用性を示す数値シミュレーションで結論付けた。

Motivated by a number of real-world applications from domains like healthcare and sustainable transportation, in this paper we study a scenario of repeated principal-agent games within a multi-armed bandit (MAB) framework, where: the principal gives a different incentive for each bandit arm, the agent picks a bandit arm to maximize its own expected reward plus incentive, and the principal observes which arm is chosen and receives a reward (different than that of the agent) for the chosen arm. Designing policies for the principal is challenging because the principal cannot directly observe the reward that the agent receives for their chosen actions, and so the principal cannot directly learn the expected reward using existing estimation techniques. As a result, the problem of designing policies for this scenario, as well as similar ones, remains mostly unexplored. In this paper, we construct a policy that achieves a low regret (i.e., square-root regret up to a log factor) in this scenario for the case where the agent has perfect-knowledge about its own expected rewards for each bandit arm. We design our policy by first constructing an estimator for the agent's expected reward for each bandit arm. Since our estimator uses as data the sequence of incentives offered and subsequently chosen arms, the principal's estimation can be regarded as an analogy of online inverse optimization in MAB's. Next we construct a policy that we prove achieves a low regret by deriving finite-sample concentration bounds for our estimator. We conclude with numerical simulations demonstrating the applicability of our policy to real-life setting from collaborative transportation planning.
翻訳日:2023-05-09 20:38:02 公開日:2023-05-07
# 正確な新型コロナウイルス情報と誤報の大規模比較研究

A Large-Scale Comparative Study of Accurate COVID-19 Information versus Misinformation ( http://arxiv.org/abs/2304.04811v2 )

ライセンス: Link先を確認
Yida Mu, Ye Jiang, Freddy Heppell, Iknoor Singh, Carolina Scarton, Kalina Bontcheva, Xingyi Song(参考訳) 新型コロナウイルス(covid-19)パンデミック(covid-19)は、ソーシャルメディアを通じて大量のcovid-19関連コンテンツが高速に拡散するインフォデミックにつながった。 これにより、市民は新型コロナウイルスに関する正確な情報と不正確な情報を区別することが難しくなった。 これにより、covid-19の誤った情報と正確なcovid-19情報の比較研究を、2億2200万以上のツイートの大規模な計算分析を通じて行った。 この研究は4つの重要な側面と共に比較する。 1)話題の分布 2)つぶやきのライブステータス 3【言語分析・分析】 4)時間とともに拡大する力。 この研究の新たな貢献は、covid-19の誤った情報分類データセットの作成である。 最後に、この新たなデータセットは、平均的なF1測度に基づいて、誤情報分類を9倍以上改善することを示す。

The COVID-19 pandemic led to an infodemic where an overwhelming amount of COVID-19 related content was being disseminated at high velocity through social media. This made it challenging for citizens to differentiate between accurate and inaccurate information about COVID-19. This motivated us to carry out a comparative study of the characteristics of COVID-19 misinformation versus those of accurate COVID-19 information through a large-scale computational analysis of over 242 million tweets. The study makes comparisons alongside four key aspects: 1) the distribution of topics, 2) the live status of tweets, 3) language analysis and 4) the spreading power over time. An added contribution of this study is the creation of a COVID-19 misinformation classification dataset. Finally, we demonstrate that this new dataset helps improve misinformation classification by more than 9\% based on average F1 measure.
翻訳日:2023-05-09 20:37:06 公開日:2023-05-07
# 新型コロナウイルスの予防接種に対するスタンス検出に関する時間的考察

Examining Temporalities on Stance Detection towards COVID-19 Vaccination ( http://arxiv.org/abs/2304.04806v2 )

ライセンス: Link先を確認
Yida Mu, Mali Jin, Kalina Bontcheva, Xingyi Song(参考訳) 新型コロナウイルスの感染を抑制する効果的な戦略として、予防接種の重要性がこれまで研究されてきた。 政策立案者は、大規模な予防接種に対する国民の姿勢を包括的に理解することが重要である。 しかし、予防接種やワクチン接種などのワクチン接種に対する態度は、ソーシャルメディア上で徐々に変化してきた。 したがって、これらのスタンスを分析する際に可能な時間的変化を考慮する必要がある。 本研究の目的は,twitter上でのcovid-19ワクチン接種に対するスタンス検出における時間的概念ドリフトの影響を検討することである。 そこで本研究では, 時系列モデル(トレーニング, 検証, テストセットを時間順に分割)とランダムスプリット(これら3つのセットを大まかに分割する)を用いて, 変圧器モデルの評価を行った。 本研究は,全単言語および多言語データセットにおける無作為分割と時系列分割の比較において,モデル性能に有意な差異を示す。 経年的分割は姿勢分類の精度を大幅に低下させる。 したがって、時間的要因を重要視するためには、現実世界のスタンス検出アプローチをさらに洗練する必要がある。

Previous studies have highlighted the importance of vaccination as an effective strategy to control the transmission of the COVID-19 virus. It is crucial for policymakers to have a comprehensive understanding of the public's stance towards vaccination on a large scale. However, attitudes towards COVID-19 vaccination, such as pro-vaccine or vaccine hesitancy, have evolved over time on social media. Thus, it is necessary to account for possible temporal shifts when analysing these stances. This study aims to examine the impact of temporal concept drift on stance detection towards COVID-19 vaccination on Twitter. To this end, we evaluate a range of transformer-based models using chronological (split the training, validation and testing sets in the order of time) and random splits (randomly split these three sets) of social media data. Our findings demonstrate significant discrepancies in model performance when comparing random and chronological splits across all monolingual and multilingual datasets. Chronological splits significantly reduce the accuracy of stance classification. Therefore, real-world stance detection approaches need to be further refined to incorporate temporal factors as a key consideration.
翻訳日:2023-05-09 20:36:54 公開日:2023-05-07
# Hist2RNA:乳がん組織像から遺伝子発現を予測するための効率的なディープラーニングアーキテクチャ

hist2RNA: An efficient deep learning architecture to predict gene expression from breast cancer histopathology images ( http://arxiv.org/abs/2304.04507v4 )

ライセンス: Link先を確認
Raktim Kumar Mondol, Ewan K.A. Millar, Peter H Graham, Lois Browne, Arcot Sowmya, Erik Meijering(参考訳) 遺伝子発現は、通常の免疫組織化学(ihc)による再発リスクと治療応答性の予測を改善した乳癌のサブタイプに使用できる。 しかし、このクリニックでは、分子プロファイリングは主にER+乳がんに使用され、高価で組織破壊性があり、特別なプラットフォームを必要とし、結果を得るために数週間を要する。 深層学習アルゴリズムは、デジタル組織病理画像の形態的パターンを効果的に抽出し、分子表現型を迅速かつ費用効率良く予測することができる。 ヘマトキシリンおよびエオシン(H&E)染色スライディング画像(WSIs)からの光性PAM50サブタイプを含む138遺伝子(市販の分子プロファイリングテスト6種を組み込んだ)の発現を予測するため,バルクRNAシークエンシング技術に触発された新しい計算効率の高いhist2RNAを提案する。 トレーニングフェーズは、The Cancer Genome Atlas (TCGA, n=335)の注釈付きH&E画像を用いて、患者レベルでの遺伝子発現を予測する事前訓練モデルから抽出された各患者の特徴の集約を含む。 我々は、保持されたテストセット(n = 160, corr = 0.82, corr = 0.29)で遺伝子予測を成功させ、IHCおよび生存情報を含む外部組織マイクロアレイ(TMA)データセット(n = 498)で探索分析を行った。 本モデルでは, 単変量解析(c-index = 0.56), ハザード比 = 2.16 (95% CI 1.12-3.06), p < 5 x 10-3), および標準臨床病理学的変数(c-index = 0.65, ハザード比 = 1.85 (95% CI 1.30-2.68), p < 5 x 10-3) を含む多変量解析において, 遺伝子の発現と光学的PAM50サブタイプ(Luminal A vs Luminal B)を予測できる。

Gene expression can be used to subtype breast cancer with improved prediction of risk of recurrence and treatment responsiveness over that obtained using routine immunohistochemistry (IHC). However, in the clinic, molecular profiling is primarily used for ER+ breast cancer, which is costly, tissue destructive, requires specialized platforms and takes several weeks to obtain a result. Deep learning algorithms can effectively extract morphological patterns in digital histopathology images to predict molecular phenotypes quickly and cost-effectively. We propose a new, computationally efficient approach called hist2RNA inspired by bulk RNA-sequencing techniques to predict the expression of 138 genes (incorporated from six commercially available molecular profiling tests), including luminal PAM50 subtype, from hematoxylin and eosin (H&E) stained whole slide images (WSIs). The training phase involves the aggregation of extracted features for each patient from a pretrained model to predict gene expression at the patient level using annotated H&E images from The Cancer Genome Atlas (TCGA, n=335). We demonstrate successful gene prediction on a held-out test set (n = 160, corr = 0.82 across patients, corr = 0.29 across genes) and perform exploratory analysis on an external tissue microarray (TMA) dataset (n = 498) with known IHC and survival information. Our model is able to predict gene expression and luminal PAM50 subtype (Luminal A versus Luminal B) on the TMA dataset with prognostic significance for overall survival in univariate analysis (c-index = 0.56, hazard ratio = 2.16 (95% CI 1.12-3.06), p < 5 x 10-3), and independent significance in multivariate analysis incorporating standard clinicopathological variables (c-index = 0.65, hazard ratio = 1.85 (95% CI 1.30-2.68), p < 5 x 10-3).
翻訳日:2023-05-09 20:36:14 公開日:2023-05-07
# 量子論は(おそらく)真の還元を必要とする

Quantum Theory Needs (And Probably Has) Real Reduction ( http://arxiv.org/abs/2304.10649v2 )

ライセンス: Link先を確認
R. E. Kastner(参考訳) 伝統的に標準的な量子論のアプローチは、'really' 理論が単体力学のみを含むと仮定することであり、すなわち、物理的に定量化できる唯一の進化は時間依存シュロディンガー方程式によって与えられるものである。 これは、標準理論に対する2つの異なる解釈のクラスを正統形式に導く。 (i)宇宙の異なる『ブランチ』で互いに排他的な結果が生じると仮定するエベレット型アプローチ、または (ii) 量子論における物理的説明を伴わない「投影公理」(pp) を仮定する単元アプローチ。 対照的に、非正統的なアプローチは、物理的な非ユニタリ性を含む量子論の形式を提案することである。 「」には、ペンローズの重力による崩壊説とトランザクション解釈がある。 本論文の主な焦点は、標準量子論(射影仮定の有無にかかわらず)が経験的に連続した矛盾を生じさせることを示す例である。 したがって、量子論が現実主義的な意味で実現可能であるためには(プロトコルを変更することによって不整合が回避される器楽主義的プロトコルとは対照的に)、真の物理的非ユニタリ性を持つ必要がある。 これは、客観的崩壊モデルがより真剣に検討されるべきという結論に繋がる。

The traditional, standard approach to quantum theory is to assume that the theory ``really'' contains only unitary physical dynamics--i.e., that the only physically quantifiable evolution is that given by the time-dependent Schrodinger equation. This leads to two distinct classes of interpretations for the standard theory in its orthodox form: (i) an Everettian-type approach assuming that all mutually exclusive outcomes occur in different ``branches'' of the universe; or (ii) single-outcome approaches that assume a ``projection postulate'' (PP) with no accompanying physical account within quantum theory. A contrasting, unorthodox approach is to suggest forms of quantum theory that involve physical non-unitarity; these are called ``objective collapse models.'' Among these are Penrose's theory of gravitation-induced collapse and the Transactional Interpretation. The primary focus of this paper is an example demonstrating that standard quantum theory (with or without the projection postulate) can in-principle yield empirically consequential inconsistencies. Thus, it appears that for quantum theory to be viable in a realist sense (as opposed to being an instrumentalist protocol in which inconsistencies are evaded by changing the protocol), it must possess genuine, physical non-unitarity yielding well-defined single outcomes. This leads to the conclusion that objective collapse models should be more seriously considered.
翻訳日:2023-05-09 20:28:18 公開日:2023-05-07
# コントラスト学習によるマンモグラフィ画像解析のための領域一般化

Domain Generalization for Mammographic Image Analysis via Contrastive Learning ( http://arxiv.org/abs/2304.10226v2 )

ライセンス: Link先を確認
Zheren Li, Zhiming Cui, Lichi Zhang, Sheng Wang, Chenjin Lei, Xi Ouyang, Dongdong Chen, Zixu Zhuang, Xiangyu Zhao, Yajia Gu, Zaiyi Liu, Chunling Liu, Dinggang Shen, Jie-Zhi Cheng(参考訳) マンモグラフィ画像解析は,近年の深層学習の進歩に伴い著しい進歩を遂げたコンピュータ支援診断システムにおける根本的な問題である。 しかし、ディープラーニングモデルの構築には、画像のスタイルや品質の面で大きく、十分に多様なトレーニングデータが必要である。 特に、イメージスタイルの多様性は、主にベンダーファクタに起因する可能性がある。 しかし、できるだけ多くのベンダーからのマンモグラム収集は非常に高価であり、実験室規模の研究には非実用的である。 これにより、限られた資源で様々なベンダーにディープラーニングモデルの一般化能力をさらに高めるため、新しいコントラスト学習方式が開発される。 具体的には、バックボーンネットワークはまず、さまざまなベンダースタイルに不変機能を組み込むためのマルチスタイルでマルチビューで教師なしの自己学習スキームで訓練される。 その後、バックボーンネットワークは、マス検出、マルチビューマスマッチング、バイラッド分類、乳房密度分類、特定の教師付き学習といった下流タスクに再調整される。 提案手法は,4つのベンダーと2つの公開データセットのマンモグラムを用いて評価した。 実験結果から,本手法は目視領域と目視領域の両方における解析性能を効果的に向上し,多くの最先端(SOTA)一般化手法より優れていることが示唆された。

Mammographic image analysis is a fundamental problem in the computer-aided diagnosis scheme, which has recently made remarkable progress with the advance of deep learning. However, the construction of a deep learning model requires training data that are large and sufficiently diverse in terms of image style and quality. In particular, the diversity of image style may be majorly attributed to the vendor factor. However, mammogram collection from vendors as many as possible is very expensive and sometimes impractical for laboratory-scale studies. Accordingly, to further augment the generalization capability of deep learning models to various vendors with limited resources, a new contrastive learning scheme is developed. Specifically, the backbone network is firstly trained with a multi-style and multi-view unsupervised self-learning scheme for the embedding of invariant features to various vendor styles. Afterward, the backbone network is then recalibrated to the downstream tasks of mass detection, multi-view mass matching, BI-RADS classification and breast density classification with specific supervised learning. The proposed method is evaluated with mammograms from four vendors and two unseen public datasets. The experimental results suggest that our approach can effectively improve analysis performance on both seen and unseen domains, and outperforms many state-of-the-art (SOTA) generalization methods.
翻訳日:2023-05-09 20:27:54 公開日:2023-05-07
# task loss-guided lpメトリックによるオブジェクト検出におけるトレーニング後の量子化の改善

Improving Post-Training Quantization on Object Detection with Task Loss-Guided Lp Metric ( http://arxiv.org/abs/2304.09785v3 )

ライセンス: Link先を確認
Lin Niu, Jiawei Liu, Zhihang Yuan, Dawei Yang, Xinggang Wang, Wenyu Liu(参考訳) オブジェクト検出ネットワークの効率的な推論は、エッジデバイスにおいて大きな課題である。 完全精度モデルを直接低ビット幅に変換するPTQ(Post-Training Quantization)は、モデル推論の複雑さを減らすための効果的で便利なアプローチである。 しかし、オブジェクト検出などの複雑なタスクに適用すると、かなり精度が低下する。 PTQは量子化パラメータを異なるメトリクスで最適化し、量子化の摂動を最小化する。 量子化前後の特徴写像のp-ノルム距離 Lp は摂動を評価する計量として広く用いられている。 対象検出ネットワークの特殊性について,lpメトリックのパラメータpが量子化性能に大きく影響することを示す。 固定ハイパーパラメータpは最適量子化性能を達成できないことを示す。 この問題を軽減するため,我々は,オブジェクト検出のタスク損失を表す object detection output loss (odol) を用いて,異なるレイヤを定量化するための異なる p 値を割り当てるフレームワーク detptq を提案する。 DetPTQは最適な量子化パラメータを選択するためにODOLベースの適応Lpメトリックを使用する。 実験の結果,DetPTQは2次元と3次元の両方の物体検出器において,最先端のPTQ法よりも優れていた。 例えば、RetinaNet-ResNet18上では、31.1/31.7(量子化/フル精度)のmAPを4ビットの重みと4ビットの活性化で達成する。

Efficient inference for object detection networks is a major challenge on edge devices. Post-Training Quantization (PTQ), which transforms a full-precision model into low bit-width directly, is an effective and convenient approach to reduce model inference complexity. But it suffers severe accuracy drop when applied to complex tasks such as object detection. PTQ optimizes the quantization parameters by different metrics to minimize the perturbation of quantization. The p-norm distance of feature maps before and after quantization, Lp, is widely used as the metric to evaluate perturbation. For the specialty of object detection network, we observe that the parameter p in Lp metric will significantly influence its quantization performance. We indicate that using a fixed hyper-parameter p does not achieve optimal quantization performance. To mitigate this problem, we propose a framework, DetPTQ, to assign different p values for quantizing different layers using an Object Detection Output Loss (ODOL), which represents the task loss of object detection. DetPTQ employs the ODOL-based adaptive Lp metric to select the optimal quantization parameters. Experiments show that our DetPTQ outperforms the state-of-the-art PTQ methods by a significant margin on both 2D and 3D object detectors. For example, we achieve 31.1/31.7(quantization/full-precision) mAP on RetinaNet-ResNet18 with 4-bit weight and 4-bit activation.
翻訳日:2023-05-09 20:27:34 公開日:2023-05-07
# 容量型車両経路問題に対する量子支援解経路

Quantum-Assisted Solution Paths for the Capacitated Vehicle Routing Problem ( http://arxiv.org/abs/2304.09629v2 )

ライセンス: Link先を確認
Lilly Palackal, Benedikt Poggel, Matthias Wulff, Hans Ehm, Jeanette Miriam Lorenz, Christian B. Mendl(参考訳) 産業環境における多くの関連する問題は、CVRP(Capacitated Vehicle Routing Problem)やTSP(Travelling Salesperson Problem)といったNPハード最適化の問題をもたらす。 今日の最も強力な古典的アルゴリズムでさえ、CVRPは古典的解決が難しい。 量子コンピューティングは解法を改善する方法を提供するかもしれないが、ノイズ中間スケール量子(NISQ)デバイスが古典的ヒューリスティックよりも実用的な優位性が得られるかどうかについては未解決のままである。 NISQ時代の組合せ最適化問題を解くために提案された最も顕著なアルゴリズムは、量子近似最適化アルゴリズム(QAOA)とより一般的な変分量子固有解法(VQE)である。 しかし、おもちゃの例であっても、高品質なソリューションを確実に提供する方法で実装することは難しい。 本稿では,CVRPの分解と定式化について論じ,ソリューションの品質を計測するアプリケーション駆動手法を提案する。 現在のハードウェア制約を考慮すると、CVRPをクラスタリングフェーズとTSPのセットに還元する。 TSPでは、QAOAとVQEの両方を広範囲にテストし、古典的なオプティマイザ選択や制約ペナライゼーションの強度など、様々なハイパーパラメータの影響について検討する。 QAOAの結果は、再帰的、ウォームスタート、制約保存ミキサーQAOAといった様々な拡張を考慮しても、アルゴリズムが実現可能なTSPソリューションのエネルギーしきい値に達しないため、一般的に限られた品質である。 一方、VQEはエネルギー閾値に達し、より良い性能を示す。 本研究は,実世界の最適化問題に対する量子支援解への障害を概説し,その克服方法についての展望を提案する。

Many relevant problems in industrial settings result in NP-hard optimization problems, such as the Capacitated Vehicle Routing Problem (CVRP) or its reduced variant, the Travelling Salesperson Problem (TSP). Even with today's most powerful classical algorithms, the CVRP is challenging to solve classically. Quantum computing may offer a way to improve the time to solution, although the question remains open as to whether Noisy Intermediate-Scale Quantum (NISQ) devices can achieve a practical advantage compared to classical heuristics. The most prominent algorithms proposed to solve combinatorial optimization problems in the NISQ era are the Quantum Approximate Optimization Algorithm (QAOA) and the more general Variational Quantum Eigensolver (VQE). However, implementing them in a way that reliably provides high-quality solutions is challenging, even for toy examples. In this work, we discuss decomposition and formulation aspects of the CVRP and propose an application-driven way to measure solution quality. Considering current hardware constraints, we reduce the CVRP to a clustering phase and a set of TSPs. For the TSP, we extensively test both QAOA and VQE and investigate the influence of various hyperparameters, such as the classical optimizer choice and strength of constraint penalization. Results of QAOA are generally of limited quality because the algorithm does not reach the energy threshold for feasible TSP solutions, even when considering various extensions such as recursive, warm-start and constraint-preserving mixer QAOA. On the other hand, the VQE reaches the energy threshold and shows a better performance. Our work outlines the obstacles to quantum-assisted solutions for real-world optimization problems and proposes perspectives on how to overcome them.
翻訳日:2023-05-09 20:27:15 公開日:2023-05-07
# 整数線形計画法の局所探索

Local Search for Integer Linear Programming ( http://arxiv.org/abs/2305.00188v2 )

ライセンス: Link先を確認
Peng Lin, Shaowei Cai, Mengchuan Zou, Jinkun Lin(参考訳) 整数線形プログラミングは、様々な実用的な組合せ最適化問題をモデル化し、産業や管理分野に大きな影響を与えている。 本研究では,大規模不均一問題データセット上で検証可能な一般整数線形計画のための,最初の単独局所探索ソルバを開発した。 本研究では,検索モード,改善モード,復元モードの3つのモードに切り替えるローカル検索フレームワークを提案する。 探索・復元モードについては,制約を厳格にしようとする変数の値を適応的に修正する,tight moveという演算子を提案する。 改良モードでは, 有効性を維持しつつ, 目的関数の品質向上を図るために, 効率的な昇降動作が提案されている。 これらを組み合わせることで、ローカルILPと呼ばれる整数線形プログラミングのための局所探索解法を開発する。 MIPLIBデータセットで行った実験は,大規模ハード整数線形計画問題の解法の有効性を合理的に短時間で示すものである。 ローカルILPは最先端の商用ソルバであるGurobiと競合し相補的であり、最先端の非商用ソルバSCIPを著しく上回っている。 さらに,6つのMIPLIBオープンインスタンスの新たなレコードを確立する。

Integer linear programming models a wide range of practical combinatorial optimization problems and has significant impacts in industry and management sectors. This work develops the first standalone local search solver for general integer linear programming validated on a large heterogeneous problem dataset. We propose a local search framework that switches in three modes, namely Search, Improve, and Restore modes, and design tailored operators adapted to different modes, thus improve the quality of the current solution according to different situations. For the Search and Restore modes, we propose an operator named tight move, which adaptively modifies variables' values trying to make some constraint tight. For the Improve mode, an efficient operator lift move is proposed to improve the quality of the objective function while maintaining feasibility. Putting these together, we develop a local search solver for integer linear programming called Local-ILP. Experiments conducted on the MIPLIB dataset show the effectiveness of our solver in solving large-scale hard integer linear programming problems within a reasonably short time. Local-ILP is competitive and complementary to the state-of-the-art commercial solver Gurobi and significantly outperforms the state-of-the-art non-commercial solver SCIP. Moreover, our solver establishes new records for 6 MIPLIB open instances.
翻訳日:2023-05-09 20:10:58 公開日:2023-05-07
# 計画, 排除, 追跡 -- 言語モデルは身体的エージェントにとって良い教師である

Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents ( http://arxiv.org/abs/2305.02412v2 )

ライセンス: Link先を確認
Yue Wu, So Yeon Min, Yonatan Bisk, Ruslan Salakhutdinov, Amos Azaria, Yuanzhi Li, Tom Mitchell, Shrimai Prabhumoye(参考訳) 事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。 最近の研究は、アクションスコアリングやアクションモデリング(微調整)によって、難しい制御タスクを単純化する抽象的な計画を生成するLLMの能力を活用している。 しかし、トランスフォーマーアーキテクチャは、入力長の制限、微調整の非効率性、事前トレーニングからのバイアス、非テキスト環境との非互換性など、llmがエージェントとして直接機能することの難しいいくつかの制約を継承している。 低レベルの訓練可能なアクターとの互換性を維持するために、llmの知識を使って制御問題を単純化することを提案します。 我々は,PET(Plan, Eliminate, and Track)フレームワークを提案する。 Planモジュールはタスク記述をハイレベルなサブタスクのリストに変換する。 Eliminateモジュールは、現在のサブタスクの観測から無関係なオブジェクトとレセプタクルをマスクする。 最後に、トラックモジュールは、エージェントが各サブタスクを完了したかどうかを決定する。 AlfWorldの次のベンチマークでは、PETフレームワークが人間目標仕様への一般化のためにSOTAよりも15%改善されている。

Pre-trained large language models (LLMs) capture procedural knowledge about the world. Recent work has leveraged LLM's ability to generate abstract plans to simplify challenging control tasks, either by action scoring, or action modeling (fine-tuning). However, the transformer architecture inherits several constraints that make it difficult for the LLM to directly serve as the agent: e.g. limited input lengths, fine-tuning inefficiency, bias from pre-training, and incompatibility with non-text environments. To maintain compatibility with a low-level trainable actor, we propose to instead use the knowledge in LLMs to simplify the control problem, rather than solving it. We propose the Plan, Eliminate, and Track (PET) framework. The Plan module translates a task description into a list of high-level sub-tasks. The Eliminate module masks out irrelevant objects and receptacles from the observation for the current sub-task. Finally, the Track module determines whether the agent has accomplished each sub-task. On the AlfWorld instruction following benchmark, the PET framework leads to a significant 15% improvement over SOTA for generalization to human goal specifications.
翻訳日:2023-05-09 19:51:23 公開日:2023-05-07
# 機械学習形成エネルギーを用いたショットガン結晶構造予測

Shotgun crystal structure prediction using machine-learned formation energies ( http://arxiv.org/abs/2305.02158v2 )

ライセンス: Link先を確認
Chang Liu (1), Hiromasa Tamaki (2), Tomoyasu Yokoyama (2), Kensuke Wakasugi (2), Satoshi Yotsuhashi (2), Minoru Kusaba (1), Ryo Yoshida (1, 3 and 4) ((1) The Institute of Statistical Mathematics, (2) Panasonic Holdings Corporation, (3) National Institute for Materials Science, (4) The Graduate University for Advanced Studies)(参考訳) 組み立てられた原子の安定あるいは準安定な結晶構造は、原子配置に関してエネルギー表面の大域的または局所的なミニマを見つけることで予測できる。 一般に、これは単位セルに30個以上の原子を含むような大きなシステムでは実用的でない第一原理エネルギー計算を繰り返す必要がある。 そこで我々は, 簡単な機械学習ワークフローを用いて, 結晶構造予測問題の解決に多大な進歩を遂げた; 第一原理エネルギー計算に機械学習サロゲートを用いて, 仮想的に生成した結晶構造の大規模なライブラリを用いて, 非定位単発スクリーニングを行った。 本手法は, 第一原理計算から得られた少数のトレーニングサンプルのみを用いて, 結晶前状態の高精度なエネルギー予測を可能にする伝達学習と, 有望かつ多種多様な結晶構造をスクリーニングするための生成モデルである。 ここでは、トレーニングサンプルの生成と、最終的に狭くなった結晶構造の最適化のために、第一原理計算を行った。 ショットガン法は計算要求の5~10倍以下であり, 逐次第一原理計算に大きく依存する従来の手法の2~6倍の精度で予測精度が向上した。

Stable or metastable crystal structures of assembled atoms can be predicted by finding the global or local minima of the energy surface with respect to the atomic configurations. Generally, this requires repeated first-principles energy calculations that are impractical for large systems, such as those containing more than 30 atoms in the unit cell. Here, we have made significant progress in solving the crystal structure prediction problem with a simple but powerful machine-learning workflow; using a machine-learning surrogate for first-principles energy calculations, we performed non-iterative, single-shot screening using a large library of virtually created crystal structures. The present method relies on two key technical components: transfer learning, which enables a highly accurate energy prediction of pre-relaxed crystalline states given only a small set of training samples from first-principles calculations, and generative models to create promising and diverse crystal structures for screening. Here, first-principles calculations were performed only to generate the training samples, and for the optimization of a dozen or fewer finally narrowed-down crystal structures. Our shotgun method was more than 5--10 times less computationally demanding and achieved an outstanding prediction accuracy that was 2--6 times higher than that of the conventional methods that rely heavily on iterative first-principles calculations.
翻訳日:2023-05-09 19:50:40 公開日:2023-05-07
# UIT-OpenViIC:ベトナムにおける画像キャプション評価のための新しいベンチマーク

UIT-OpenViIC: A Novel Benchmark for Evaluating Image Captioning in Vietnamese ( http://arxiv.org/abs/2305.04166v1 )

ライセンス: Link先を確認
Doanh C. Bui, Nghia Hieu Nguyen, Khang Nguyen(参考訳) Image Captioningは、2020年代の世界の研究コミュニティに関心を持つ視覚言語タスクの1つだ。 MS-COCOキャプションベンチマークは、2015年に発表されたが、高度なキャプションモデルの性能を評価するために一般的に使用される。 MS-COCOキャプションデータセットでトレーニングされた最近のキャプションモデルは、英語の言語パターンにおいて、優れたパフォーマンスしか得られていない。 ベトナムの低リソース研究コミュニティに貢献するために,ベトナムにおける新しい画像キャプションデータセット,オープンドメインベトナム画像キャプションデータセット(UIT-OpenViIC)を紹介する。 導入されたデータセットには、ベトナムでキャプチャーされ、厳格な規則と監督の下でベトナムによって手動で注釈付けされる複雑なシーンが含まれている。 本稿では,データセット作成プロセスについてより詳細に述べる。 予備分析から,我々のデータセットは,MS COCOデータセット上で良好に動作した最近のSOTA(State-of-the-art (SOTA) Transformer-based baselinesに対して困難であることを示す。 そして、控えめな結果から、uit-openviicは成長する余地があることが証明され、研究コミュニティがキャプションモデルを評価するためのベトナムの標準ベンチマークの1つとなる。 さらに,複数レベルのエンコーダ出力融合機構による画像表現能力を効果的に向上するCAMO手法を提案する。

Image Captioning is one of the vision-language tasks that still interest the research community worldwide in the 2020s. MS-COCO Caption benchmark is commonly used to evaluate the performance of advanced captioning models, although it was published in 2015. Recent captioning models trained on the MS-COCO Caption dataset only have good performance in language patterns of English; they do not have such good performance in contexts captured in Vietnam or fluently caption images using Vietnamese. To contribute to the low-resources research community as in Vietnam, we introduce a novel image captioning dataset in Vietnamese, the Open-domain Vietnamese Image Captioning dataset (UIT-OpenViIC). The introduced dataset includes complex scenes captured in Vietnam and manually annotated by Vietnamese under strict rules and supervision. In this paper, we present in more detail the dataset creation process. From preliminary analysis, we show that our dataset is challenging to recent state-of-the-art (SOTA) Transformer-based baselines, which performed well on the MS COCO dataset. Then, the modest results prove that UIT-OpenViIC has room to grow, which can be one of the standard benchmarks in Vietnamese for the research community to evaluate their captioning models. Furthermore, we present a CAMO approach that effectively enhances the image representation ability by a multi-level encoder output fusion mechanism, which helps improve the quality of generated captions compared to previous captioning models.
翻訳日:2023-05-09 17:22:11 公開日:2023-05-07
# PhysBench: 新しいデータセットとベースラインによるリモート生理的センシングのためのベンチマークフレームワーク

PhysBench: A Benchmark Framework for Remote Physiological Sensing with New Dataset and Baseline ( http://arxiv.org/abs/2305.04161v1 )

ライセンス: Link先を確認
Kegang Wang, Yantao Wei, Mingwen Tong, Jie Gao, Yi Tian, YuJian Ma, ZhongJin Zhao(参考訳) 近年,インターネットビデオの普及により,感情コンピューティングや遠隔医療の分野で生理的リモートセンシングが注目されている。 顔の映像から生理学的シグナルを復元することは、前処理、画像アルゴリズム、そして波形を復元する後処理の一連の課題である。 本稿では,統一前処理と後処理によって異なるアルゴリズムを公平に比較可能な,完全かつ効率的なエンドツーエンドのトレーニングおよびテストフレームワークを提案する。 さらに、軽量なアルゴリズムとともに、高度に同期されたロスレスフォーマットデータセットを導入する。 データセットには58名の被験者による32時間(3.53mフレーム)以上のビデオが含まれている。

In recent years, due to the widespread use of internet videos, physiological remote sensing has gained more and more attention in the fields of affective computing and telemedicine. Recovering physiological signals from facial videos is a challenging task that involves a series of preprocessing, image algorithms, and post-processing to finally restore waveforms. We propose a complete and efficient end-to-end training and testing framework that provides fair comparisons for different algorithms through unified preprocessing and post-processing. In addition, we introduce a highly synchronized lossless format dataset along with a lightweight algorithm. The dataset contains over 32 hours (3.53M frames) of video from 58 subjects; by training on our collected dataset both our proposed algorithm as well as existing ones can achieve improvements.
翻訳日:2023-05-09 17:21:44 公開日:2023-05-07
# X-LLM:マルチモーダルを外国語として扱うことで高度な大規模言語モデルをブートストラップする

X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages ( http://arxiv.org/abs/2305.04160v1 )

ライセンス: Link先を確認
Feilong Chen, Minglun Han, Haozhi Zhao, Qingyang Zhang, Jing Shi, Shuang Xu, Bo Xu(参考訳) 大規模言語モデル(LLM)は顕著な言語能力を示している。 GPT-4は先進的なLLMに基づいており、従来の視覚言語モデルを超える素晴らしいマルチモーダル機能を示している。 従来のマルチモーダルモデルと比較して,より高度なllmの使用が特徴である。 残念ながら、GPT-4のモデルアーキテクチャとトレーニング戦略は不明である。 マルチモーダル機能を持つLLMを実現するために,X-LLMを提案する。X2Lインタフェースを用いて,マルチモーダル(画像,音声,ビデオ)を外国語に変換し,大きな言語モデル(ChatGLM)に入力する。 具体的には、X-LLMは複数のフリーズシングルモーダルエンコーダと、X2Lインタフェースを用いたフリーズLDMを整列させ、そこで ``X'' は画像、音声、ビデオなどのマルチモーダル、 ``L'' は言語を表す。 X-LLMのトレーニングは以下の3つの段階から構成される: 1) マルチモーダル情報変換 1段目は各X2Lインタフェースを訓練し、それぞれのシングルモーダルエンコーダと個別に調整し、マルチモーダル情報を言語に変換する。 2) X2L の表現を LLM にアライメントする: 単一モードエンコーダは X2L インターフェースを介して独立して LLM にアライメントされる。 (3)マルチモーダル性の統合: すべてのシングルモーダルエンコーダは、マルチモーダル機能をLLMに統合するために、X2Lインタフェースを介してLLMと整列する。 実験の結果,X-LLM は印象的なマルチモデルチャット能力を示し,時には画像や命令に対するマルチモーダル GPT-4 の挙動を示し,合成マルチモーダル 命令追従データセットにおける GPT-4 と比較すると 84.5 % のスコアが得られた。 また,LLMによる音声認識の時代の進展を期待して,ALRとマルチモーダルASRのLLMを用いた定量的検査を行った。

Large language models (LLMs) have demonstrated remarkable language abilities. GPT-4, based on advanced LLMs, exhibits extraordinary multimodal capabilities beyond previous visual language models. We attribute this to the use of more advanced LLMs compared with previous multimodal models. Unfortunately, the model architecture and training strategies of GPT-4 are unknown. To endow LLMs with multimodal capabilities, we propose X-LLM, which converts Multi-modalities (images, speech, videos) into foreign languages using X2L interfaces and inputs them into a large Language model (ChatGLM). Specifically, X-LLM aligns multiple frozen single-modal encoders and a frozen LLM using X2L interfaces, where ``X'' denotes multi-modalities such as image, speech, and videos, and ``L'' denotes languages. X-LLM's training consists of three stages: (1) Converting Multimodal Information: The first stage trains each X2L interface to align with its respective single-modal encoder separately to convert multimodal information into languages. (2) Aligning X2L representations with the LLM: single-modal encoders are aligned with the LLM through X2L interfaces independently. (3) Integrating multiple modalities: all single-modal encoders are aligned with the LLM through X2L interfaces to integrate multimodal capabilities into the LLM. Our experiments show that X-LLM demonstrates impressive multimodel chat abilities, sometimes exhibiting the behaviors of multimodal GPT-4 on unseen images/instructions, and yields a 84.5\% relative score compared with GPT-4 on a synthetic multimodal instruction-following dataset. And we also conduct quantitative tests on using LLM for ASR and multimodal ASR, hoping to promote the era of LLM-based speech recognition.
翻訳日:2023-05-09 17:21:32 公開日:2023-05-07
# SynthMix:医療用クロスモーダルドメイン適応のための配向合成

SynthMix: Mixing up Aligned Synthesis for Medical Cross-Modality Domain Adaptation ( http://arxiv.org/abs/2305.04156v1 )

ライセンス: Link先を確認
Xinwen Zhang, Chaoyi Zhang, Dongnan Liu, Qianbi Yu, Weidong Cai(参考訳) 本手法は, 医療分野におけるラベル付きデータの取得が困難であったため, ドメインシフトを軽減するために合成画像を作成することで, 高度な性能を示した。 既存の研究はネットワークアーキテクチャの変更に重点を置いているが、GANトレーニング戦略にはほとんど取り組んでいない。 本稿では,ネットワークアーキテクチャを変更せずに合成品質を促進する,自然かつ効果的なトレーニングポリシを備えたアドオンモジュールであるsynthmixを提案する。 GANの逆説に従い、我々はSynthMixと呼ばれる混合合成スキームを設計した。 実際のサンプルと合成サンプルの整列画像をコヒーレントに混合し、粒度の細かい特徴の発生を刺激し、関連するドメイン固有の詳細を検査する。 提案手法は,公開データセット中の2つのセグメンテーションベンチマークを用いて評価し,既存の手法と比較して有意な性能向上を示した。

The adversarial methods showed advanced performance by producing synthetic images to mitigate the domain shift, a common problem due to the hardship of acquiring labelled data in medical field. Most existing studies focus on modifying the network architecture, but little has worked on the GAN training strategy. In this work, we propose SynthMix, an add-on module with a natural yet effective training policy that can promote synthetic quality without altering the network architecture. Following the adversarial philosophy of GAN, we designed a mix-up synthesis scheme termed SynthMix. It coherently mixed up aligned images of real and synthetic samples to stimulate the generation of fine-grained features, examined by an associated Inspector for the domain-specific details. We evaluated our method on two segmentation benchmarks among three publicly available datasets, where our method showed a significant performance gain compared with existing state-of-the-art approaches.
翻訳日:2023-05-09 17:20:56 公開日:2023-05-07
# Score: スクーン知識ベースシステムのためのルールエンジン

Score: A Rule Engine for the Scone Knowledge Base System ( http://arxiv.org/abs/2305.04154v1 )

ライセンス: Link先を確認
Jeffrey Chen, Scott E. Fahlman(参考訳) 我々は,scone知識ベースシステム向けに設計・実装されたルールエンジンである score を提案する。 Sconeは、記号形式の一般的な知識の豊かな表現を保存および操作するために設計された知識ベースシステムである。 ネットワーク構造におけるノードとリンクの形式での知識を表し、異なる要素間の関係に関する基本的な推論を効率的に行うことができる。 Scone自身は,他のソフトウェアシステムとインターフェース可能な,一種の“スマートメモリ”として機能する。 Sconeの改善の1つの領域は、知能エージェントに知識を供給し、その知識を使用して行動を実行し、その観察によって知識ベースを更新できるという点である。 我々は、Sconの知識ベースに新たに追加された構造に基づいて、単純な推論を自動で実行する生産ルールエンジンでSconシステムを強化し、Scon上に構築された計画システムの性能を向上する可能性がある。 生産規則システムは、「if-then」生産規則からなり、既存の知識と一致し、その述語が満たされた時に行動を起こす。 我々は,複数のユースケースをカバーするために,チェックと解雇の方法が異なる2種類の生産ルール,if-added と if- needed を提案する。 そして、これらのルールを大きな知識ベースで効率的にチェックし、解雇する手法を実装します。 新しいルールエンジンは、複雑なスタンドアロンのプランナーではないので、sconeのコンテキストにどのように適合するか、そして計画システムにおける今後の作業について論じる。

We present Score, a rule engine designed and implemented for the Scone knowledge base system. Scone is a knowledge base system designed for storing and manipulating rich representations of general knowledge in symbolic form. It represents knowledge in the form of nodes and links in a network structure, and it can perform basic inference about the relationships between different elements efficiently. On its own, Scone acts as a sort of "smart memory" that can interface with other software systems. One area of improvement for Scone is how useful it can be in supplying knowledge to an intelligent agent that can use the knowledge to perform actions and update the knowledge base with its observations. We augment the Scone system with a production rule engine that automatically performs simple inference based on existing and newly-added structures in Scone's knowledge base, potentially improving the capabilities of any planning systems built on top of Scone. Production rule systems consist of "if-then" production rules that try to match their predicates to existing knowledge and fire their actions when their predicates are satisfied. We propose two kinds of production rules, if-added and if-needed rules, that differ in how they are checked and fired to cover multiple use cases. We then implement methods to efficiently check and fire these rules in a large knowledge base. The new rule engine is not meant to be a complex stand-alone planner, so we discuss how it fits into the context of Scone and future work on planning systems.
翻訳日:2023-05-09 17:20:40 公開日:2023-05-07
# チャネル駆動確率勾配ランジュバンダイナミクスによるベイジアン・オーバー・ザ・エアフェダブグ

Bayesian Over-the-Air FedAvg via Channel Driven Stochastic Gradient Langevin Dynamics ( http://arxiv.org/abs/2305.04152v1 )

ライセンス: Link先を確認
Boning Zhang, Dongzhu Liu, Osvaldo Simeone, Guangxu Zhu(参考訳) 近年のスケーラブルベイズ推定法の開発は、不確実性定量化によるモデル校正の改善を提供する従来の頻繁学習の代替としてベイズ学習を採用することに再び関心を寄せている。 近年,フェデレート平均ランゲヴィンダイナミクス (FALD) は,ノイズレス通信の存在下で分散ベイズ学習を効率的に実装できるフェデレーション平均化の変種として導入された。 本稿では,モンテカルロ更新において,無線システムにおいてfaldを実現する新しいプロトコルである wireless fald (wfald) を提案する。 無線ベイズ学習の以前の研究とは異なり、WFALDは通信ラウンド間の複数の局所的な更新を可能にし、(\emph{ii})確率勾配をミニバッチで計算する。 wfaldが生成する試料とターゲットのグローバル後方分布との間の2-wasserstein距離を用いて収束解析を行った。 解析と実験により、信号対雑音比が十分に大きい場合には、モンテカルロサンプリングのためにチャネルノイズを完全に再利用することができ、性能の損失を伴わないことが示された。

The recent development of scalable Bayesian inference methods has renewed interest in the adoption of Bayesian learning as an alternative to conventional frequentist learning that offers improved model calibration via uncertainty quantification. Recently, federated averaging Langevin dynamics (FALD) was introduced as a variant of federated averaging that can efficiently implement distributed Bayesian learning in the presence of noiseless communications. In this paper, we propose wireless FALD (WFALD), a novel protocol that realizes FALD in wireless systems by integrating over-the-air computation and channel-driven sampling for Monte Carlo updates. Unlike prior work on wireless Bayesian learning, WFALD enables (\emph{i}) multiple local updates between communication rounds; and (\emph{ii}) stochastic gradients computed by mini-batch. A convergence analysis is presented in terms of the 2-Wasserstein distance between the samples produced by WFALD and the targeted global posterior distribution. Analysis and experiments show that, when the signal-to-noise ratio is sufficiently large, channel noise can be fully repurposed for Monte Carlo sampling, thus entailing no loss in performance.
翻訳日:2023-05-09 17:20:15 公開日:2023-05-07
# 文脈対応チャート要素検出

Context-Aware Chart Element Detection ( http://arxiv.org/abs/2305.04151v1 )

ライセンス: Link先を確認
Pengyu Yan, Saleem Ahmed, David Doermann(参考訳) チャートデータ抽出の前提条件として、チャートの基本要素の正確な検出が不可欠で必須である。 一般的な画像領域におけるオブジェクト検出とは対照的に、チャートは高度に構造化されたデータ視覚化フォーマットであるため、チャート要素検出はコンテキスト情報に大きく依存する。 そこで本稿では,視覚的コンテキスト拡張と位置的コンテキストエンコーディングからなるローカル・グローバルコンテキスト融合モジュールをCascade R-CNNフレームワークに統合することで,コンテキスト認識チャート要素検出のための新しい手法CACHEDを提案する。 本手法のより広い適用性を実現するため,既存のチャート要素の分類を洗練し,プロット要素を除いたチャート基本要素の18クラスを標準化した。 チャート要素を更新したCACHED法は,実験で最先端の性能を実現し,チャート要素検出におけるコンテキストの重要性を強調した。 提案手法をバープロット検出タスクに拡張し, PMCテストデータセット上で最良の結果を得る。

As a prerequisite of chart data extraction, the accurate detection of chart basic elements is essential and mandatory. In contrast to object detection in the general image domain, chart element detection relies heavily on context information as charts are highly structured data visualization formats. To address this, we propose a novel method CACHED, which stands for Context-Aware Chart Element Detection, by integrating a local-global context fusion module consisting of visual context enhancement and positional context encoding with the Cascade R-CNN framework. To improve the generalization of our method for broader applicability, we refine the existing chart element categorization and standardized 18 classes for chart basic elements, excluding plot elements. Our CACHED method, with the updated category of chart elements, achieves state-of-the-art performance in our experiments, underscoring the importance of context in chart element detection. Extending our method to the bar plot detection task, we obtain the best result on the PMC test dataset.
翻訳日:2023-05-09 17:19:54 公開日:2023-05-07
# 軽度三重項損失による運動とテキストのクロスモーダル検索

Cross-Modal Retrieval for Motion and Text via MildTriple Loss ( http://arxiv.org/abs/2305.04195v1 )

ライセンス: Link先を確認
Sheng Yan, Haoqiang Wang, Xin Du, Mengyuan Liu, Hong Liu(参考訳) クロスモーダル検索は、画像テキスト検索技術やビデオテキスト検索技術の進歩により、コンピュータビジョンと自然言語処理において顕著な研究トピックとなっている。 しかし,人間の動作シーケンスとテキスト間のクロスモーダル検索は,ユーザの行動や言語をよりよく理解するための仮想現実アプリケーションを支援するなど,アプリケーションの価値が広いにもかかわらず,十分な注意を払っていない。 本課題は,2つのモダリティの連成モデリング,テキストからの人中心情報理解,人間の3次元動作系列からの学習行動特徴などの課題を提示する。 動作データモデリングにおける従来の研究は,従来の情報を忘れてしまうような自己回帰的特徴抽出器に頼っていた。一方,2つの異なるモードから表現を学習し,長期的依存関係をキャプチャする,単純かつパワフルなトランスフォーマーベースモーションとテキストエンコーダを含む革新的なモデルを提案する。 さらに、異なる人間の動きの同じ原子の作用が重なり合うことで意味的な対立が生じ、新たな三重項損失関数であるMildTriple Lossが探索される。 モーダル空間内のサンプル間の類似性を利用して、結合埋め込み空間における軟弱な負のサンプルマイニングを誘導し、三重項損失を訓練し、偽負のサンプルによる違反を減らす。 我々は,最新のHumanML3DおよびKIT Motion-Languageデータセットのモデルと手法を評価し,動作検索の62.9%のリコール,テキスト検索の71.5\%のリコールを実現した。 私たちのコードはhttps://github.com/eanson023/rehamot.comで利用可能です。

Cross-modal retrieval has become a prominent research topic in computer vision and natural language processing with advances made in image-text and video-text retrieval technologies. However, cross-modal retrieval between human motion sequences and text has not garnered sufficient attention despite the extensive application value it holds, such as aiding virtual reality applications in better understanding users' actions and language. This task presents several challenges, including joint modeling of the two modalities, demanding the understanding of person-centered information from text, and learning behavior features from 3D human motion sequences. Previous work on motion data modeling mainly relied on autoregressive feature extractors that may forget previous information, while we propose an innovative model that includes simple yet powerful transformer-based motion and text encoders, which can learn representations from the two different modalities and capture long-term dependencies. Furthermore, the overlap of the same atomic actions of different human motions can cause semantic conflicts, leading us to explore a new triplet loss function, MildTriple Loss. it leverages the similarity between samples in intra-modal space to guide soft-hard negative sample mining in the joint embedding space to train the triplet loss and reduce the violation caused by false negative samples. We evaluated our model and method on the latest HumanML3D and KIT Motion-Language datasets, achieving a 62.9\% recall for motion retrieval and a 71.5\% recall for text retrieval (based on R@10) on the HumanML3D dataset. Our code is available at https://github.com/eanson023/rehamot.
翻訳日:2023-05-09 17:12:52 公開日:2023-05-07
# 弱教師付き時間行動定位のためのビデオ特異的クエリーキー注意モデル

Video-Specific Query-Key Attention Modeling for Weakly-Supervised Temporal Action Localization ( http://arxiv.org/abs/2305.04186v1 )

ライセンス: Link先を確認
Xijun Wang, Aggelos K. Katsaggelos(参考訳) 弱教師付き時間的アクションローカライゼーションは、ビデオレベルのアクションラベルのみを用いて、未トリミングビデオ中のアクションインスタンスを特定し、ローカライズすることを目的としている。 人間がビデオを見るとき、さまざまなビデオシナリオにおけるアクションに関する抽象的な知識を適応させ、いくつかのアクションが起こっているかどうかを検出することができます。 本稿では,人間がどのように行動するかを模倣し,ビデオ中の複数のアクションを特定し識別するための新しい視点をもたらす。 本稿では,vqk-net というネットワークを提案し,各入力ビデオのアクションカテゴリ毎にユニークなクエリを学習する,ビデオ固有のクエリキー注意モデルを提案する。 学習されたクエリは、アクションの知識の特徴を抽象レベルで含むだけでなく、この知識を対象のビデオシナリオに適合させる能力も備えており、時間次元に沿って対応するアクションの存在を検出するために使用される。 これらのアクションカテゴリクエリをよりよく学習するために,従来の入力ビデオの特徴だけでなく,クエリ類似性を損なう新しいビデオ固有のアクションカテゴリクエリ学習者を通じて,異なるビデオ間の相関性を利用する。 最後に,一般的に使用される3つのデータセット(thumos14, activitynet1.2, activitynet1.3)について広範な実験を行い,最先端のパフォーマンスを実現する。

Weakly-supervised temporal action localization aims to identify and localize the action instances in the untrimmed videos with only video-level action labels. When humans watch videos, we can adapt our abstract-level knowledge about actions in different video scenarios and detect whether some actions are occurring. In this paper, we mimic how humans do and bring a new perspective for locating and identifying multiple actions in a video. We propose a network named VQK-Net with a video-specific query-key attention modeling that learns a unique query for each action category of each input video. The learned queries not only contain the actions' knowledge features at the abstract level but also have the ability to fit this knowledge into the target video scenario, and they will be used to detect the presence of the corresponding action along the temporal dimension. To better learn these action category queries, we exploit not only the features of the current input video but also the correlation between different videos through a novel video-specific action category query learner worked with a query similarity loss. Finally, we conduct extensive experiments on three commonly used datasets (THUMOS14, ActivityNet1.2, and ActivityNet1.3) and achieve state-of-the-art performance.
翻訳日:2023-05-09 17:12:22 公開日:2023-05-07
# 全方向量子制限位相保存増幅器

Fully Directional Quantum-limited Phase-Preserving Amplifier ( http://arxiv.org/abs/2305.04184v1 )

ライセンス: Link先を確認
Gangqiang Liu, Andrew Lingenfelter, Vidul Joshi, Nicholas E. Frattini, Volodymyr V. Sivak, Shyam Shankar and Michel H. Devoret(参考訳) 本研究では,4つのモードにまたがる6つのパラメトリックプロセス間の干渉を利用して,4ポート4モード超伝導ジョセフソン回路の完全指向性,量子制限型位相保存増幅を実現する方法を提案する。 完全方向性(full directionality)は、増幅器の入力ポートと出力ポートの間の前方利得を超える逆分離として定義され、アプリケーション中に出力ポートに存在するインピーダンスミスマッチに対するロバスト性を保証する。 既存の指向性位相保存増幅器とは異なり、最小のバックアクションとこの増幅器の量子制限付加ノイズは出力ポートのノイズインシデントの影響を受けない。 さらに、一致した入力および出力ポートは、これらの増幅器を他の回路QEDコンポーネントと直接チップ上で統合することができ、超伝導量子プロセッサのスケールアップを容易にする。

We present a way to achieve fully directional, quantum-limited phase-preserving amplification in a four-port, four-mode superconducting Josephson circuit by utilizing interference between six parametric processes that couple all four modes. Full directionality, defined as the reverse isolation surpassing forward gain between the matched input and output ports of the amplifier, ensures its robustness against impedance mismatch that might be present at its output port during applications. Unlike existing directional phase-preserving amplifiers, both the minimal back-action and the quantum-limited added noise of this amplifier remains unaffected by noise incident on its output port. In addition, the matched input and output ports allow direct on-chip integration of these amplifiers with other circuit QED components, facilitating scaling up of superconducting quantum processors.
翻訳日:2023-05-09 17:12:01 公開日:2023-05-07
# OpenViVQA:ベトナムにおける視覚質問応答のためのタスク,データセット,マルチモーダル融合モデル

OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual Question Answering in Vietnamese ( http://arxiv.org/abs/2305.04183v1 )

ライセンス: Link先を確認
Nghia Hieu Nguyen, Duong T.D. Vo, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) 近年,視覚的質問応答 (VQA) が研究コミュニティから注目されているのは,その可能性の高い応用(インテリジェントカーの仮想支援,盲人用アシスタントデバイス,自然言語をクエリとして使用した文書画像からの情報検索など)と課題である。 VQAタスクは、質問や画像から情報を融合して適切な回答を生成する能力を持つ方法を必要とする。 ニューラルビジュアル質問応答モデルは、主に英語のようなリソース豊富な言語のための大規模データセットにおいて、大きな成長を遂げました。 しかし、利用可能なデータセットは、回答選択タスクまたは回答分類タスクとしてVQAタスクを狭める。 このようなVQAの形式は人間の能力とは程遠いものであり、VQAタスクにおける答えの側面の課題を、VQAタスクの生成よりも単に答えを選択することで排除する。 本稿では,ベトナム語で開かれた回答を持つVQAの大規模データセットであるOpenViVQA(Open-domain Vietnam Visual Question Answering)データセットについて紹介する。 さらに,FST,QuMLAG,MLPAGを画像や回答から情報を取り除き,融合した特徴を用いて回答を人間として反復的に構築する手法を提案する。 提案手法は,SAAA,MCAN,LORA,M4CなどのSOTAモデルと競合する結果が得られる。 このデータセットは、研究コミュニティがベトナムのような低リソース言語向けのトランスフォーマーを含むより一般的なアルゴリズムを開発することを奨励するために利用できる。

In recent years, visual question answering (VQA) has attracted attention from the research community because of its highly potential applications (such as virtual assistance on intelligent cars, assistant devices for blind people, or information retrieval from document images using natural language as queries) and challenge. The VQA task requires methods that have the ability to fuse the information from questions and images to produce appropriate answers. Neural visual question answering models have achieved tremendous growth on large-scale datasets which are mostly for resource-rich languages such as English. However, available datasets narrow the VQA task as the answers selection task or answer classification task. We argue that this form of VQA is far from human ability and eliminates the challenge of the answering aspect in the VQA task by just selecting answers rather than generating them. In this paper, we introduce the OpenViVQA (Open-domain Vietnamese Visual Question Answering) dataset, the first large-scale dataset for VQA with open-ended answers in Vietnamese, consists of 11,000+ images associated with 37,000+ question-answer pairs (QAs). Moreover, we proposed FST, QuMLAG, and MLPAG which fuse information from images and answers, then use these fused features to construct answers as humans iteratively. Our proposed methods achieve results that are competitive with SOTA models such as SAAA, MCAN, LORA, and M4C. The dataset is available to encourage the research community to develop more generalized algorithms including transformers for low-resource languages such as Vietnamese.
翻訳日:2023-05-09 17:11:46 公開日:2023-05-07
# すべてのリレーショナルタプルをオープン情報抽出で信頼するか? 投機検出に関する研究

Shall We Trust All Relational Tuples by Open Information Extraction? A Study on Speculation Detection ( http://arxiv.org/abs/2305.04181v1 )

ライセンス: Link先を確認
Kuicai Dong, Aixin Sun, Jung-Jae Kim, Xiaoli Li(参考訳) Open Information extract (OIE)は、オープンドメイン文から事実関係タプルを抽出することを目的としている。 下流タスクは、抽出されたOIEタプルをこれらの事実の確実性を調べることなく、事実として使用する。 しかし、不確実性/推測は共通の言語現象である。 既存の投機検出の研究は文レベルで定義されるが、たとえ文が投機的であると判断されたとしても、そこから抽出されたすべてのタプルが投機的であるわけではない。 本稿では,オイエの推測を研究し,抽出されたタプルが投機的かどうかを判定する。 我々は,タプルレベルの投機検出に関する研究問題を正式に定義し,投機的タプルのラベルを含むLSOIEデータセットの詳細なデータ解析を行う。 最後に,本研究のベースラインモデルであるOIE-Specを提案する。

Open Information Extraction (OIE) aims to extract factual relational tuples from open-domain sentences. Downstream tasks use the extracted OIE tuples as facts, without examining the certainty of these facts. However, uncertainty/speculation is a common linguistic phenomenon. Existing studies on speculation detection are defined at sentence level, but even if a sentence is determined to be speculative, not all tuples extracted from it may be speculative. In this paper, we propose to study speculations in OIE and aim to determine whether an extracted tuple is speculative. We formally define the research problem of tuple-level speculation detection and conduct a detailed data analysis on the LSOIE dataset which contains labels for speculative tuples. Lastly, we propose a baseline model OIE-Spec for this new research task.
翻訳日:2023-05-09 17:11:17 公開日:2023-05-07
# 部分分離型強化学習とベクトル化ダイバーシティによる実世界のローカルパスプランナーの訓練

Train a Real-world Local Path Planner in One Hour via Partially Decoupled Reinforcement Learning and Vectorized Diversity ( http://arxiv.org/abs/2305.04180v1 )

ライセンス: Link先を確認
Jinghao Xin, Jinwoo Kim, Zhi Li, and Ning Li(参考訳) 深層強化学習(DRL)は局所経路計画(LPP)問題の解決に有効である。 しかし、DRLの効率と一般化能力の不足により、現実世界でのそのような応用は極めて限られている。 これら2つの問題を緩和するために、アクター・シャーラーラーナー(ASL)トレーニングフレームワークと移動ロボット指向シミュレータSparrowからなるColorというソリューションが提案されている。 具体的には、DRLアルゴリズムの効率向上を目的として、ベクトル化データコレクション(VDC)モードを使用してデータ取得を高速化し、マルチスレッドでモデル最適化からデータ収集を分離し、時間フィードバックメカニズム(TFM)を利用してデータのアンダーユースやオーバーユースを回避することで2つの手順を部分的に接続する。 一方、Sparrowシミュレータは、2Dグリッドベースの世界、単純化されたキネマティクス、変換不要のデータフローを利用して軽量な設計を実現している。 明度はベクトル化の多様性を促進し、ベクトル化された環境の広いコピーにまたがる多様なシミュレーション設定を可能にし、DRLアルゴリズムの一般化能力の顕著な向上をもたらす。 57のベンチマークゲーム,32のシミュレーション,36の実世界のLPPシナリオからなる総合実験を行い,効率と一般化の観点から,本手法の優位性を実証した。 実験のコードとビデオは、私たちのwebサイトからアクセスできます。

Deep Reinforcement Learning (DRL) has exhibited efficacy in resolving the Local Path Planning (LPP) problem. However, such application in the real world is immensely limited due to the deficient efficiency and generalization capability of DRL. To alleviate these two issues, a solution named Color is proposed, which consists of an Actor-Sharer-Learner (ASL) training framework and a mobile robot-oriented simulator Sparrow. Specifically, the ASL framework, intending to improve the efficiency of the DRL algorithm, employs a Vectorized Data Collection (VDC) mode to expedite data acquisition, decouples the data collection from model optimization by multithreading, and partially connects the two procedures by harnessing a Time Feedback Mechanism (TFM) to evade data underuse or overuse. Meanwhile, the Sparrow simulator utilizes a 2D grid-based world, simplified kinematics, and conversion-free data flow to achieve a lightweight design. The lightness facilitates vectorized diversity, allowing diversified simulation setups across extensive copies of the vectorized environments, resulting in a notable enhancement in the generalization capability of the DRL algorithm being trained. Comprehensive experiments, comprising 57 benchmark video games, 32 simulated and 36 real-world LPP scenarios, have been conducted to corroborate the superiority of our method in terms of efficiency and generalization. The code and the video of the experiments can be accessed on our website.
翻訳日:2023-05-09 17:11:04 公開日:2023-05-07
# MIREAD:科学文献から高品質表現を学習するための簡易手法

MIReAD: Simple Method for Learning High-quality Representations from Scientific Documents ( http://arxiv.org/abs/2305.04177v1 )

ライセンス: Link先を確認
Anastasia Razdaibiedina, Alexander Brechalov(参考訳) 科学的文書から意味論的に意味のある表現を学習することで、学術文献の検索とレコメンデーションシステムの性能向上が促進される。 事前学習された言語モデルは、リッチなテキスト表現を学ぶことが示されているが、科学論文に強力な文書レベルの表現を提供することはできない。 学術論文の高品質な表現を微調整トランスフォーマーモデルで学習し,その抽象概念に基づいて目的とするジャーナルクラスを予測する方法であるMIREADを提案する。 私たちは2000以上のジャーナルクラスで50万以上のpubmedとarxivの抽象化をトレーニングしています。 類似論文の検索,トピック分類,文献検索に使用可能な表現をmireadが生成することを示す。 提案手法は,4つの評価基準にまたがる科学的文書表現学習モデルにおいて,既存の6つのモデルよりも優れている。

Learning semantically meaningful representations from scientific documents can facilitate academic literature search and improve performance of recommendation systems. Pre-trained language models have been shown to learn rich textual representations, yet they cannot provide powerful document-level representations for scientific articles. We propose MIReAD, a simple method that learns high-quality representations of scientific papers by fine-tuning transformer model to predict the target journal class based on the abstract. We train MIReAD on more than 500,000 PubMed and arXiv abstracts across over 2,000 journal classes. We show that MIReAD produces representations that can be used for similar papers retrieval, topic categorization and literature search. Our proposed approach outperforms six existing models for representation learning on scientific documents across four evaluation standards.
翻訳日:2023-05-09 17:10:19 公開日:2023-05-07
# テキストから画像への拡散モデルはマルチモーダルデータ中毒により容易にバックドアできる

Text-to-Image Diffusion Models can be Easily Backdoored through Multimodal Data Poisoning ( http://arxiv.org/abs/2305.04175v1 )

ライセンス: Link先を確認
Shengfang Zhai, Yinpeng Dong, Qingni Shen, Shi Pu, Yuejian Fang and Hang Su(参考訳) 条件付け機構の助けを借りて、最先端の拡散モデルがガイド画像生成、特にテキスト対画像合成において大きな成功を収めた。 テキスト対画像合成の学習過程と潜在的なリスクをよりよく理解するために,テキスト対画像拡散モデルにおけるバックドア攻撃の体系的調査を行い,様々な意味レベルで画像合成をいじる一般的なマルチモーダルバックドア攻撃フレームワークbadt2iを提案する。 具体的には、Pixel-Backdoor、Object-Backdoor、Style-Backdoorの3つのレベルに対してバックドア攻撃を行います。 正規化損失を利用することで,良質な入力で有効性を保ちつつ,大規模テキスト・画像拡散モデルにバックドアを効率的に注入する。 広範に用いられているテキストから画像への拡散モデルである安定拡散実験を行い,数回の微調整ステップで大規模拡散モデルを容易にバックドア化できることを実証した。 我々は、異なるタイプのテキストトリガーの影響を調べるために追加実験を行う。 さらに,さらなる訓練中のバックドアの持続性について検討し,バックドア防御法開発への洞察を提供する。

With the help of conditioning mechanisms, the state-of-the-art diffusion models have achieved tremendous success in guided image generation, particularly in text-to-image synthesis. To gain a better understanding of the training process and potential risks of text-to-image synthesis, we perform a systematic investigation of backdoor attack on text-to-image diffusion models and propose BadT2I, a general multimodal backdoor attack framework that tampers with image synthesis in diverse semantic levels. Specifically, we perform backdoor attacks on three levels of the vision semantics: Pixel-Backdoor, Object-Backdoor and Style-Backdoor. By utilizing a regularization loss, our methods efficiently inject backdoors into a large-scale text-to-image diffusion model while preserving its utility with benign inputs. We conduct empirical experiments on Stable Diffusion, the widely-used text-to-image diffusion model, demonstrating that the large-scale diffusion model can be easily backdoored within a few fine-tuning steps. We conduct additional experiments to explore the impact of different types of textual triggers. Besides, we discuss the backdoor persistence during further training, the findings of which provide insights for the development of backdoor defense methods.
翻訳日:2023-05-09 17:09:57 公開日:2023-05-07
# クロストークに基づくパラメータ化量子回路近似

Crosstalk-Based Parameterized Quantum Circuit Approximation ( http://arxiv.org/abs/2305.04172v1 )

ライセンス: Link先を確認
Mohannad Ibrahim, Nicholas T. Bronn, Gregory T. Byrd(参考訳) 本稿では,ハードウェアの主な特性であるクロストーク動作を主近似ドライバとして使用する変分量子アルゴリズム(vqas)に対するアンサッツ近似手法を提案する。 クロストーク適応スケジューリングを利用することで,回路レベルの近似・最適化を ansatz に適用することができる。 我々の設計手順は、まずハードウェアのクロストークを特徴付け、次に回路を所望のクロストーク緩和レベルで近似し、その時間とゲート数を効果的に削減することを含む。 本稿では,クロストークの緩和が表現性,訓練性,絡み合いに及ぼす影響を実証する。 実際の量子ハードウェアをベース構成に対してテストした結果,2つの量子化学ベンチマークにおいて,回路レベルの最適化ansatzがベースansatzよりも優れた性能を示した。 我々は、アプリケーションがクロストークに対する応答が異なることを考慮し、この近似戦略は、表現力があり、トレーニング可能で、特定のワークロードに適したクロストーク緩和レベルを持つアンサーゼを作成するために使用できると信じている。

In this paper, we propose an ansatz approximation approach for variational quantum algorithms (VQAs) that uses one of the hardware's main attributes, its crosstalk behavior, as its main approximation driver. By utilizing crosstalk-adaptive scheduling, we are able to apply a circuit-level approximation/optimization to our ansatz. Our design procedure involves first characterizing the hardware's crosstalk and then approximating the circuit by a desired level of crosstalk mitigation, all while effectively reducing its duration and gate counts. We demonstrate the effect of crosstalk mitigation on expressibility, trainability, and entanglement: key components that drive the utility of parameterized circuits. We tested our approach on real quantum hardware against a base configuration, and our results showed superior performance for the circuit-level optimized ansatz over a base ansatz for two quantum chemistry benchmarks. We take into consideration that applications vary in their response to crosstalk, and we believe that this approximation strategy can be used to create ansatze that are expressive, trainable, and with crosstalk mitigation levels tailored for specific workloads.
翻訳日:2023-05-09 17:09:33 公開日:2023-05-07
# YOLOCS:特徴空間凝固のためのDense Channel Compressionに基づく物体検出

YOLOCS: Object Detection based on Dense Channel Compression for Feature Spatial Solidification ( http://arxiv.org/abs/2305.04170v1 )

ライセンス: Link先を確認
Lin Huang, Weisheng Li, Linlin Shen, Haojie Fu, Xue Xiao, Suihan Xiao(参考訳) 本研究では,ネットワーク内の前方および後方伝播に着目し,特徴浄化と勾配バックプロパゲーションの過程におけるチャネル特性と畳み込み核の関係について検討する。 そこで本稿では,Dense Channel Compression for Feature Spatial Solidificationを提案する。 本手法の中心概念に基づき,Dense Channel Compression for Feature Spatial Solidification Structure (DCFS) と非対称多層圧縮デカップリングヘッド (ADH) という,バックボーンとヘッドネットワークのための2つの革新的なモジュールを導入する。 YOLOv5モデルに統合されると、これらの2つのモジュールは例外的な性能を示し、YOLOCSと呼ばれるモデルが修正される。 MSCOCOデータセットに基づいて評価すると、大、中、小のYOLOCSモデルはそれぞれ50.1%、47.6%、42.5%のAPが得られる。 推論速度はYOLOv5モデルと著しく類似しており、大、中、小のYOLOCSモデルはYOLOv5モデルのAPをそれぞれ1.1%、2.3%、5.2%上回っている。

In this study, we examine the associations between channel features and convolutional kernels during the processes of feature purification and gradient backpropagation, with a focus on the forward and backward propagation within the network. Consequently, we propose a method called Dense Channel Compression for Feature Spatial Solidification. Drawing upon the central concept of this method, we introduce two innovative modules for backbone and head networks: the Dense Channel Compression for Feature Spatial Solidification Structure (DCFS) and the Asymmetric Multi-Level Compression Decoupled Head (ADH). When integrated into the YOLOv5 model, these two modules demonstrate exceptional performance, resulting in a modified model referred to as YOLOCS. Evaluated on the MSCOCO dataset, the large, medium, and small YOLOCS models yield AP of 50.1%, 47.6%, and 42.5%, respectively. Maintaining inference speeds remarkably similar to those of the YOLOv5 model, the large, medium, and small YOLOCS models surpass the YOLOv5 model's AP by 1.1%, 2.3%, and 5.2%, respectively.
翻訳日:2023-05-09 17:09:03 公開日:2023-05-07
# データクラスタリング機構における群知能の影響

Influence of Swarm Intelligence in Data Clustering Mechanisms ( http://arxiv.org/abs/2305.04217v1 )

ライセンス: Link先を確認
Pitawelayalage Dasun Dileepa Pitawela, Gamage Upeksha Ganegoda(参考訳) データマイニングは、大きなデータセットから興味深い、非自明で意味のある情報を見つけることに焦点を当てている。 データクラスタリングは、類似性に基づいてデータをグループ化し、物理的に格納する、教師なしで記述的なデータマイニングタスクの1つです。 分割クラスタリング法として、K平均は実装の単純さと容易さから広く用いられている。 しかし、この手法には局所最適収束や初期点感性といった制限がある。 これらの障害により、Artific Bee Colony Algorithm、Ant Colony Optimization、Firefly Algorithm、Bat AlgorithmといったSwarmベースのアルゴリズムにインスパイアされた自然は、データの欠如と一貫性のない大規模なデータセットに対処するためにデータクラスタリングに使用される。 場合によっては、これらのアルゴリズムは、より良い結果を生み出すためのハイブリッドアプローチとして、k-meansのような伝統的なアプローチで使用される。 本稿では、これらの新しいアプローチの性能を概観し、問題のある状況に最適な方法の比較を行う。

Data mining focuses on discovering interesting, non-trivial and meaningful information from large datasets. Data clustering is one of the unsupervised and descriptive data mining task which group data based on similarity features and physically stored together. As a partitioning clustering method, K-means is widely used due to its simplicity and easiness of implementation. But this method has limitations such as local optimal convergence and initial point sensibility. Due to these impediments, nature inspired Swarm based algorithms such as Artificial Bee Colony Algorithm, Ant Colony Optimization, Firefly Algorithm, Bat Algorithm and etc. are used for data clustering to cope with larger datasets with lack and inconsistency of data. In some cases, those algorithms are used with traditional approaches such as K-means as hybrid approaches to produce better results. This paper reviews the performances of these new approaches and compares which is best for certain problematic situation.
翻訳日:2023-05-09 17:03:26 公開日:2023-05-07
# 解釈可能な機械学習モデル開発と検証のためのPiMLツールボックス

PiML Toolbox for Interpretable Machine Learning Model Development and Validation ( http://arxiv.org/abs/2305.04214v1 )

ライセンス: Link先を確認
Agus Sudjianto, Aijun Zhang, Zebin Yang, Yu Su, Ningzhou Zeng(参考訳) piml ($\pi$-ml, /`pai と読む。 です。 el/)は、機械学習モデルの開発とモデル診断を解釈可能なPythonツールボックスである。 データパイプライン、モデルトレーニング、モデル解釈と説明、モデル診断と比較を含む、ローコードモードとハイコードモードの両方の機械学習ワークフローで設計されている。 ツールボックスは、ローカルおよび/またはグローバルに解釈可能なモデル(GAM、GAMI-Net、XGB2)の増大するリストをサポートする。 また、モデルに依存しない説明可能性ツール(PFI、PDP、LIME、SHAPなど)や、モデルに依存しない強力な診断ツール(弱点、不確実性、堅牢性、公正性など)もサポートしている。 PiMLモデルの統合と、品質保証のための既存のMLOpsプラットフォームへのテストは、フレキシブルなハイコードAPIによって実現されている。 さらに、PiMLツールボックスには、モデル開発や銀行の検証など、包括的なユーザガイドとハンズオンの例が付属している。 このプロジェクトはhttps://github.com/SelfExplainML/PiML-Toolboxで入手できる。

PiML (read $\pi$-ML, /`pai.`em.`el/) is an integrated and open-access Python toolbox for interpretable machine learning model development and model diagnostics. It is designed with machine learning workflows in both low-code and high-code modes, including data pipeline, model training, model interpretation and explanation, and model diagnostics and comparison. The toolbox supports a growing list of interpretable models (e.g. GAM, GAMI-Net, XGB2) with inherent local and/or global interpretability. It also supports model-agnostic explainability tools (e.g. PFI, PDP, LIME, SHAP) and a powerful suite of model-agnostic diagnostics (e.g. weakness, uncertainty, robustness, fairness). Integration of PiML models and tests to existing MLOps platforms for quality assurance are enabled by flexible high-code APIs. Furthermore, PiML toolbox comes with a comprehensive user guide and hands-on examples, including the applications for model development and validation in banking. The project is available at https://github.com/SelfExplainML/PiML-Toolbox.
翻訳日:2023-05-09 17:03:12 公開日:2023-05-07
# 制御可能な画像生成によるロバスト画像規則回帰

Robust Image Ordinal Regression with Controllable Image Generation ( http://arxiv.org/abs/2305.04213v1 )

ライセンス: Link先を確認
Yi Cheng, Haochao Ying, Renjun Hu, Jinhong Wang, Wenhao Zheng, Xiao Zhang, Danny Chen and Jian Wu(参考訳) 画像の順序回帰は、主にカテゴリの順序を生かして研究されている。 しかし、序列回帰において非常に一般的なクラス不均衡とカテゴリー重複の問題はほとんど見過ごされた。 その結果、少数派でのパフォーマンスは不満足な場合が多い。 本稿では,これら2つの問題に直接対処するための,制御可能な画像生成に基づくCIGと呼ばれる新しいフレームワークを提案する。 我々の考えは、カテゴリ境界付近で特定のラベルを持つ追加のトレーニングサンプルを生成することであり、サンプル生成は、表現の少ないカテゴリに偏っている。 制御可能な画像生成を実現するために,画像の構造的類似性,カテゴリ的類似性,再構成制約に基づいて,画像の構造的およびカテゴリー的情報を分離する。 我々は3つの異なる画像順序回帰シナリオにおける新しいCIGアプローチの有効性を評価する。 その結果,CIGを市販画像エンコーダや順序回帰モデルと柔軟に統合して改善を達成できること,そしてマイノリティカテゴリにおいて改善がより重要であることが示された。

Image ordinal regression has been mainly studied along the line of exploiting the order of categories. However, the issues of class imbalance and category overlap that are very common in ordinal regression were largely overlooked. As a result, the performance on minority categories is often unsatisfactory. In this paper, we propose a novel framework called CIG based on controllable image generation to directly tackle these two issues. Our main idea is to generate extra training samples with specific labels near category boundaries, and the sample generation is biased toward the less-represented categories. To achieve controllable image generation, we seek to separate structural and categorical information of images based on structural similarity, categorical similarity, and reconstruction constraints. We evaluate the effectiveness of our new CIG approach in three different image ordinal regression scenarios. The results demonstrate that CIG can be flexibly integrated with off-the-shelf image encoders or ordinal regression models to achieve improvement, and further, the improvement is more significant for minority categories.
翻訳日:2023-05-09 17:02:54 公開日:2023-05-07
# Geometry-based Cascaded Neural Network による冠動脈の分節と血管ベクトル化

Segmentation and Vascular Vectorization for Coronary Artery by Geometry-based Cascaded Neural Network ( http://arxiv.org/abs/2305.04208v1 )

ライセンス: Link先を確認
Xiaoyu Yang, Lijian Xu, Simon Yu, Qing Xia, Hongsheng Li, Shaoting Zhang(参考訳) 冠動脈の分節化は、冠動脈ct血管造影(ccta)画像の定量的解析に重要な課題であり、深層学習の分野によって刺激されている。 しかし、冠状動脈の枝が小さくて狭い複雑な構造は大きな課題となる。 低解像度と低コントラストの医療画像制限と組み合わせて、分割された血管の断片化が予測に頻繁に発生する。 そこで, 冠状動脈に対して幾何学に基づくカスケード・セグメンテーション法が提案されている。 1) 形状変形ネットワークを統合し, 冠動脈の分節化とベクトル化を行うカスケードネットワークを設計する。 冠動脈のメッシュは、断片化することなく、ねじれ、洗練された冠動脈構造に対して連続的かつ正確である。 2)voxelラベルを用いた従来のマーチングキューブ法によるメッシュアノテーションとは異なり,冠状動脈の微細なベクトル化メッシュを正規化した形態で再構成する。 メッシュアノテーションは幾何学に基づくセグメンテーションネットワークの恩恵を受け、複雑な枝の分岐と点雲の分散を避ける。 3)冠状動脈疾患を伴う200ccta画像からなるcca-200というデータセットが収集される。 200例の根底真理は、専門放射線科医による冠動脈内径アノテーションである。 CCA-200とパブリックASOCAデータセットでは,CCA-200では0.778,ASOCAでは0.895であり,より優れた結果が得られた。 特に、我々の幾何学的モデルでは、分割された血管の断片化を伴わない正確で無傷で滑らかな冠動脈を生成する。

Segmentation of the coronary artery is an important task for the quantitative analysis of coronary computed tomography angiography (CCTA) images and is being stimulated by the field of deep learning. However, the complex structures with tiny and narrow branches of the coronary artery bring it a great challenge. Coupled with the medical image limitations of low resolution and poor contrast, fragmentations of segmented vessels frequently occur in the prediction. Therefore, a geometry-based cascaded segmentation method is proposed for the coronary artery, which has the following innovations: 1) Integrating geometric deformation networks, we design a cascaded network for segmenting the coronary artery and vectorizing results. The generated meshes of the coronary artery are continuous and accurate for twisted and sophisticated coronary artery structures, without fragmentations. 2) Different from mesh annotations generated by the traditional marching cube method from voxel-based labels, a finer vectorized mesh of the coronary artery is reconstructed with the regularized morphology. The novel mesh annotation benefits the geometry-based segmentation network, avoiding bifurcation adhesion and point cloud dispersion in intricate branches. 3) A dataset named CCA-200 is collected, consisting of 200 CCTA images with coronary artery disease. The ground truths of 200 cases are coronary internal diameter annotations by professional radiologists. Extensive experiments verify our method on our collected dataset CCA-200 and public ASOCA dataset, with a Dice of 0.778 on CCA-200 and 0.895 on ASOCA, showing superior results. Especially, our geometry-based model generates an accurate, intact and smooth coronary artery, devoid of any fragmentations of segmented vessels.
翻訳日:2023-05-09 17:02:38 公開日:2023-05-07
# RATs-NAS: ニューラルネットワーク探索のためのGCN上の隣接トレイルのリダイレクト

RATs-NAS: Redirection of Adjacent Trails on GCN for Neural Architecture Search ( http://arxiv.org/abs/2305.04206v1 )

ライセンス: Link先を確認
Yu-Ming Zhang, Jun-Wei Hsieh, Chun-Chieh Lee, Kuo-Chin Fan(参考訳) VGG、ResNet、DenseNetなどのハンドデザインのCNNアーキテクチャが開発され、様々なタスクでState-of-the-Art(SoTA)レベルを達成する。 Neural Architecture Search (NAS)は、上記のタスクを処理するのに最適なCNNアーキテクチャを自動的に見つけることに焦点を当てている。 しかし、探索されたアーキテクチャの検証は非常に時間がかかり、予測子に基づく手法がNASの重要な分岐となる。 予測器を構築する2つの一般的なテクニックは、グラフ畳み込みネットワーク(GCN)と多層パーセプトロン(MLP)である。 本稿では,隣接する運転経路におけるGCNとMPPの違いを考察し,次に,所望のニューラルネットワークアーキテクチャを迅速に探索するRedirected Adjacent Trails NAS(RATs-NAS)を提案する。 RATs-NAS は Redirected Adjacent Trails GCN (RATs-GCN) と Predictor-based Search Space Sampling (P3S) モジュールの2つのコンポーネントから構成されている。 RATs-GCNは、より良いニューラルネットワークアーキテクチャを探すためのトレイルとその強みを変更することができる。 DSSは検索空間内のFLOPの厳密な間隔に素早くフォーカスすることができる。 細胞性NASの観察から、同様のFLOPを持つアーキテクチャも同様に機能すると信じている。 最後に、RATs-GCNとDSSからなるRATs-NASは、NASBench-201の3つのサブデータセットに対して、WeakNAS、Arch-Graph、その他を大きく差している。

Various hand-designed CNN architectures have been developed, such as VGG, ResNet, DenseNet, etc., and achieve State-of-the-Art (SoTA) levels on different tasks. Neural Architecture Search (NAS) now focuses on automatically finding the best CNN architecture to handle the above tasks. However, the verification of a searched architecture is very time-consuming and makes predictor-based methods become an essential and important branch of NAS. Two commonly used techniques to build predictors are graph-convolution networks (GCN) and multilayer perceptron (MLP). In this paper, we consider the difference between GCN and MLP on adjacent operation trails and then propose the Redirected Adjacent Trails NAS (RATs-NAS) to quickly search for the desired neural network architecture. The RATs-NAS consists of two components: the Redirected Adjacent Trails GCN (RATs-GCN) and the Predictor-based Search Space Sampling (P3S) module. RATs-GCN can change trails and their strengths to search for a better neural network architecture. DSS can rapidly focus on tighter intervals of FLOPs in the search space. Based on our observations on cell-based NAS, we believe that architectures with similar FLOPs will perform similarly. Finally, the RATs-NAS consisting of RATs-GCN and DSS beats WeakNAS, Arch-Graph, and others by a significant margin on three sub-datasets of NASBench-201.
翻訳日:2023-05-09 17:02:11 公開日:2023-05-07
# Bi-Mapper: 自律運転のためのホロスティックなBEVセマンティックマッピング

Bi-Mapper: Holistic BEV Semantic Mapping for Autonomous Driving ( http://arxiv.org/abs/2305.04205v1 )

ライセンス: Link先を確認
Siyu Li, Kailun Yang, Hao Shi, Jiaming Zhang, Jiacheng Lin, Zhifeng Teng, Zhiyong Li(参考訳) 基本道路要素をカバーする道路シーンのセマンティックマップは、自動運転システムにおいて重要な要素である。 これはバードズ・アイ・ビュー (bev) でレンダリングされた時の位置決めと計画のための重要な知覚基盤を提供する。 現在、仮説深度に関する事前の知識は、キャリブレーションパラメータの助けを借りて、正面視像を直接BEVに翻訳する学習を導くことができる。 しかし、遠方の物体の表現における幾何学的歪みに苦しむ。 さらに、事前知識のない別の手法のストリームは、グローバルな視点でフロントビューとBEVの間の変換を暗黙的に学習することができる。 異なる学習方法の融合が驚くべき効果をもたらすことを考慮し,グローバル視点と局所事前知識を組み込んだ,トップダウン・ロード・シーン意味理解のためのバイマッパーフレームワークを提案する。 相互通信の信頼性を高めるため,非同期相互学習戦略を提案する。 同時に、ASL(Across-Space Loss)は幾何学的歪みの負の影響を軽減するように設計されている。 nuScenesとCam2BEVデータセットの広範な結果は、提案したBi-Mapperフレームワークにおける各モジュールの一貫性のある有効性を検証する。 経路マッピングネットワークと比較して、提案されたBi-MapperはnuScenesデータセット上で5.0高いIoUを達成する。 さらに,実世界の運転シナリオにおけるBi-Mapperの一般化性能を検証する。 コードはhttps://github.com/lynn-yu/Bi-Mapper.comから入手できる。

A semantic map of the road scene, covering fundamental road elements, is an essential ingredient in autonomous driving systems. It provides important perception foundations for positioning and planning when rendered in the Bird's-Eye-View (BEV). Currently, the prior knowledge of hypothetical depth can guide the learning of translating front perspective views into BEV directly with the help of calibration parameters. However, it suffers from geometric distortions in the representation of distant objects. In addition, another stream of methods without prior knowledge can learn the transformation between front perspective views and BEV implicitly with a global view. Considering that the fusion of different learning methods may bring surprising beneficial effects, we propose a Bi-Mapper framework for top-down road-scene semantic understanding, which incorporates a global view and local prior knowledge. To enhance reliable interaction between them, an asynchronous mutual learning strategy is proposed. At the same time, an Across-Space Loss (ASL) is designed to mitigate the negative impact of geometric distortions. Extensive results on nuScenes and Cam2BEV datasets verify the consistent effectiveness of each module in the proposed Bi-Mapper framework. Compared with exiting road mapping networks, the proposed Bi-Mapper achieves 5.0 higher IoU on the nuScenes dataset. Moreover, we verify the generalization performance of Bi-Mapper in a real-world driving scenario. Code will be available at https://github.com/lynn-yu/Bi-Mapper.
翻訳日:2023-05-09 17:01:41 公開日:2023-05-07
# オープンセットの力を解き放つ : オープンセット雑音ラベル学習の新しい視点

Unlocking the Power of Open Set : A New Perspective for Open-set Noisy Label Learning ( http://arxiv.org/abs/2305.04203v1 )

ライセンス: Link先を確認
Wenhai Wan, Xinrui Wang, Mingkun Xie, Shengjun Huang, Songcan Chen, Shaoyuan Li(参考訳) ノイズデータから学ぶことは多くの注目を集め、ほとんどの方法はクローズドセットのラベルノイズに焦点を当てている。 しかし、現実世界でより一般的なシナリオは、オープンセットとクローズドセットの両方のノイズの存在である。 既存の手法では、これらの2種類のラベルノイズを個別に識別・処理し、それぞれのタイプの特定の戦略を設計する。 しかし、多くの現実のシナリオでは、特にデータセットがひどく破損している場合、オープンセットの例を特定するのは難しいでしょう。 従来の研究とは違って、オープンセットの例に直面したモデルがどのように振る舞うかを考察し、オープンセットの例の一部は徐々に既知のクラスに統合され、既知のクラス間のセセレーションに有用であることを示す。 本稿では,この現象に触発されたCECLという新しい2段階のコントラスト学習手法を提案する。 具体的には、オープンセットの例をクローズドセットクラスに組み込んでパフォーマンスを高め、他の例をデリミタとして扱い、代表能力を高めます。 多様なラベルノイズを持つ合成および実世界のデータセットに関する大規模な実験は、CECLが最先端の手法より優れていることを示した。

Learning from noisy data has attracted much attention, where most methods focus on closed-set label noise. However, a more common scenario in the real world is the presence of both open-set and closed-set noise. Existing methods typically identify and handle these two types of label noise separately by designing a specific strategy for each type. However, in many real-world scenarios, it would be challenging to identify open-set examples, especially when the dataset has been severely corrupted. Unlike the previous works, we explore how models behave when faced open-set examples, and find that a part of open-set examples gradually get integrated into certain known classes, which is beneficial for the seperation among known classes. Motivated by the phenomenon, in this paper, we propose a novel two-step contrastive learning method called CECL, which aims to deal with both types of label noise by exploiting the useful information of open-set examples. Specifically, we incorporate some open-set examples into closed-set classes to enhance performance while treating others as delimiters to improve representative ability. Extensive experiments on synthetic and real-world datasets with diverse label noise demonstrate that CECL can outperform state-of-the-art methods.
翻訳日:2023-05-09 17:01:22 公開日:2023-05-07
# MSTF: トランスダクティブフェデレーション学習のためのモデルリファクトリー

MrTF: Model Refinery for Transductive Federated Learning ( http://arxiv.org/abs/2305.04201v1 )

ライセンス: Link先を確認
Xin-Chun Li, Yang Yang, De-Chuan Zhan(参考訳) 我々は,新たに設立されたパイロットプロジェクトが,プライバシー保護ポリシーの下で他の当事者の助けを借りて,新たに収集されたデータの推測を行う必要がある現実のシナリオを考察する。 現在のフェデレーション学習(fl)パラダイムは、推定されるデータを考慮することなく、データの不均一性問題を解決することに専念している。 to-be-inferredデータの構造情報を同時に考慮し,tfl(transductive federated learning)と呼ばれる新しい学習パラダイムを提案する。 一方、サーバは、事前利用可能なテストサンプルを使用して、FLのデータ不均一性問題に取り組む堅牢なモデル融合のために集約されたモデルを洗練することができる。 一方, 精錬工程では, 試験試料を訓練に取り入れ, トランスダクティブな方法でより良い予測を得られる。 モデル精製プロセスを容易にするために, 教師の安定化, 蒸留精錬, クラスターラベル精錬などの技術を提案する。 豊富な実験研究により,提案手法である<m>odel \underline{r}efinery framework for \underline{t}ransductive \underline{f}ederated learning (mrtf) の有効性が検証された。 ソースコードは \url{https://github.com/lxcnju/MrTF} で入手できる。

We consider a real-world scenario in which a newly-established pilot project needs to make inferences for newly-collected data with the help of other parties under privacy protection policies. Current federated learning (FL) paradigms are devoted to solving the data heterogeneity problem without considering the to-be-inferred data. We propose a novel learning paradigm named transductive federated learning (TFL) to simultaneously consider the structural information of the to-be-inferred data. On the one hand, the server could use the pre-available test samples to refine the aggregated models for robust model fusion, which tackles the data heterogeneity problem in FL. On the other hand, the refinery process incorporates test samples into training and could generate better predictions in a transductive manner. We propose several techniques including stabilized teachers, rectified distillation, and clustered label refinery to facilitate the model refinery process. Abundant experimental studies verify the superiorities of the proposed \underline{M}odel \underline{r}efinery framework for \underline{T}ransductive \underline{F}ederated learning (MrTF). The source code is available at \url{https://github.com/lxcnju/MrTF}.
翻訳日:2023-05-09 17:01:01 公開日:2023-05-07
# 純量子勾配Descentアルゴリズムと完全量子変分固有解法

Pure Quantum Gradient Descent Algorithm and Full Quantum Variational Eigensolver ( http://arxiv.org/abs/2305.04198v1 )

ライセンス: Link先を確認
Ronghang Chen, Shi-Yao Hou, Cong Guo, and Guanru Feng(参考訳) 最適化問題は様々な分野に広まり、勾配に基づく勾配降下アルゴリズムは広く採用されている最適化手法である。 しかし、古典計算では、$d$変数を持つ関数の数値勾配を計算するには少なくとも$d+1$関数の評価が必要であるため、計算複雑性は$O(d)$となる。 変数の数が増加するにつれて、古典的勾配推定法は実質的な資源を必要とし、最終的には古典的コンピュータの能力を超える。 幸いなことに、量子力学における重ね合わせと絡み合いの原理を利用して、量子コンピュータは真の並列計算を実現でき、場合によっては古典的アルゴリズムよりも指数関数的に加速することができる。 このアルゴリズムの複雑さはちょうど$O(1)$である。 このアプローチに基づき,量子勾配降下アルゴリズムの実装に成功し,変分量子固有ソルバ (vqe) に適用し,純量子変分最適化アルゴリズムを作成した。 従来の勾配最適化アルゴリズムと比較して, この量子最適化アルゴリズムは, 最適化問題の効率的な解法を提供し, 複雑度が著しく向上しており, 提案手法は最適化アルゴリズムの性能向上に有望であり, この分野における量子コンピューティングの可能性を強調している。

Optimization problems are prevalent in various fields, and the gradient-based gradient descent algorithm is a widely adopted optimization method. However, in classical computing, computing the numerical gradient for a function with $d$ variables necessitates at least $d+1$ function evaluations, resulting in a computational complexity of $O(d)$. As the number of variables increases, the classical gradient estimation methods require substantial resources, ultimately surpassing the capabilities of classical computers. Fortunately, leveraging the principles of superposition and entanglement in quantum mechanics, quantum computers can achieve genuine parallel computing, leading to exponential acceleration over classical algorithms in some cases.In this paper, we propose a novel quantum-based gradient calculation method that requires only a single oracle calculation to obtain the numerical gradient result for a multivariate function. The complexity of this algorithm is just $O(1)$. Building upon this approach, we successfully implemented the quantum gradient descent algorithm and applied it to the Variational Quantum Eigensolver (VQE), creating a pure quantum variational optimization algorithm. Compared with classical gradient-based optimization algorithm, this quantum optimization algorithm has remarkable complexity advantages, providing an efficient solution to optimization problems.The proposed quantum-based method shows promise in enhancing the performance of optimization algorithms, highlighting the potential of quantum computing in this field.
翻訳日:2023-05-09 17:00:41 公開日:2023-05-07
# キャビティ光学系における間接結合型機械振動子の量子同期と絡み合い--数値的研究

Quantum synchronization and entanglement of indirectly coupled mechanical oscillators in cavity optomechanics: a numerical study ( http://arxiv.org/abs/2305.04197v1 )

ライセンス: Link先を確認
Devender Garg, Manju, Shubhrangshu Dasgupta, Asoka Biswas(参考訳) 量子シンクロナイゼーションと絡み合いは2つの独立した性質であり、2つの結合した量子系が同時に現れないことがしばしば予想される。 しかしながら、これらの性質は共役二次体の2次モーメントの観点で理解できるので、絡み合いと量子同期の同時の存在に関する特別な条件が存在するかもしれない。 ここでは、2つのキャビティ間の結合によって間接的に相互に結合する2つの機械振動子間で同じことを実現する理論的スキームを提案する。 キャビティ・オシレータ結合の存在下では、これらの発振器は量子感覚で同期することができ、共振器モードの減衰時間スケールよりもはるかに長い時間で絡み合っていることを示す。 正確には、二次結合の存在下では、エンタングルメント基準と量子同期測度が定常状態で同時に満たされることを示す。 この挙動は、2つの発振器の2次カップリング、温度、周波数差の範囲で観察できる。

It is often conjectured that quantum synchronisation and entanglement are two independent properties which two coupled quantum systems may not exhibit at the same time. However, as both these properties can be understood in terms of the second order moments of a set of conjugate quadratures, there may exist specific conditions for simultaneous existence of entanglement and quantum synchronization. Here we present a theoretical scheme to achieve the same between two mechanical oscillators, which are indirectly coupled with each other via a coupling between two cavities. We show that in the presence of the cavity-oscillator coupling, quadratically varying with their displacements, these oscillators can be synchronized in the quantum sense and entangled as well, at times much longer than the decay time-scale of the cavity modes. Precisely speaking, we show that in the presence of quadratic coupling, entanglement criterion and quantum synchronization measure are simultaneously satisfied in steady state. This behaviour can be observed for a range of quadratic coupling, temperature, and frequency difference of the two oscillators.
翻訳日:2023-05-09 17:00:18 公開日:2023-05-07
# トップおよびバックビュードローン映像からのポーズ情報を用いたバドミントンダブルスの制御領域の推定

Estimation of control area in badminton doubles with pose information from top and back view drone videos ( http://arxiv.org/abs/2305.04247v1 )

ライセンス: Link先を確認
Ning Ding, Kazuya Takeda, Wenhui Jin, Yingjiu Bei, Keisuke Fujii(参考訳) 動的競技におけるスポーツ選手のパフォーマンス分析へのビジュアルトラッキングの適用は,効果的なコーチングに不可欠である。 ラケットスポーツでは、これまでのほとんどの研究は、放送ビデオや意味のある空間分布を無視した離散表現(ストロークなど)に介在することなくシングルスプレーヤーの分析と評価に重点を置いてきた。 本研究では,バドミントンダブルにおけるトップ・バックビューからの最初の注釈付きドローンデータセットを提示し,チームワークのパフォーマンスを評価するための制御領域確率マップを推定するためのフレームワークを提案する。 本稿では,プレイヤーの位置のガウス混合マップの埋め込みとポーズのグラフ畳み込みを利用した,完全な確率曲面の計算を可能にするディープニューラルネットワークの効率的なフレームワークを提案する。 実験では,様々なベースラインを比較し,スコアと制御領域の相関関係を見出すことにより,我々のアプローチを検証する。 さらに,ゲーム中に指示を与えるための最適位置推定の実践的応用を提案する。 我々のアプローチはプレイヤーの動きを視覚的に定量的に評価し、ダブルスチームワークに関する貴重な洞察を提供する。

The application of visual tracking to the performance analysis of sports players in dynamic competitions is vital for effective coaching. In racket sports, most previous studies have focused on analyzing and assessing singles players without occlusion in broadcast videos and discrete representations (e.g., stroke) that ignore meaningful spatial distributions. In this work, we present the first annotated drone dataset from top and back views in badminton doubles and propose a framework to estimate the control area probability map, which can be used to evaluate teamwork performance. We present an efficient framework of deep neural networks that enables the calculation of full probability surfaces, which utilizes the embedding of a Gaussian mixture map of players' positions and graph convolution of their poses. In the experiment, we verify our approach by comparing various baselines and discovering the correlations between the score and control area. Furthermore, we propose the practical application of assessing optimal positioning to provide instructions during a game. Our approach can visually and quantitatively evaluate players' movements, providing valuable insights into doubles teamwork.
翻訳日:2023-05-09 16:52:05 公開日:2023-05-07
# Vcc:重要なトークンを優先してトランスフォーマーを128万トン以上にスケールアップする

Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens ( http://arxiv.org/abs/2305.04241v1 )

ライセンス: Link先を確認
Zhanpeng Zeng, Cole Hawkins, Mingyi Hong, Aston Zhang, Nikolaos Pappas, Vikas Singh, Shuai Zheng(参考訳) トランスフォーマーモデルは自然言語処理(NLP)とコンピュータビジョンの基礎となっている。 このようなモデルの二次コストの低減(シーケンス長$n$の関数として)に向けられた最近の様々な研究にもかかわらず、超長いシーケンス(例えば、16Kトークン以上)を効率的に扱うことは困難である。 本全体に基づいた質問への回答や科学論文の要約といった応用は、非効率または非実用的である。 本稿では,Transformerモデルが$n$の複雑性の依存性を,各層で$r$が$n$とは独立な表現に圧縮することで,大幅に低減することを提案する。 具体的には、多くのタスクにおいて、VIPトークンの小さなサブセットのみが最終予測に最も関係しているという事実を利用して、VIPトークンの表現の近似に対する影響に基づいて入力シーケンスを選択的に圧縮するVIPトークン中心圧縮(Vcc)方式を提案する。 競合するベースラインと比較して、提案アルゴリズムは効率的である(4Kと16Kのベースラインと比較して3ドル以上の効率改善を実現する)だけでなく、多数のタスクにおいて競争力や性能の向上も達成している。 さらに,アルゴリズムを128kトークン(あるいはそれ以上)に拡張し,精度を一貫して向上できることを示す。

Transformer models are foundational to natural language processing (NLP) and computer vision. Despite various recent works devoted to reducing the quadratic cost of such models (as a function of the sequence length $n$), dealing with ultra long sequences efficiently (e.g., with more than 16K tokens) remains challenging. Applications such as answering questions based on an entire book or summarizing a scientific article are inefficient or infeasible. In this paper, we propose to significantly reduce the dependency of a Transformer model's complexity on $n$, by compressing the input into a representation whose size $r$ is independent of $n$ at each layer. Specifically, by exploiting the fact that in many tasks, only a small subset of special tokens (we call VIP-tokens) are most relevant to the final prediction, we propose a VIP-token centric compression (Vcc) scheme which selectively compresses the input sequence based on their impact on approximating the representation of these VIP-tokens. Compared with competitive baselines, the proposed algorithm not only is efficient (achieving more than $3\times$ efficiency improvement compared to baselines on 4K and 16K lengths), but also achieves competitive or better performance on a large number of tasks. Further, we show that our algorithm can be scaled to 128K tokens (or more) while consistently offering accuracy improvement.
翻訳日:2023-05-09 16:51:45 公開日:2023-05-07
# ガウス型rbfカーネルを用いた3次元クロスモーダルリトライバルのインスタンス可変損失

Instance-Variant Loss with Gaussian RBF Kernel for 3D Cross-modal Retriveal ( http://arxiv.org/abs/2305.04239v1 )

ライセンス: Link先を確認
Zhitao Liu, Zengyu Liu, Jiwei Wei, Guan Wang, Zhenjiang Du, Ning Xie, Heng Tao Shen(参考訳) マルチメディアコミュニティでは3dクロスモーダル検索が注目されている。 このトピックの中心は、画像、3d点雲、多角形メッシュなどの異なるモダリティからのデータを表現する共同埋め込み空間を学習し、モダリティ不変かつ判別的特徴を抽出することである。 したがって、クロスモーダル検索法の性能は、この埋め込み空間の表現能力に大きく依存する。 既存の方法はすべてのインスタンスを平等に扱い、同じペナルティ強度を様々な難易度を持つインスタンスに適用し、インスタンス間の差異を無視します。 これは曖昧な収束や局所最適性をもたらし、特徴空間の分離性を著しく妥協させる。 この制限に対処するために,異なるインスタンスに対して異なるペナルティ強度を割り当てるインスタンス可変損失を提案し,空間分離性を改善する。 具体的には,クラス内距離に正の相関がある事例に対して,異なるペナルティ重みを割り当てる。 同時に、異なるモダリティから同じクラスデータに対する共有重みベクトルを学習することにより、特徴間の相互差を小さくする。 ガウス rbf カーネルを利用してサンプルの類似性を評価することにより,同クラスインスタンス間のクラス間距離を最小化するクラス内損失関数を提案する。 3つの3次元クロスモーダルデータセットに対する大規模な実験により,提案手法が最近の最先端のアプローチを上回ることが示された。

3D cross-modal retrieval is gaining attention in the multimedia community. Central to this topic is learning a joint embedding space to represent data from different modalities, such as images, 3D point clouds, and polygon meshes, to extract modality-invariant and discriminative features. Hence, the performance of cross-modal retrieval methods heavily depends on the representational capacity of this embedding space. Existing methods treat all instances equally, applying the same penalty strength to instances with varying degrees of difficulty, ignoring the differences between instances. This can result in ambiguous convergence or local optima, severely compromising the separability of the feature space. To address this limitation, we propose an Instance-Variant loss to assign different penalty strengths to different instances, improving the space separability. Specifically, we assign different penalty weights to instances positively related to their intra-class distance. Simultaneously, we reduce the cross-modal discrepancy between features by learning a shared weight vector for the same class data from different modalities. By leveraging the Gaussian RBF kernel to evaluate sample similarity, we further propose an Intra-Class loss function that minimizes the intra-class distance among same-class instances. Extensive experiments on three 3D cross-modal datasets show that our proposed method surpasses recent state-of-the-art approaches.
翻訳日:2023-05-09 16:51:18 公開日:2023-05-07
# TARブラックボックスのオープン:ファジィARTMAPニューラルネットワークを用いたeDiscoveryのための解釈可能なシステムの開発

Opening the TAR Black Box: Developing an Interpretable System for eDiscovery Using the Fuzzy ARTMAP Neural Network ( http://arxiv.org/abs/2305.04237v1 )

ライセンス: Link先を確認
Charles Courchaine and Ricky J. Sethi(参考訳) この基礎研究は、ファジィARTMAPニューラルネットワークをTARドメインの分類アルゴリズムとして使用するための追加的なサポートを提供する。 リコール性能と説明性を改善する研究の機会はあるが、この研究の堅牢なリコール結果と、tf-idfベクトル化のためのif-then規則の証明は、ファジィARTMAPベースのTARシステムが「ブラックボックス」TARシステムの代替となる可能性を強く裏付けている。

This foundational research provides additional support for using the Fuzzy ARTMAP neural network as a classification algorithm in the TAR domain. While research opportunities exist to improve recall performance and explanation, the robust recall results from this study and the proof-of-concept demonstration of If-Then rules for tf-idf vectorization strongly substantiate that a Fuzzy ARTMAP-based TAR system is a potentially viable explainable alternative to "black box" TAR systems.
翻訳日:2023-05-09 16:50:55 公開日:2023-05-07
# RFR-WWANet:教師なし画像登録のための重み付きウィンドウアテンションに基づく特徴回復ネットワーク

RFR-WWANet: Weighted Window Attention-Based Recovery Feature Resolution Network for Unsupervised Image Registration ( http://arxiv.org/abs/2305.04236v1 )

ライセンス: Link先を確認
Mingrui Ma, Tao Wang, Lei Song, Weijie Wang, Guixia Liu(参考訳) swinトランスフォーマは、計算効率と長距離モデリング能力により、最近医療画像解析に注目を集めており、対応するボクセル間のより遠い関係を確立することができる。 しかし、トランスフォーマーベースのモデルは画像をトークンに分割し、その結果、粗い空間情報表現をモデル化して出力できるトランスフォーマーとなる。 この問題に対処するために、トランスフォーマーが細粒度空間情報やリッチな意味対応に貢献できるRFRNet(Recovery Feature Resolution Network)を提案する。 さらに、シフトしたウィンドウ分割操作は柔軟性がなく、不確実な距離で意味情報を認識できないことを示し、ウィンドウ間のグローバル接続を自動的にブリッジする。 そこで本研究では,Swinトランスフォーマーブロックの周期的および周期的シフトウィンドウパーティショニング操作後に,ウィンドウ間のグローバルなインタラクションを自動的に構築するWeighted Window Attention (WWA)を提案する。 RFR-WWANetと呼ばれる非教師なしの変形可能な画像登録モデルは、長距離相関を感知し、解剖学的構造の意味的関連を容易にする。 定性的および定量的な結果から,RFR-WWANetはベースライン法よりも大幅な性能向上を実現している。 アブレーション実験はRFRNetとWWAの設計の有効性を示す。

The Swin transformer has recently attracted attention in medical image analysis due to its computational efficiency and long-range modeling capability, which enables the establishment of more distant relationships between corresponding voxels. However, transformer-based models split images into tokens, which results in transformers that can only model and output coarse-grained spatial information representations. To address this issue, we propose Recovery Feature Resolution Network (RFRNet), which enables the transformer to contribute with fine-grained spatial information and rich semantic correspondences. Furthermore, shifted window partitioning operations are inflexible, indicating that they cannot perceive the semantic information over uncertain distances and automatically bridge the global connections between windows. Therefore, we present a Weighted Window Attention (WWA) to automatically build global interactions between windows after the regular and cyclic shifted window partitioning operations for Swin transformer blocks. The proposed unsupervised deformable image registration model, named RFR-WWANet, senses the long-range correlations, thereby facilitating meaningful semantic relevance of anatomical structures. Qualitative and quantitative results show that RFR-WWANet achieves significant performance improvements over baseline methods. Ablation experiments demonstrate the effectiveness of the RFRNet and WWA designs.
翻訳日:2023-05-09 16:50:39 公開日:2023-05-07
# CatFLW:野生のデータセットにある猫の顔のランドマーク

CatFLW: Cat Facial Landmarks in the Wild Dataset ( http://arxiv.org/abs/2305.04232v1 )

ライセンス: Link先を確認
George Martvel and Nareed Farhat and Ilan Shimshoni and Anna Zamansky(参考訳) 動物情動コンピューティングは急速に成長している研究分野であり、痛みや感情などの内的状態の認識に動物追跡以上の取り組みが最近始まったばかりである。 ほとんどの哺乳類では、表情はこれらの状態に関する情報を伝える重要な経路である。 しかし、人間の領域とは異なり、動物の顔分析の自動化を可能にするデータセットが急性欠如している。 このギャップを埋めるために,猫の顔の異なる環境や環境における2016年の画像を含むCat Facial Landmarks in the Wild (CatFLW) というデータセットを提示し,下層の筋肉との関係,および猫特有の顔アクションユニット(CatFACS)との関連性について,48の顔のランドマークを注釈した。 私たちの知る限りでは、このデータセットは猫の顔のランドマークの量が最も多い。 さらに,画像にランドマークを付与する半教師付き(ループ内)手法について述べる。このデータセットの作成には,アノテーションの時間を大幅に短縮し,他の動物に対して類似したデータセットを作成するのに使用できる。 データセットはリクエストで利用可能だ。

Animal affective computing is a quickly growing field of research, where only recently first efforts to go beyond animal tracking into recognizing their internal states, such as pain and emotions, have emerged. In most mammals, facial expressions are an important channel for communicating information about these states. However, unlike the human domain, there is an acute lack of datasets that make automation of facial analysis of animals feasible. This paper aims to fill this gap by presenting a dataset called Cat Facial Landmarks in the Wild (CatFLW) which contains 2016 images of cat faces in different environments and conditions, annotated with 48 facial landmarks specifically chosen for their relationship with underlying musculature, and relevance to cat-specific facial Action Units (CatFACS). To the best of our knowledge, this dataset has the largest amount of cat facial landmarks available. In addition, we describe a semi-supervised (human-in-the-loop) method of annotating images with landmarks, used for creating this dataset, which significantly reduces the annotation time and could be used for creating similar datasets for other animals. The dataset is available on request.
翻訳日:2023-05-09 16:50:18 公開日:2023-05-07
# コード分類のための抽象構文木(AST)上の不均一方向ハイパーグラフニューラルネットワーク

Heterogeneous Directed Hypergraph Neural Network over abstract syntax tree (AST) for Code Classification ( http://arxiv.org/abs/2305.04228v1 )

ライセンス: Link先を確認
Guang Yang, Tiancheng Jin, Liang Dou(参考訳) コード分類は、プログラム理解と自動コーディングにおいて難しい問題である。 プログラムの構文と複雑な意味論のため、既存の研究の多くは抽象構文木(AST)とグラフニューラルネットワーク(GNN)に基づいてコード分類のためのコード表現を作成する。 これらの手法は、コードの構造と意味情報を利用するが、それらはペアの関連を考慮に入れ、AST内のノード間で既に存在する高次相関を無視するだけであり、コード構造情報が失われる可能性がある。 一方、一般的なハイパーグラフは高次データ相関を符号化できるが、ASTをモデル化する際には、ノードタイプ、エッジタイプ、子ノードと親ノード間の方向といった意味的および構造的な情報が欠如する。 本研究では,ヘテロジニアス指向ハイパーグラフ (HDHG) としてASTを表現し,コード分類のためのヘテロジニアス指向ハイパーグラフニューラルネットワーク (HDHGN) によるグラフ処理を提案する。 提案手法はコード理解を改良し,ペア間相互作用以外の高次データ相関を表現できる。 我々は,Python と Java プログラムの公開データセットからヘテロジニアス指向のハイパーグラフニューラルネットワーク (HDHGN) を評価する。 提案手法は従来のAST法およびGNN法よりも優れており,本モデルの有効性を示す。

Code classification is a difficult issue in program understanding and automatic coding. Due to the elusive syntax and complicated semantics in programs, most existing studies use techniques based on abstract syntax tree (AST) and graph neural network (GNN) to create code representations for code classification. These techniques utilize the structure and semantic information of the code, but they only take into account pairwise associations and neglect the high-order correlations that already exist between nodes in the AST, which may result in the loss of code structural information. On the other hand, while a general hypergraph can encode high-order data correlations, it is homogeneous and undirected which will result in a lack of semantic and structural information such as node types, edge types, and directions between child nodes and parent nodes when modeling AST. In this study, we propose to represent AST as a heterogeneous directed hypergraph (HDHG) and process the graph by heterogeneous directed hypergraph neural network (HDHGN) for code classification. Our method improves code understanding and can represent high-order data correlations beyond paired interactions. We assess heterogeneous directed hypergraph neural network (HDHGN) on public datasets of Python and Java programs. Our method outperforms previous AST-based and GNN-based methods, which demonstrates the capability of our model.
翻訳日:2023-05-09 16:49:56 公開日:2023-05-07
# 水中カメラ用外部ポーズ追跡システムの設計・実装・評価

Design, Implementation and Evaluation of an External Pose-Tracking System for Underwater Cameras ( http://arxiv.org/abs/2305.04226v1 )

ライセンス: Link先を確認
Birger Winkel, David Nakath, Felix Woelk, Kevin K\"oser(参考訳) 水中のコンピュータビジョンとロボティクスを実験室環境から深海や濁った沿岸海域まで前進させるためには、代表的なベンチマークと地上真理情報を備えた現実的なデータセットが必要である。 特に、カメラのポーズを決定することは、多くの水中ロボットやフォトグラムアプリケーションにとって必須であり、既知の地上真実は、そのような極端な環境での同時ローカライゼーションやマッピングアプローチのパフォーマンスを評価するために必須である。 本稿では,水中カメラのポーズをリアルタイムで判定する外部基準システムの概念,校正,実装について述べる。 このアプローチは、空気中のhtc viveトラッキングシステムに基づいて、タンクの水面上を追跡された2つのコントローラーのポーズを融合して水中カメラのポーズを計算する。 空気中における光学マーカー基準に対するこのアプローチの平均偏差は, 3 mm 以下, 0.3{\deg} 以下であることが判明した。 最後に,水中応用システムの有用性を実証した。

In order to advance underwater computer vision and robotics from lab environments and clear water scenarios to the deep dark ocean or murky coastal waters, representative benchmarks and realistic datasets with ground truth information are required. In particular, determining the camera pose is essential for many underwater robotic or photogrammetric applications and known ground truth is mandatory to evaluate the performance of e.g., simultaneous localization and mapping approaches in such extreme environments. This paper presents the conception, calibration and implementation of an external reference system for determining the underwater camera pose in real-time. The approach, based on an HTC Vive tracking system in air, calculates the underwater camera pose by fusing the poses of two controllers tracked above the water surface of a tank. It is shown that the mean deviation of this approach to an optical marker based reference in air is less than 3 mm and 0.3{\deg}. Finally, the usability of the system for underwater applications is demonstrated.
翻訳日:2023-05-09 16:49:35 公開日:2023-05-07
# LSGNN:局所類似性によるノード分類における一般グラフニューラルネットワーク

LSGNN: Towards General Graph Neural Network in Node Classification by Local Similarity ( http://arxiv.org/abs/2305.04225v1 )

ライセンス: Link先を確認
Yuhan Chen, Yihong Luo, Jing Tang, Liang Yang, Siya Qiu, Chuan Wang, Xiaochun Cao(参考訳) ヘテロフィリーはグラフニューラルネットワーク(GNN)のパフォーマンスを損なう問題とみなされている。 この問題に対処するために、いくつかの既存の研究は、ホモフィリーを持つより多くのノードを含むために、マルチホップ隣人の情報のグラフレベルの重み付け融合を使用している。 しかし、ヘテロフィリは局所位相を考える必要があるノード間で異なるかもしれない。 そこで我々は,局所的な類似性(LocalSim)を用いて,プラグイン・アンド・プレイモジュールとしても機能するノードレベルの重み付き融合を学習することを提案する。 そこで本研究では,より情報性の高いマルチホップ情報を抽出するための,新規かつ効率的な初期残留差分接続(IRDC)を提案する。 さらに、合成グラフ上でのノードホモフィリーを表現するLocalSimの有効性に関する理論的解析を行う。 提案手法であるローカル類似グラフニューラルネットワーク(LSGNN)は,同好性グラフとヘテロ親和性グラフの両面において,同等あるいは優れた技術性能を提供できることを示す。 一方、プラグアンドプレイモデルは既存のGNNの性能を大幅に向上させることができる。 私たちのコードはhttps://github.com/draym28/LSGNNで提供されています。

Heterophily has been considered as an issue that hurts the performance of Graph Neural Networks (GNNs). To address this issue, some existing work uses a graph-level weighted fusion of the information of multi-hop neighbors to include more nodes with homophily. However, the heterophily might differ among nodes, which requires to consider the local topology. Motivated by it, we propose to use the local similarity (LocalSim) to learn node-level weighted fusion, which can also serve as a plug-and-play module. For better fusion, we propose a novel and efficient Initial Residual Difference Connection (IRDC) to extract more informative multi-hop information. Moreover, we provide theoretical analysis on the effectiveness of LocalSim representing node homophily on synthetic graphs. Extensive evaluations over real benchmark datasets show that our proposed method, namely Local Similarity Graph Neural Network (LSGNN), can offer comparable or superior state-of-the-art performance on both homophilic and heterophilic graphs. Meanwhile, the plug-and-play model can significantly boost the performance of existing GNNs. Our code is provided at https://github.com/draym28/LSGNN.
翻訳日:2023-05-09 16:49:19 公開日:2023-05-07
# ビデオ質問応答のための視覚的因果的シーンリファインメント

Visual Causal Scene Refinement for Video Question Answering ( http://arxiv.org/abs/2305.04224v1 )

ライセンス: Link先を確認
Yushen Wei, Yang Liu, Hong Yan, Guanbin Li, Liang Lin(参考訳) 既存のビデオ質問応答法 (VideoQA) は、様々なモダリティ間の素早い相関に悩まされ、支配的な視覚的エビデンスと意図する質問の特定に失敗する。 さらに、これらの手法はブラックボックスとして機能し、QAプロセス中の視覚的シーンの解釈が困難になる。 本稿では,信頼性の高い回答を生成するための視覚的因果シーンとして,重要な映像セグメントやフレームを探索するために,videoqaの因果分析を行い,視覚因果シーンリファインメント(vcsr)という,クロスモーダル因果関係推論の枠組みを提案する。 特に、視覚的因果シーンをセグメントレベルとフレームレベルの両方で明確に見つけるために、一組の因果介入操作を導入する。 vcsrには2つの必須モジュールがあります i)QGRモジュールは、質問セマンティクスによって案内された連続的なビデオフレームを洗練し、因果的前庭介入のためのより代表的な部分的特徴を得る。 二 視覚的言語的因果関係に基づいて視覚的因果関係及び非因果関係の集まりを発見し、対比学習方法でシーン分離介入の因果効果を推定する因果関係分離子(css)モジュール。 NExT-QA、Causal-VidQA、MSRVTT-QAデータセットの大規模な実験は、視覚因果シーンの発見と堅牢なビデオ質問応答の実現におけるVCSRの優位性を示している。

Existing methods for video question answering (VideoQA) often suffer from spurious correlations between different modalities, leading to a failure in identifying the dominant visual evidence and the intended question. Moreover, these methods function as black boxes, making it difficult to interpret the visual scene during the QA process. In this paper, to discover critical video segments and frames that serve as the visual causal scene for generating reliable answers, we present a causal analysis of VideoQA and propose a framework for cross-modal causal relational reasoning, named Visual Causal Scene Refinement (VCSR). Particularly, a set of causal front-door intervention operations is introduced to explicitly find the visual causal scenes at both segment and frame levels. Our VCSR involves two essential modules: i) the Question-Guided Refiner (QGR) module, which refines consecutive video frames guided by the question semantics to obtain more representative segment features for causal front-door intervention; ii) the Causal Scene Separator (CSS) module, which discovers a collection of visual causal and non-causal scenes based on the visual-linguistic causal relevance and estimates the causal effect of the scene-separating intervention in a contrastive learning manner. Extensive experiments on the NExT-QA, Causal-VidQA, and MSRVTT-QA datasets demonstrate the superiority of our VCSR in discovering visual causal scene and achieving robust video question answering.
翻訳日:2023-05-09 16:48:59 公開日:2023-05-07
# ユークリッド距離推定に基づく量子k-アネレス近傍のアルゴリズム

A quantum k-nearest neighbors algorithm based on the Euclidean distance estimation ( http://arxiv.org/abs/2305.04287v1 )

ライセンス: Link先を確認
Enrico Zardini, Enrico Blanzieri, Davide Pastorello(参考訳) k-nearest neighbors (k-nn) は基本的な機械学習 (ml) アルゴリズムであり、様々な距離メトリクスを用いたいくつかの量子バージョンがここ数年で提示されている。 ユークリッド距離はMLで最も広く使われている距離指標の1つであるが、これらの量子変種の開発においてはあまり考慮されていない。 本稿では,ユークリッド距離に基づく新しい量子k-NNアルゴリズムを提案する。 具体的には、アルゴリズムは、低い数の量子ビットを必要とする量子エンコーディングと、オラクルを含まない単純な量子回路によって特徴付けられる。 数学的定式化と複雑性の観察に加えて,シミュレーションによる詳細な経験的評価について述べる。 特に, 定式化の正確性, 測定回数が制限された場合のアルゴリズム性能の低下, 理想の場合の古典的ベースライン法に対する競合性, 計測数の増加による性能向上の可能性が示された。

The k-nearest neighbors (k-NN) is a basic machine learning (ML) algorithm, and several quantum versions of it, employing different distance metrics, have been presented in the last few years. Although the Euclidean distance is one of the most widely used distance metrics in ML, it has not received much consideration in the development of these quantum variants. In this article, a novel quantum k-NN algorithm based on the Euclidean distance is introduced. Specifically, the algorithm is characterised by a quantum encoding requiring a low number of qubits and a simple quantum circuit not involving oracles, aspects that favor its realization. In addition to the mathematical formulation and some complexity observations, a detailed empirical evaluation with simulations is presented. In particular, the results have shown the correctness of the formulation, a drop in the performance of the algorithm when the number of measurements is limited, the competitiveness with respect to some classical baseline methods in the ideal case, and the possibility of improving the performance by increasing the number of measurements.
翻訳日:2023-05-09 16:43:14 公開日:2023-05-07
# GRADEを用いた合成データからの学習

Learning from synthetic data generated with GRADE ( http://arxiv.org/abs/2305.04282v1 )

ライセンス: Link先を確認
Elia Bonetto and Chenghao Xu and Aamir Ahmad(参考訳) 近年、合成データ生成とリアルレンダリングは、目標追跡や人間のポーズ推定といった高度なタスクをこなしている。 ほとんどのロボティクス応用のシミュレーションは、(半)静電環境において、特定のセンサーと低い視力で得られる。 そこで本稿では,ロボット研究のためのリアルなアニメーション動的環境(グレード)を生成するための完全カスタマイズ可能なフレームワークについて紹介する。 GRADEは、完全なシミュレーション制御、ROS統合、現実的な物理をサポートし、高解像度画像と地上真実データを生成するエンジン内にある。 グレードを使って屋内の動的シーンに焦点を当てたデータセットを生成します。 そこで本研究では, YOLO と Mask R-CNN の性能評価を行った。 この結果から,GRADEで生成されたデータを使うことで,事前学習ステップで使用する場合のモデル性能が向上することを示す。 また,合成データのみを用いたトレーニングであっても,TUM-RGBDデータセットのような同一アプリケーション領域における実世界の画像によく対応できることを示す。 コード、結果、トレーニングされたモデル、生成されたデータは、https://eliabntt.github.io/grade-rrでオープンソースとして提供される。

Recently, synthetic data generation and realistic rendering has advanced tasks like target tracking and human pose estimation. Simulations for most robotics applications are obtained in (semi)static environments, with specific sensors and low visual fidelity. To solve this, we present a fully customizable framework for generating realistic animated dynamic environments (GRADE) for robotics research, first introduced in [1]. GRADE supports full simulation control, ROS integration, realistic physics, while being in an engine that produces high visual fidelity images and ground truth data. We use GRADE to generate a dataset focused on indoor dynamic scenes with people and flying objects. Using this, we evaluate the performance of YOLO and Mask R-CNN on the tasks of segmenting and detecting people. Our results provide evidence that using data generated with GRADE can improve the model performance when used for a pre-training step. We also show that, even training using only synthetic data, can generalize well to real-world images in the same application domain such as the ones from the TUM-RGBD dataset. The code, results, trained models, and the generated data are provided as open-source at https://eliabntt.github.io/grade-rr.
翻訳日:2023-05-09 16:42:59 公開日:2023-05-07
# マルチスケールクラスタリング濾過の持続的ホモロジー

Persistent Homology of the Multiscale Clustering Filtration ( http://arxiv.org/abs/2305.04281v1 )

ライセンス: Link先を確認
Dominik J. Schindler and Mauricio Barahona(参考訳) データクラスタリングにおける多くのアプリケーションでは、ひとつのパーティションだけでなく、異なるスケールでデータを記述するパーティションのシーケンス、あるいは粗さのレベルを見つけることが望ましい。 マルチスケールクラスタリングの問題は、堅牢な本質的スケールを選択する方法と、パーティションの(必ずしも階層的ではない)シーケンスを分析し比較する方法である。 本稿では,クラスタ割り当ての任意のパターンを大規模にエンコードする,新しいフィルタであるMultiscale Clustering Filtration(MCF)を定義する。 MCFは適切な濾過であり、神経による等価な構造を示し、階層的な場合、MCFは超距離空間のヴィエトリス・リップス濾過に還元されることを示す。 また, MCFの0次元永続ホモロジーは, 分割列の階層構造を測る尺度であり, 一方, 高次元永続ホモロジーはクラスタ割り当て間の衝突の発生と解決を, スケールにわたって追跡する。 本稿では,永続化図の構造がマルチスケールデータクラスタリングの特徴付けにどのように役立つかを,数値的に説明する。

In many applications in data clustering, it is desirable to find not just a single partition but a sequence of partitions that describes the data at different scales, or levels of coarseness, leading naturally to Sankey diagrams as descriptors of the data. The problem of multiscale clustering then becomes how to to select robust intrinsic scales, and how to analyse and compare the (not necessarily hierarchical) sequences of partitions. Here, we define a novel filtration, the Multiscale Clustering Filtration (MCF), which encodes arbitrary patterns of cluster assignments across scales. We prove that the MCF is a proper filtration, give an equivalent construction via nerves, and show that in the hierarchical case the MCF reduces to the Vietoris-Rips filtration of an ultrametric space. We also show that the zero-dimensional persistent homology of the MCF provides a measure of the level of hierarchy in the sequence of partitions, whereas the higher-dimensional persistent homology tracks the emergence and resolution of conflicts between cluster assignments across scales. We briefly illustrate numerically how the structure of the persistence diagram can serve to characterise multiscale data clusterings.
翻訳日:2023-05-09 16:42:38 公開日:2023-05-07
# AdaptiveClick: 対話型画像セグメンテーションのためのAdaptive Focal Loss付きクリック対応変換器

AdaptiveClick: Clicks-aware Transformer with Adaptive Focal Loss for Interactive Image Segmentation ( http://arxiv.org/abs/2305.04276v1 )

ライセンス: Link先を確認
Jiacheng Lin, Jiajun Chen, Kailun Yang, Alina Roitberg, Siyu Li, Zhiyong Li, Shutao Li(参考訳) 対話型画像分割(interactive image segmentation, iis)は,アノテーション時間を短縮する有望な手法である。 iisの前処理と後処理でかなりの進歩が見られたが、相互作用の曖昧さの重大な問題は特にセグメンテーション品質を阻害している。 これを解決するために、AdaptiveClick -- アダプティブフォーカスロスを組み込んだクリック認識トランスフォーマーを導入し、マスクとピクセルレベルの曖昧さ解決のためのツールでアノテーションの不整合に対処する。 我々の知る限りでは、AdaptiveClickはIISのためのトランスフォーマーベースのマスク適応セグメンテーションフレームワークである。 本手法の主な要素は、クリックと画像特徴の相互作用を強化するClicks-aware Mask-Adaptive Transformer Decoder (CAMD) である。 さらに、AdaptiveClickは、決定空間における困難で簡単なサンプルのピクセル適応的な微分を可能にする。 これは、AFL(Adaptive Focal Loss)を理論的な保証で最適化することで主に達成され、2つの適応係数がハードピクセルと易画素の勾配値の比率を制御する。 解析の結果,一般的に使用されるfocalとbceの損失は,提案するafl損失の特別な場合と考えられる。 通常のViTバックボーンでは、9つのデータセットに対する広範な実験結果から、AdaptiveClickが最先端の手法よりも優れていることが示される。 コードはhttps://github.com/lab206/AdaptiveClick.comで公開される。

Interactive Image Segmentation (IIS) has emerged as a promising technique for decreasing annotation time. Substantial progress has been made in pre- and post-processing for IIS, but the critical issue of interaction ambiguity notably hindering segmentation quality, has been under-researched. To address this, we introduce AdaptiveClick -- a clicks-aware transformer incorporating an adaptive focal loss, which tackles annotation inconsistencies with tools for mask- and pixel-level ambiguity resolution. To the best of our knowledge, AdaptiveClick is the first transformer-based, mask-adaptive segmentation framework for IIS. The key ingredient of our method is the Clicks-aware Mask-adaptive Transformer Decoder (CAMD), which enhances the interaction between clicks and image features. Additionally, AdaptiveClick enables pixel-adaptive differentiation of hard and easy samples in the decision space, independent of their varying distributions. This is primarily achieved by optimizing a generalized Adaptive Focal Loss (AFL) with a theoretical guarantee, where two adaptive coefficients control the ratio of gradient values for hard and easy pixels. Our analysis reveals that the commonly used Focal and BCE losses can be considered special cases of the proposed AFL loss. With a plain ViT backbone, extensive experimental results on nine datasets demonstrate the superiority of AdaptiveClick compared to state-of-the-art methods. Code will be publicly available at https://github.com/lab206/AdaptiveClick.
翻訳日:2023-05-09 16:42:17 公開日:2023-05-07
# rsc-vae: 一クラス新規検出のための意味的一貫性に基づく再コーディング

RSC-VAE: Recoding Semantic Consistency Based VAE for One-Class Novelty Detection ( http://arxiv.org/abs/2305.04275v1 )

ライセンス: Link先を確認
Ge Zhang, Wangzhe Du(参考訳) 近年,イメージワンクラスノベルティ検出のための再構成に基づく生成モデルへの関心が高まっており,そのほとんどは画像レベルの情報にのみ焦点をあてている。 本稿では,典型的な再構成モデルである変分自動符号化(VAE)の潜時空間をさらに活用し,これを革新的に3つの領域に分割する。 この仮説に基づき、vaeと再コーディング機構を結合し、2つのエンコーディングの意味的一貫性を制約した新しいvaeアーキテクチャ、recoding semantic consistency based vae (rsc-vae)を提案する。 RSC-VAEの3つのトレーニングモードを考え出した。 一 正常試料の偽陽性問題を緩和する一級訓練モード 2.異常サンプルの偽陰性問題を緩和する分布シフトトレーニングモード 3. 極端に不均衡なトレーニングモードを導入し, 少数の異常サンプルを導入し, 第2モードを強化した。 複数のデータセットに対する実験結果から,VAEを含む各種ベースラインの最先端性能が得られた。

In recent years, there is an increasing interests in reconstruction based generative models for image One-Class Novelty Detection, most of which only focus on image-level information. While in this paper, we further exploit the latent space of Variational Auto-encoder (VAE), a typical reconstruction based model, and we innovatively divide it into three regions: Normal/Anomalous/Unknown-semantic-region. Based on this hypothesis, we propose a new VAE architecture, Recoding Semantic Consistency Based VAE (RSC-VAE), combining VAE with recoding mechanism and constraining the semantic consistency of two encodings. We come up with three training modes of RSC-VAE: 1. One-Class Training Mode, alleviating False Positive problem of normal samples; 2. Distributionally-Shifted Training Mode, alleviating False Negative problem of anomalous samples; 3. Extremely-Imbalanced Training Mode, introducing a small number of anomalous samples for training to enhance the second mode. The experimental results on multiple datasets demonstrate that our mechanism achieves state-of-the-art performance in various baselines including VAE.
翻訳日:2023-05-09 16:41:49 公開日:2023-05-07
# 画像デノイジングのための2重残留注意ネットワーク

Dual Residual Attention Network for Image Denoising ( http://arxiv.org/abs/2305.04269v1 )

ライセンス: Link先を確認
Wencong Wu, Shijie Liu, Yi Zhou, Yungang Zhang, Yu Xiang(参考訳) 画像復調において、深部畳み込みニューラルネットワーク(CNN)は、空間不変ノイズの除去に好適な性能を得ることができる。 しかし、これらのネットワークの多くは、画像取得や送信時に発生する実際のノイズ(つまり空間的変動ノイズ)を除去することにはうまく対応できない。 ネットワークの深さを継続的に増やす代わりに、多くの研究者は、ネットワークの幅を広げることはモデルの性能を向上させる有用な方法であることを明らかにした。 また、機能フィルタリングがモデルの学習能力を促進できることも確認されている。 そこで本稿では,広義のモデルアーキテクチャと注意誘導型特徴学習の両面でのメリットを有する画像復調のための新しいDual-branch Residual Attention Network(DRANet)を提案する。 提案したDRANetには2つの異なる並列ブランチがあり、モデルの学習能力を高めるために補完的な特徴を捉えることができる。 我々は,新しい残差注意ブロック (rab) と新しいハイブリッド拡張残差注意ブロック (hdrab) を設計した。 RABとHDRABは、異なる畳み込み層間の複数のスキップ接続を通じてリッチなローカル特徴をキャプチャすることができ、重要でない特徴は、残留注意モジュールによって減少する。 一方、各ブランチの長いスキップ接続と、2つの並列ブランチ間のグローバル機能融合は、グローバル機能もキャプチャできる。 さらに,提案するdranetでは,ダウンサンプリング操作と拡張畳み込みを使用して受容フィールドのサイズを増加させることにより,画像コンテキスト情報の取得が容易になる。 広範な実験により, ドレーネットは他の最先端の雑音除去手法と比較して, 合成と実世界のノイズ除去の両方において, 競合的な雑音除去性能が得られることを示した。

In image denoising, deep convolutional neural networks (CNNs) can obtain favorable performance on removing spatially invariant noise. However, many of these networks cannot perform well on removing the real noise (i.e. spatially variant noise) generated during image acquisition or transmission, which severely sets back their application in practical image denoising tasks. Instead of continuously increasing the network depth, many researchers have revealed that expanding the width of networks can also be a useful way to improve model performance. It also has been verified that feature filtering can promote the learning ability of the models. Therefore, in this paper, we propose a novel Dual-branch Residual Attention Network (DRANet) for image denoising, which has both the merits of a wide model architecture and attention-guided feature learning. The proposed DRANet includes two different parallel branches, which can capture complementary features to enhance the learning ability of the model. We designed a new residual attention block (RAB) and a novel hybrid dilated residual attention block (HDRAB) for the upper and the lower branches, respectively. The RAB and HDRAB can capture rich local features through multiple skip connections between different convolutional layers, and the unimportant features are dropped by the residual attention modules. Meanwhile, the long skip connections in each branch, and the global feature fusion between the two parallel branches can capture the global features as well. Moreover, the proposed DRANet uses downsampling operations and dilated convolutions to increase the size of the receptive field, which can enable DRANet to capture more image context information. Extensive experiments demonstrate that compared with other state-of-the-art denoising methods, our DRANet can produce competitive denoising performance both on synthetic and real-world noise removal.
翻訳日:2023-05-09 16:41:31 公開日:2023-05-07
# 多空間神経放射場

Multi-Space Neural Radiance Fields ( http://arxiv.org/abs/2305.04268v1 )

ライセンス: Link先を確認
Ze-Xin Yin and Jiaxiong Qiu and Ming-Ming Cheng and Bo Ren(参考訳) 既存のneural radiance field(nerf)メソッドは反射オブジェクトの存在に苦しめられ、しばしばぼやけたり歪んだりする。 単一放射場を計算する代わりに、並列部分空間における特徴場群を用いてシーンを表現するマルチスペースニューラルレイディアンス場(MS-NeRF)を提案し、反射および屈折物体の存在に対するニューラルネットワークの理解を深める。 我々のマルチスペーススキームは既存のNeRF法の強化として機能し、トレーニングや余剰空間出力の推測に必要な計算オーバーヘッドは少ない。 我々は,NeRFモデル,NeRFモデル,Mip-NeRFモデル,Mip-NeRF 360を用いたアプローチの優位性と互換性を示す。 比較は、25の合成シーンと、複雑な反射と屈折を伴う7つの実写シーンからなる、それぞれ360度の視点を持つ新規に構築されたデータセット上で実施される。 広汎な実験により,鏡状物体を通した複雑な光路に関する高品質なシーンのレンダリングにおいて,既存の単一空間NeRF法よりも優れた性能を示した。 私たちのコードとデータセットはhttps://zx-yin.github.io/msnerfで公開される予定だ。

Existing Neural Radiance Fields (NeRF) methods suffer from the existence of reflective objects, often resulting in blurry or distorted rendering. Instead of calculating a single radiance field, we propose a multi-space neural radiance field (MS-NeRF) that represents the scene using a group of feature fields in parallel sub-spaces, which leads to a better understanding of the neural network toward the existence of reflective and refractive objects. Our multi-space scheme works as an enhancement to existing NeRF methods, with only small computational overheads needed for training and inferring the extra-space outputs. We demonstrate the superiority and compatibility of our approach using three representative NeRF-based models, i.e., NeRF, Mip-NeRF, and Mip-NeRF 360. Comparisons are performed on a novelly constructed dataset consisting of 25 synthetic scenes and 7 real captured scenes with complex reflection and refraction, all having 360-degree viewpoints. Extensive experiments show that our approach significantly outperforms the existing single-space NeRF methods for rendering high-quality scenes concerned with complex light paths through mirror-like objects. Our code and dataset will be publicly available at https://zx-yin.github.io/msnerf.
翻訳日:2023-05-09 16:40:59 公開日:2023-05-07
# LASSO正則化による2層ReLUニューラルネットワークの確率的識別可能性

Provable Identifiability of Two-Layer ReLU Neural Networks via LASSO Regularization ( http://arxiv.org/abs/2305.04267v1 )

ライセンス: Link先を確認
Gen Li, Ganghua Wang, Jie Ding(参考訳) LASSO正則化(LASSO regularization)は、まず線形モデルとその変種に対して定式化された$\ell_1$のペナルティによって変数選択を行うことにより、統計モデルの予測精度を高める一般的な回帰ツールである。 本稿では,LASSOの領域を,ファッショナブルかつ強力な非線形回帰モデルである2層ReLUニューラルネットワークに拡張する。 具体的には、出力$y$が入力の小さな部分集合である$\boldsymbol{x}$にのみ依存するニューラルネットワークを、$\mathcal{S}^{\star}$と書くと、LASSO推定器がニューラルネットワークを安定に再構成し、サンプル数が入力次元と対数的にスケールする場合に$\mathcal{S}^{\star}$を識別できることを示す。 この挑戦的な手法は線形モデルではよく理解されているが、ニューラルネットワークについてはほとんど研究されていない。 我々の理論は、拡張制限等長性(rip)に基づく2層reluニューラルネットワークの解析フレームワークであり、他のlassoやニューラルネットワークの設定とは独立した関心を持つかもしれない。 この結果に基づいて,ニューラルネットワークに基づく変数選択手法を提案する。 シミュレーションおよび実世界のデータセットに関する実験は、既存の手法と比較して変数選択アプローチの有望な性能を示している。

LASSO regularization is a popular regression tool to enhance the prediction accuracy of statistical models by performing variable selection through the $\ell_1$ penalty, initially formulated for the linear model and its variants. In this paper, the territory of LASSO is extended to two-layer ReLU neural networks, a fashionable and powerful nonlinear regression model. Specifically, given a neural network whose output $y$ depends only on a small subset of input $\boldsymbol{x}$, denoted by $\mathcal{S}^{\star}$, we prove that the LASSO estimator can stably reconstruct the neural network and identify $\mathcal{S}^{\star}$ when the number of samples scales logarithmically with the input dimension. This challenging regime has been well understood for linear models while barely studied for neural networks. Our theory lies in an extended Restricted Isometry Property (RIP)-based analysis framework for two-layer ReLU neural networks, which may be of independent interest to other LASSO or neural network settings. Based on the result, we advocate a neural network-based variable selection method. Experiments on simulated and real-world datasets show promising performance of the variable selection approach compared with existing techniques.
翻訳日:2023-05-09 16:40:38 公開日:2023-05-07
# 関係分類としての単語埋め込みオフセットクラスタリングの検討

An Investigation on Word Embedding Offset Clustering as Relationship Classification ( http://arxiv.org/abs/2305.04265v1 )

ライセンス: Link先を確認
Didier Gohourou and Kazuhiro Kuwabara(参考訳) 単語埋め込みから得られるベクトル表現は、自然言語処理における多くの画期的な進歩の源である。 テキストコーパス内の単語の意味や類似を捉えることができる単語表現を生成する。 本研究は,一対の単語ベクトル間の関係のベクトル表現を導出する試みである。 ベクトル関係を表すのに6つのプーリング戦略を用いる。 異なる種類のクラスタリングモデルを適用し、どれが正しく関係型をグループ化するかを分析する。 サブトラクションプーリングとcentroidベースのクラスタリング機構を組み合わせることで,実験的なセットアップでパフォーマンスが向上した。 本研究の目的は,単語の組込みに基づく教師なし手法により,一対の単語で表される関係の性質を識別することである。

Vector representations obtained from word embedding are the source of many groundbreaking advances in natural language processing. They yield word representations that are capable of capturing semantics and analogies of words within a text corpus. This study is an investigation in an attempt to elicit a vector representation of relationships between pairs of word vectors. We use six pooling strategies to represent vector relationships. Different types of clustering models are applied to analyze which one correctly groups relationship types. Subtraction pooling coupled with a centroid based clustering mechanism shows better performances in our experimental setup. This work aims to provide directions for a word embedding based unsupervised method to identify the nature of a relationship represented by a pair of words.
翻訳日:2023-05-09 16:40:14 公開日:2023-05-07
# 島相における無人島と部分絡み合いエントロピー

Ownerless island and partial entanglement entropy in island phases ( http://arxiv.org/abs/2305.04259v1 )

ライセンス: Link先を確認
Debarshi Basu, Jiong Lin, Yizhou Lu and Qiang Wen(参考訳) 部分的絡み合いエントロピー (pee) の文脈において, 2次元のホログラフィックワイル変換cftで実現される島相の絡み合い構造について検討した。 島相の自己エンコーディング特性はPEEの評価方法を変える。 本研究は, 島々からの貢献を考慮し, PEEの構築とバランスの取れた部分エンタングルメント・エントロピー (BPE) の一般処方を与える。 ここで、オーナーレスの島域は、島内にある$\text{Is}(AB)$ of $A\cup B$ だが、外部にある$\text{Is}(A)\cup \text{Is}(B)$は重要な役割を果たす。 注目すべきは、オーナーレス島の異なる割り当ての下では、異なるBPEが得られ、これは、$A\cup B$の絡み合いのくさび(EWCS)の異なるサドルに対応する。 割り当ては BPE を最小化するものを選択することで解決できる。 さらに,この課題の下では,オシッコを観察し,ホログラフィにおいてオシッコの幾何学的図面を与え,島外相の幾何学的図面と一致させる。

In the context of partial entanglement entropy (PEE), we study the entanglement structure of the island phases realized in a holographic Weyl transformed CFT in two dimensions. The self-encoding property of the island phase changes the way we evaluate the PEE. With the contributions from islands taken into account, we give a generalized prescription to construct PEE and balanced partial entanglement entropy (BPE). Here the ownerless island region, which lies inside the island $\text{Is}(AB)$ of $A\cup B$ but outside $\text{Is}(A)\cup \text{Is}(B)$, plays a crucial role. Remarkably, we find that under different assignments for the ownerless island, we get different BPEs, which exactly correspond to different saddles of the entanglement wedge cross-section (EWCS) in the entanglement wedge of $A\cup B$. The assignments can be settled by choosing the one that minimizes the BPE. Furthermore, under this assignment we study the PEE and give a geometric picture for the PEE in holography, which is consistent with the geometric picture in the no-island phases.
翻訳日:2023-05-09 16:40:03 公開日:2023-05-07
# 都市公共交通システムのための一般化ネットワークレベル破壊戦略選択モデル

A generalized network level disruption strategy selection model for urban public transport systems ( http://arxiv.org/abs/2305.04324v1 )

ライセンス: Link先を確認
Qi Liu, Joseph Y. J. Chow(参考訳) ディスラプションからの迅速な回復は、交通システムの信頼性にとって極めて重要である。 本研究は, 交通破壊対策を包括的かつ階層的に解決するための新しい試みである。 ネットワークレベルの戦略選択最適化モデルは、結合ルーティングとリソース割り当て(nJRRA)問題として定式化される。 さらに問題をエプシロンに拘束された njrra 問題に制限することにより、二次制約付き二次プログラム(qcqp)の解法に古典解法を適用することができる。 この「基本モデル」に加えて、入射期間が確率的である場合に最大開始時間までリソース割当決定を遅らせる決定を加えることを提案する。 モデルをテストするために、離散化時間ステップと離散分布を用いて、与えられたインシデント持続時間分布を持つ準動的評価プログラムを構築する。 玩具輸送ネットワーク上で5つの異なる需要パターンと4つの異なる破壊期間分布(20の組み合わせ)を試験する。 その結果,2つのモデルでは,ラインレベルの調整のみやバスブリッジのみの使用など,ベンチマーク戦略に優れていた。 また、決定の遅れが望ましい場合の条件も強調する。

A fast recovery from disruptions is of vital importance for the reliability of transit systems. This study presents a new attempt to tackle the transit disruption mitigation problem in a comprehensive and hierarchical way. A network level strategy selection optimization model is formulated as a joint routing and resource allocation (nJRRA) problem. By constraining the problem further into an epsilon-constrained nJRRA problem, classic solution algorithms can be applied to solve the quadratically constrained quadratic program (QCQP). On top of this "basic model", we propose adding a decision to delay the resource allocation decisions up to a maximum initiation time when the incident duration is stochastic. To test the models, a quasi-dynamic evaluation program with a given incident duration distribution is constructed using discretized time steps and discrete distributions. Five different demand patterns and four different disruption duration distributions (20 combinations) are tested on a toy transit network. The results show that the two models outperform benchmark strategies such as using only line level adjustment or only bus bridging. They also highlight conditions when delaying the decision is preferred.
翻訳日:2023-05-09 16:32:58 公開日:2023-05-07
# インコンテキスト学習のための統一デモンストレーションレトリバー

Unified Demonstration Retriever for In-Context Learning ( http://arxiv.org/abs/2305.04320v1 )

ライセンス: Link先を確認
Xiaonan Li, Kai Lv, Hang Yan, Tianyang Lin, Wei Zhu, Yuan Ni, Guotong Xie, Xiaoling Wang and Xipeng Qiu(参考訳) インコンテキスト学習(in-context learning)は、言語モデルがいくつかの入出力ペア(デーモンストレーション)とテスト入力で条件付けし、直接予測を出力する新しい学習パラダイムである。 テスト入力が与えられた場合、関連するサンプルがトレーニングセットから検索され、コンテキスト内学習のための情報的デモンストレーションとして機能する。 従来の作業ではタスク固有のレトリバーを個別にトレーニングすることに重点を置いていたが、これらの手法は様々なタスクの転送とスケールが困難であり、個別に訓練されたレトリバーは大量のパラメータストレージとデプロイメントコストを発生させる。 本稿では,多様なタスクのデモを検索する単一モデルであるUnified Demonstration Retriever (\textbf{UDR})を提案する。 UDRを訓練するために,言語モデルからのフィードバックにより,様々なタスクの学習信号をリストワイドランキングの定式化に投入した。 そこで我々は,udrが様々なタスクの信号を完全に組み込むのに役立つ高品質な候補を見つけるための反復的マイニング戦略を備えたマルチタスクリストワイズランキングトレーニングフレームワークを提案する。 13のタスクファミリーと複数のデータドメインにわたる30以上のタスクの実験は、UDRがベースラインを大幅に上回っていることを示している。 さらなる分析により、異なるlmm(1.3b - 175b)、見えないデータセット、様々なデモンストレーション量などを含む様々なシナリオにおいて、各コンポーネントの有効性とudrの強力な能力が示されている。

In-context learning is a new learning paradigm where a language model conditions on a few input-output pairs (demonstrations) and a test input, and directly outputs the prediction. It has been shown highly dependent on the provided demonstrations and thus promotes the research of demonstration retrieval: given a test input, relevant examples are retrieved from the training set to serve as informative demonstrations for in-context learning. While previous works focus on training task-specific retrievers for several tasks separately, these methods are often hard to transfer and scale on various tasks, and separately trained retrievers incur a lot of parameter storage and deployment cost. In this paper, we propose Unified Demonstration Retriever (\textbf{UDR}), a single model to retrieve demonstrations for a wide range of tasks. To train UDR, we cast various tasks' training signals into a unified list-wise ranking formulation by language model's feedback. Then we propose a multi-task list-wise ranking training framework, with an iterative mining strategy to find high-quality candidates, which can help UDR fully incorporate various tasks' signals. Experiments on 30+ tasks across 13 task families and multiple data domains show that UDR significantly outperforms baselines. Further analyses show the effectiveness of each proposed component and UDR's strong ability in various scenarios including different LMs (1.3B - 175B), unseen datasets, varying demonstration quantities, etc.
翻訳日:2023-05-09 16:32:38 公開日:2023-05-07
# 一般環境における新しい環境変容を特徴付ける枠組み

A Framework for Characterizing Novel Environment Transformations in General Environments ( http://arxiv.org/abs/2305.04315v1 )

ライセンス: Link先を確認
Matthew Molineaux, Dustin Dannenhauer, Eric Kildebeck(参考訳) 驚くべき発展にロバストであるためには、インテリジェントエージェントは、世界中の予期せぬ多くの変化に対応できなければならない。 現在、可能な環境変化の種類を定義し、特徴付けるための一般的なフレームワークはありません。 我々は,エージェントが居住する世界における環境変化を定義し,分類するための形式的かつ理論的枠組みを提案する。 本稿では,環境動態を変化させるR変換とシナリオを生成する生成プロセスを変更するT変換の2種類を紹介する。 我々は、t-sal(transform and simulator abstraction language)と呼ばれる、ドメイン、シナリオジェネレータ、および変換を記述するための新しい言語と、これらの概念を厳密に定義する論理形式を提案する。 次に、環境変換の8つのカテゴリに対して、最初の形式的および計算的なテストセットを提供する。 このドメイン非依存フレームワークは、新規性、制約付きおよびドメイン非依存の環境変換のランダム生成、環境変換研究の複製、エージェントロバストネスの公平な評価の曖昧なクラスを記述する方法を提供する。

To be robust to surprising developments, an intelligent agent must be able to respond to many different types of unexpected change in the world. To date, there are no general frameworks for defining and characterizing the types of environment changes that are possible. We introduce a formal and theoretical framework for defining and categorizing environment transformations, changes to the world an agent inhabits. We introduce two types of environment transformation: R-transformations which modify environment dynamics and T-transformations which modify the generation process that produces scenarios. We present a new language for describing domains, scenario generators, and transformations, called the Transformation and Simulator Abstraction Language (T-SAL), and a logical formalism that rigorously defines these concepts. Then, we offer the first formal and computational set of tests for eight categories of environment transformations. This domain-independent framework paves the way for describing unambiguous classes of novelty, constrained and domain-independent random generation of environment transformations, replication of environment transformation studies, and fair evaluation of agent robustness.
翻訳日:2023-05-09 16:32:11 公開日:2023-05-07
# 人間か機械か: チューリングにインスパイアされた毎日のテスト

Human or Machine: Reflections on Turing-Inspired Testing for the Everyday ( http://arxiv.org/abs/2305.04312v1 )

ライセンス: Link先を確認
David Harel and Assaf Marron(参考訳) チューリングの1950年の論文は、機械知能の概念を捉えるために最初に提案された「模倣ゲーム」という有名なものを紹介した。 長年にわたり、チューリング試験は多くの関心を呼び起こし、いくつかの変種が生まれ、また議論や論争も熱心になった。 ここでは、特定のマシンにインテリジェントなラベルを付けることができるのか、あるいは特定のコンテキストにおける人間の能力と一致すると言えるのかという疑問を回避します。 その代わりに、チューリングにインスパイアされた私たちは、日々の生活の中で、人間が人間や機械と相互作用しているかどうかを判断する、一見単純な課題に注意を向けます。 我々は、この人間か機械かという質問の重要性と、それに対する信頼できる答えが生み出すかもしれない使用について振り返ることに興味を持っている。 チューリングの最初のテストは、より思考実験であると広く考えられているが、ここで論じた人間と機械の問題は、明らかに実用的な意味を持っている。 陪審員は、日常的に高い忠実さで人間の行動を模倣できる機械の可能性については議論していないが、ここで提起された問題の短期的な探索は、コンピュータシステムの開発方法に寄与し、人間の行動全般の理解を向上する可能性があると論じている。

Turing's 1950 paper introduced the famed "imitation game", a test originally proposed to capture the notion of machine intelligence. Over the years, the Turing test spawned a large amount of interest, which resulted in several variants, as well as heated discussions and controversy. Here we sidestep the question of whether a particular machine can be labeled intelligent, or can be said to match human capabilities in a given context. Instead, but inspired by Turing, we draw attention to the seemingly simpler challenge of determining whether one is interacting with a human or with a machine, in the context of everyday life. We are interested in reflecting upon the importance of this Human-or-Machine question and the use one may make of a reliable answer thereto. Whereas Turing's original test is widely considered to be more of a thought experiment, the Human-or-Machine question as discussed here has obvious practical significance. And while the jury is still not in regarding the possibility of machines that can mimic human behavior with high fidelity in everyday contexts, we argue that near-term exploration of the issues raised here can contribute to development methods for computerized systems, and may also improve our understanding of human behavior in general.
翻訳日:2023-05-09 16:31:51 公開日:2023-05-07
# 逐次選択による超振動量子制御

Superoscillating Quantum Control Induced By Sequential Selections ( http://arxiv.org/abs/2305.04303v1 )

ライセンス: Link先を確認
Yongcheng Ding, Yiming Pan, Xi Chen(参考訳) スーパーオシレーション(superoscillation)は、回折限界を超える新しい光学イメージングを可能にする「フーリエより速い」数学的特徴の対直観的な現象である。 本稿では,システム(コントローラ)に最適事前選択と後選択を繰り返し適用することにより,機器(ターゲット)を駆動する弱測定の枠組みにおいて,逐次選択によって実現されるスーパーオシレート量子制御プロトコルを提案する。 本プロトコルは、捕捉されたイオンの断熱輸送と断熱量子探索アルゴリズムを有限エネルギーコストで加速する。 本稿では,デコヒーレンスと変動雑音の存在下でのプロトコルの正確性と頑健性を示し,忠実度と選択ラウンド間のトレードオフを明らかにする。 本研究は, トラップイオンなどの量子プラットフォームにおける超振動を用いた量子状態制御とウェーブ・パケット操作の手法を提案する。

Superoscillation is a counterintuitive phenomenon for its mathematical feature of "faster-than-Fourier", which has allowed novel optical imaging beyond the diffraction limit. Here, we provide a superoscillating quantum control protocol realized by sequential selections in the framework of weak measurement, which drives the apparatus (target) by repeatedly applying optimal pre- and post-selections to the system (controller). Our protocol accelerates the adiabatic transport of trapped ions and adiabatic quantum search algorithm at a finite energy cost. We demonstrate the accuracy and robustness of the protocol in the presence of decoherence and fluctuating noise and elucidate the trade-off between fidelity and rounds of selections. Our findings provide avenues for quantum state control and wave-packet manipulation using superoscillation in quantum platforms such as trapped ions.
翻訳日:2023-05-09 16:31:28 公開日:2023-05-07
# クエリとしてのPoses: トランスフォーマーを用いた画像からLiDARマップのローカライゼーション

Poses as Queries: Image-to-LiDAR Map Localization with Transformers ( http://arxiv.org/abs/2305.04298v1 )

ライセンス: Link先を確認
Jinyu Miao, Kun Jiang, Yunlong Wang, Tuopu Wen, Zhongyang Xiao, Zheng Fu, Mengmeng Yang, Maolin Liu, Diange Yang(参考訳) 商用化による高精度車両のローカライゼーションは、高レベルの自動運転タスクにとって重要な技術である。 LiDARマップにおける単眼カメラによるローカライゼーションは,コストと精度の良好なバランスを実現する新たなアプローチであるが,そのようなクロスモーダルセンサデータの対応を見出すことによるポーズの推定は困難であり,ローカライズ精度を損なう。 本稿では,トランスフォーマーをベースとした新しいニューラルネットワークを提案し,エンドツーエンドで2次元画像を3次元LiDARマップに登録する。 ポーズは、ポーズクエリと呼ばれる高次元特徴ベクトルとして暗黙的に表現され、提案するpose estimator transformer(poet)モジュールにおいて、注意機構を用いて、クロスモデル特徴から検索された関連情報と対話することで反復的に更新される。 さらに,ネットワークの不確実性を低減するために,複数のランダム初期化ポーズクエリに対して並列最適化を行うことにより,最終ポーズを推定する複数の仮説集約手法を適用した。 一般ベンチマークによる包括的解析と実験結果から,提案した画像-LiDARマップローカライゼーションネットワークは,モーダル横断ローカライゼーションタスクに挑戦する上で,最先端のパフォーマンスを実現することができると結論付けた。

High-precision vehicle localization with commercial setups is a crucial technique for high-level autonomous driving tasks. Localization with a monocular camera in LiDAR map is a newly emerged approach that achieves promising balance between cost and accuracy, but estimating pose by finding correspondences between such cross-modal sensor data is challenging, thereby damaging the localization accuracy. In this paper, we address the problem by proposing a novel Transformer-based neural network to register 2D images into 3D LiDAR map in an end-to-end manner. Poses are implicitly represented as high-dimensional feature vectors called pose queries and can be iteratively updated by interacting with the retrieved relevant information from cross-model features using attention mechanism in a proposed POse Estimator Transformer (POET) module. Moreover, we apply a multiple hypotheses aggregation method that estimates the final poses by performing parallel optimization on multiple randomly initialized pose queries to reduce the network uncertainty. Comprehensive analysis and experimental results on public benchmark conclude that the proposed image-to-LiDAR map localization network could achieve state-of-the-art performances in challenging cross-modal localization tasks.
翻訳日:2023-05-09 16:31:14 公開日:2023-05-07
# HIORE: 統一エンティティ関係抽出のための高次相互作用の活用

HIORE: Leveraging High-order Interactions for Unified Entity Relation Extraction ( http://arxiv.org/abs/2305.04297v1 )

ライセンス: Link先を確認
Yijun Wang, Changzhi Sun, Yuanbin Wu, Lei Li, Junchi Yan, and Hao Zhou(参考訳) エンティティ関係抽出は、エンティティ認識と関係抽出の2つのサブタスクで構成される。 既存の手法はこれらの2つのタスクを個別に扱うか、単語間相互作用でそれらを統一する。 本稿では,統合エンティティ関係抽出のための新しい手法であるHIOREを提案する。 重要な洞察は、一階の単語同士の相互作用よりもリッチな情報を含む単語ペア間の複雑な関係、すなわち高階の相互作用を活用することである。 この目的のために、まずW字型DNN(WNet)を考案し、粗いレベルの高次接続をキャプチャする。 次に、ヒューリスティックな高次グラフを構築し、グラフニューラルネットワーク(GNN)を用いて表現をキャリブレーションする。 3つのベンチマーク (ACE04, ACE05, SciERC) の実験により、HIORE は関係抽出における最先端性能と、従来最高の統一モデルよりも 1.1~1.8 F1 点の改善を実現している。

Entity relation extraction consists of two sub-tasks: entity recognition and relation extraction. Existing methods either tackle these two tasks separately or unify them with word-by-word interactions. In this paper, we propose HIORE, a new method for unified entity relation extraction. The key insight is to leverage the high-order interactions, i.e., the complex association among word pairs, which contains richer information than the first-order word-by-word interactions. For this purpose, we first devise a W-shape DNN (WNet) to capture coarse-level high-order connections. Then, we build a heuristic high-order graph and further calibrate the representations with a graph neural network (GNN). Experiments on three benchmarks (ACE04, ACE05, SciERC) show that HIORE achieves the state-of-the-art performance on relation extraction and an improvement of 1.1~1.8 F1 points over the prior best unified model.
翻訳日:2023-05-09 16:30:50 公開日:2023-05-07
# HashCC:カメラレスNeRFシーンの画質向上のための軽量化手法

HashCC: Lightweight Method to Improve the Quality of the Camera-less NeRF Scene Generation ( http://arxiv.org/abs/2305.04296v1 )

ライセンス: Link先を確認
Jan Olszewski(参考訳) ニューラルラジアンス場はビュー合成によるシーン生成の顕著な方法となっている。 オリジナルアルゴリズムが意味のあるシーン表現を学ぶための重要な要件は、データセット内の各画像のカメラポーズ情報である。 現在のアプローチでは、シーンの神経表現を学習しながら、近似カメラの位置を学習することで、この仮定を適度な成功で回避しようとする。 これは複雑なカメラモデルが必要で、長く複雑なトレーニングプロセスを引き起こしたり、描画シーンのテクスチャやシャープな詳細が欠如する。 本稿では,ハッシュ色補正(hashcc)について紹介する。ニューラルネットワークの輝度場をレンダリングした画像品質を改善するための軽量な手法であり,与えられた画像セットのカメラ位置が不明な場合にも適用できる。

Neural Radiance Fields has become a prominent method of scene generation via view synthesis. A critical requirement for the original algorithm to learn meaningful scene representation is camera pose information for each image in a data set. Current approaches try to circumnavigate this assumption with moderate success, by learning approximate camera positions alongside learning neural representations of a scene. This requires complicated camera models, causing a long and complicated training process, or results in a lack of texture and sharp details in rendered scenes. In this work we introduce Hash Color Correction (HashCC) -- a lightweight method for improving Neural Radiance Fields rendered image quality, applicable also in situations where camera positions for a given set of images are unknown.
翻訳日:2023-05-09 16:30:34 公開日:2023-05-07
# PELEスコア:Pelvis抽出と拡張によるPelvic X線ランドマーク検出

PELE scores: Pelvic X-ray Landmark Detection by Pelvis Extraction and Enhancement ( http://arxiv.org/abs/2305.04294v1 )

ライセンス: Link先を確認
Zhen Huang, Han Li, Shitong Shao, Heqin Zhu, Huijie Hu, Zhiwei Cheng, Jianji Wang, and S.Kevin Zhou(参考訳) 体幹の下部である骨盤は、体幹を支え、バランスをとる。 骨盤X線(PXR)からのランドマーク検出は、骨盤疾患の下流分析とコンピュータ支援による診断と治療を容易にする。 PXRはCT画像と比較して低放射能と低コストの利点があるが、3D構造の2次元骨盤形状の重ね合わせは臨床的意思決定を混乱させる。 本稿では,CTにおける3次元解剖学的知識を利用したPELvis extract(PELE)モジュールを提案し,骨盤をPXRからガイドし,適切に分離し,軟組織の影響を排除した。 2つの公開データセットと1つのプライベートデータセットに基づく広範な評価を行い、合計850のPXRを出力する。 実験結果から,提案するPELEモジュールは,PXRのランドマーク検出の精度を大幅に向上し,複数のベンチマーク指標における最先端性能を実現し,下流タスクの処理性の向上を図っている。

The pelvis, the lower part of the trunk, supports and balances the trunk. Landmark detection from a pelvic X-ray (PXR) facilitates downstream analysis and computer-assisted diagnosis and treatment of pelvic diseases. Although PXRs have the advantages of low radiation and reduced cost compared to computed tomography (CT) images, their 2D pelvis-tissue superposition of 3D structures confuses clinical decision-making. In this paper, we propose a PELvis Extraction (PELE) module that utilizes 3D prior anatomical knowledge in CT to guide and well isolate the pelvis from PXRs, thereby eliminating the influence of soft tissue. We conduct an extensive evaluation based on two public datasets and one private dataset, totaling 850 PXRs. The experimental results show that the proposed PELE module significantly improves the accuracy of PXRs landmark detection and achieves state-of-the-art performances in several benchmark metrics, thus better serving downstream tasks.
翻訳日:2023-05-09 16:30:19 公開日:2023-05-07
# データ生成とパラメータ歪みによるプライバシー保護型連合学習の至近最適ユーティリティの実現に向けて

Towards Achieving Near-optimal Utility for Privacy-Preserving Federated Learning via Data Generation and Parameter Distortion ( http://arxiv.org/abs/2305.04288v1 )

ライセンス: Link先を確認
Xiaojin Zhang, Kai Chen, Qiang Yang(参考訳) フェデレートラーニング(FL)は、参加者がプライベートデータ情報を開示することなく、強化されたユーティリティでグローバルモデルを構築することを可能にする。 適切な保護機構は、 \textit{privacy} の保存と高モデル \textit{utility} の維持の要件を満たすために採用する必要がある。 広く採用されている保護機構の性質として, モデルパラメータを歪ませることにより, プライバシを保護することが挙げられる。 元のモデルパラメータと歪んだモデルパラメータのギャップを通じて有効性を測定する。 我々は,プライバシ保護フェデレーション学習がデータ生成やパラメータの歪みを通じてほぼ最適に利用できるという,一般的な条件下での認識を望んでいる。 分散還元(distribution-reduction)とモデルパラメータの不一致(model parameter discrepancy)という2つの主な用語を用いて、ユーティリティ損失の上限を別々に測定する。 本分析は,プライバシ要件を同時に満たすために,保護機構の適切な保護パラメータの設計を刺激する。 保護機構の主な技術はパラメータの歪みとデータ生成であり、汎用的で広く適用可能である。 さらに,プライバシとユーティリティのトレードオフを上限として,nflで示される下限とともに最適なトレードオフを実現する条件を提供する。

Federated learning (FL) enables participating parties to collaboratively build a global model with boosted utility without disclosing private data information. Appropriate protection mechanisms have to be adopted to fulfill the requirements in preserving \textit{privacy} and maintaining high model \textit{utility}. The nature of the widely-adopted protection mechanisms including \textit{Randomization Mechanism} and \textit{Compression Mechanism} is to protect privacy via distorting model parameter. We measure the utility via the gap between the original model parameter and the distorted model parameter. We want to identify under what general conditions privacy-preserving federated learning can achieve near-optimal utility via data generation and parameter distortion. To provide an avenue for achieving near-optimal utility, we present an upper bound for utility loss, which is measured using two main terms called variance-reduction and model parameter discrepancy separately. Our analysis inspires the design of appropriate protection parameters for the protection mechanisms to achieve near-optimal utility and meet the privacy requirements simultaneously. The main techniques for the protection mechanism include parameter distortion and data generation, which are generic and can be applied extensively. Furthermore, we provide an upper bound for the trade-off between privacy and utility, which together with the lower bound illustrated in NFL form the conditions for achieving optimal trade-off.
翻訳日:2023-05-09 16:30:03 公開日:2023-05-07
# 深層誤り訂正符号の学習的側面の解釈

Interpreting Training Aspects of Deep-Learned Error-Correcting Codes ( http://arxiv.org/abs/2305.04347v1 )

ライセンス: Link先を確認
N. Devroye, A. Mulgund, R. Shekhar, Gy. Tur\'an, M. \v{Z}efran, Y. Zhou(参考訳) 新しい深層学習エラー訂正コードの導入が続けられているため、設計したコードを解釈し、トレーニングプロセスを理解するためのツールを開発することが重要である。 深層学習のTurboAEに焦点を当てた以前の研究は、どちらも学習後のエンコーダを近辺の ‘interpretable' エンコーダにマッピングすることで解釈し、様々なデコーダを用いた解釈可能なエンコーダの性能を実験的に評価した。 ここでは、ディープラーニングのエラー訂正コードのトレーニングプロセスを解釈するツールの開発について述べる。 1) goldreich-levin アルゴリズムを用いて,学習エンコーダを迅速に解釈する。 2) フーリエ係数をトレーニングダイナミクスとロスランドスケープを理解するためのツールとして使用する。 3)エンコーダやデコーダパラメータ,ビット誤り率(ber)に関連付けることで,トレーニング損失,バイナリクロスエントロピーを再構成する。 4) これらの知見を用いて,新しい訓練手順を定式化し,検討すること。 すべてのツールはturboaeでデモされているが、他の深い学習された前方誤り訂正コード(フィードバックなしで)に適用できる。

As new deep-learned error-correcting codes continue to be introduced, it is important to develop tools to interpret the designed codes and understand the training process. Prior work focusing on the deep-learned TurboAE has both interpreted the learned encoders post-hoc by mapping these onto nearby ``interpretable'' encoders, and experimentally evaluated the performance of these interpretable encoders with various decoders. Here we look at developing tools for interpreting the training process for deep-learned error-correcting codes, focusing on: 1) using the Goldreich-Levin algorithm to quickly interpret the learned encoder; 2) using Fourier coefficients as a tool for understanding the training dynamics and the loss landscape; 3) reformulating the training loss, the binary cross entropy, by relating it to encoder and decoder parameters, and the bit error rate (BER); 4) using these insights to formulate and study a new training procedure. All tools are demonstrated on TurboAE, but are applicable to other deep-learned forward error correcting codes (without feedback).
翻訳日:2023-05-09 16:24:57 公開日:2023-05-07
# 神経意味的パーシングにおける合成性を考える

Laziness Is a Virtue When It Comes to Compositionality in Neural Semantic Parsing ( http://arxiv.org/abs/2305.04346v1 )

ライセンス: Link先を確認
Maxwell Crouse, Pavan Kapanipathi, Subhajit Chaudhury, Tahira Naseem, Ramon Astudillo, Achille Fokoue, Tim Klinger(参考訳) ほぼすべての汎用神経意味解析器は、厳密にトップダウンの自己回帰的な方法で論理形式を生成する。 このようなシステムは、さまざまなデータセットやドメインで印象的な成果を上げているが、近年の研究では、合成一般化能力が最終的に制限されているかどうか疑問視されている。 本研究では,意味的構文解析を,文字通り逆の方向からアプローチする。つまり,論理形式の葉から始まり,ボトムアップから論理形式を構築するニューラル意味的構文解析生成手法を導入する。 私たちが導入したシステムは、潜在的なセマンティックパースを段階的に構築するが、各生成ステップで最も有望な候補パースを拡大して処理するだけである。 このような擬似展開スキームにより、システムは任意の大きさのパース仮説を維持でき、それは実現されず、最小限の計算オーバーヘッドを発生させる。 特に,CFQデータセットと3つのText-to-SQLデータセットにおいて,新しいボトムアップセマンティックパーシング技術が汎用セマンティックパーサよりも優れており,また,タスク毎に設計された同等のニューラルパーサと競合していることを示す。

Nearly all general-purpose neural semantic parsers generate logical forms in a strictly top-down autoregressive fashion. Though such systems have achieved impressive results across a variety of datasets and domains, recent works have called into question whether they are ultimately limited in their ability to compositionally generalize. In this work, we approach semantic parsing from, quite literally, the opposite direction; that is, we introduce a neural semantic parsing generation method that constructs logical forms from the bottom up, beginning from the logical form's leaves. The system we introduce is lazy in that it incrementally builds up a set of potential semantic parses, but only expands and processes the most promising candidate parses at each generation step. Such a parsimonious expansion scheme allows the system to maintain an arbitrarily large set of parse hypotheses that are never realized and thus incur minimal computational overhead. We evaluate our approach on compositional generalization; specifically, on the challenging CFQ dataset and three Text-to-SQL datasets where we show that our novel, bottom-up semantic parsing technique outperforms general-purpose semantic parsers while also being competitive with comparable neural parsers that have been designed for each task.
翻訳日:2023-05-09 16:24:38 公開日:2023-05-07
# バイオメディカルドキュメンテーションにおける知識融合を用いた言語モデルの構築

Empowering Language Model with Guided Knowledge Fusion for Biomedical Document Re-ranking ( http://arxiv.org/abs/2305.04344v1 )

ライセンス: Link先を確認
Deepak Gupta and Dina Demner-Fushman(参考訳) 事前訓練された言語モデル(PLM)は文書の再分類作業に有効であることが証明されている。 しかし、バイオメディカルクエリやヘルスケアクエリのセマンティクスを完全に解釈する能力は欠如しており、文書を検索するための単純なパターンに依存していることが多い。 この課題に対処するために,知識とPLMを統合して,外部からの情報を効果的に取得し,正しい文書を検索する手法を提案する。 バイオメディカルおよびオープンドメインの2つのデータセットに対して総合的な実験を行い、本手法がバニラPLMや他の既存の文書再ランクタスクのアプローチを大幅に改善することを示した。

Pre-trained language models (PLMs) have proven to be effective for document re-ranking task. However, they lack the ability to fully interpret the semantics of biomedical and health-care queries and often rely on simplistic patterns for retrieving documents. To address this challenge, we propose an approach that integrates knowledge and the PLMs to guide the model toward effectively capturing information from external sources and retrieving the correct documents. We performed comprehensive experiments on two biomedical and open-domain datasets that show that our approach significantly improves vanilla PLMs and other existing approaches for document re-ranking task.
翻訳日:2023-05-09 16:24:18 公開日:2023-05-07
# ニューラルネットワークを用いた一般化極値分布の高速パラメータ推定

Fast parameter estimation of Generalized Extreme Value distribution using Neural Networks ( http://arxiv.org/abs/2305.04341v1 )

ライセンス: Link先を確認
Sweta Rai, Alexis Hoffman, Soumendra Lahiri, Douglas W. Nychka, Stephan R. Sain, Soutir Bandyopadhyay(参考訳) 一般化された極値分布の重い尾の挙動は、洪水、干ばつ、熱波、山火事などの極端な事象をモデル化するための一般的な選択である。 しかし、従来の最大極大手法を用いて分布パラメータを推定することは、中程度のデータセットであっても計算集約的に行うことができる。 この限界を克服するために,ニューラルネットワークを用いた計算効率が高く,確率フリーな推定手法を提案する。 広範にわたるシミュレーション研究により,提案手法は,従来の最大値法に匹敵する精度で一般化極値(GEV)分布パラメータを推定するが,計算速度は大幅に向上することを示した。 推定の不確実性を考慮するために、トレーニングネットワークに固有のパラメトリックブートストラッピングを利用する。 最後に,北アメリカの気候モデルバージョン3 (ccsm3) から得られた1,000年間の年間最高気温データに対して,3つの大気濃度 (289 ppm$\mathrm{co}_2$ (プレ産業条件), 700 ppm$\mathrm{co}_2$ (将来の条件), 1400 ppm$\mathrm{co}_2$) を適用する。

The heavy-tailed behavior of the generalized extreme-value distribution makes it a popular choice for modeling extreme events such as floods, droughts, heatwaves, wildfires, etc. However, estimating the distribution's parameters using conventional maximum likelihood methods can be computationally intensive, even for moderate-sized datasets. To overcome this limitation, we propose a computationally efficient, likelihood-free estimation method utilizing a neural network. Through an extensive simulation study, we demonstrate that the proposed neural network-based method provides Generalized Extreme Value (GEV) distribution parameter estimates with comparable accuracy to the conventional maximum likelihood method but with a significant computational speedup. To account for estimation uncertainty, we utilize parametric bootstrapping, which is inherent in the trained network. Finally, we apply this method to 1000-year annual maximum temperature data from the Community Climate System Model version 3 (CCSM3) across North America for three atmospheric concentrations: 289 ppm $\mathrm{CO}_2$ (pre-industrial), 700 ppm $\mathrm{CO}_2$ (future conditions), and 1400 ppm $\mathrm{CO}_2$, and compare the results with those obtained using the maximum likelihood approach.
翻訳日:2023-05-09 16:24:07 公開日:2023-05-07
# 共変量シフト下での分類木刈り

Classification Tree Pruning Under Covariate Shift ( http://arxiv.org/abs/2305.04335v1 )

ライセンス: Link先を確認
Nicholas Galbraith and Samory Kpotufe(参考訳) 非均質なトレーニングデータと共通する状況において、偏りと分散のバランスをとる適切な部分木を選択するという分類木を \emph{pruning} の問題を考える。 すなわち, 分散$p_{x, y}$ からのほとんどデータへのアクセスを仮定するが, 所望の分散$q_{x, y}$ と異なる$x$-マージナルによるデータが少ない場合には, クロスバリデーションや他のペナルテッド変種が極めて不適切な場合に, 最適な刈り取りを行うための最初の効率的な手順を提案する。 最適性は \emph{average discrepancy} $p_{x} \to q_{x}$(平均で$x$空間)という概念で導出され、この分布シフトの下で分類の限界を厳密に捉えることが示されている。 我々の緩和された概念は、ミンコフスキー次元やレーニ次元のような既存の情報の概念に関係しているため、分布間の \emph{relative dimension} の尺度と見なすことができる。

We consider the problem of \emph{pruning} a classification tree, that is, selecting a suitable subtree that balances bias and variance, in common situations with inhomogeneous training data. Namely, assuming access to mostly data from a distribution $P_{X, Y}$, but little data from a desired distribution $Q_{X, Y}$ with different $X$-marginals, we present the first efficient procedure for optimal pruning in such situations, when cross-validation and other penalized variants are grossly inadequate. Optimality is derived with respect to a notion of \emph{average discrepancy} $P_{X} \to Q_{X}$ (averaged over $X$ space) which significantly relaxes a recent notion -- termed \emph{transfer-exponent} -- shown to tightly capture the limits of classification under such a distribution shift. Our relaxed notion can be viewed as a measure of \emph{relative dimension} between distributions, as it relates to existing notions of information such as the Minkowski and Renyi dimensions.
翻訳日:2023-05-09 16:23:37 公開日:2023-05-07
# マテリアルワールドに生きる: セマンティクスセグメンテーションのためのフルウェーブフォームフラッシュlidarデータからの教材特性の学習

Living in a Material World: Learning Material Properties from Full-Waveform Flash Lidar Data for Semantic Segmentation ( http://arxiv.org/abs/2305.04334v1 )

ライセンス: Link先を確認
Andrej Janda, Pierre Merriaux, Pierre Olivier, Jonathan Kelly(参考訳) ライダー技術の進歩により、3Dポイントクラウドの収集が迅速かつ容易になった。 ほとんどのライダーセンサーは距離測定とともにポイント毎の強度(または反射率)の値を返すが、フラッシュライダーセンサーは帰還パルスの形状に関する情報を提供することができる。 戻り波形の形状は、光パルスが移動する距離や表面への入射角度など、多くの要因に影響される。 重要なことに、戻り波形の形状は反射面の材料特性にも依存する。 本稿では,材料の種類やクラスが全波形応答から決定できるかどうかを検討する。 まず,概念実証として,意味的セグメンテーションなどのシーン理解タスクにおいて,材料クラスに関する余分な情報が正確に分かっている場合,性能を向上できることを実証する。 次に、ランダム森林分類器と時間畳み込みニューラルネットワーク分類器の2つの異なるフルウェーブフォーム材料分類器を学習する。 場合によっては、材料の種類を区別することができ、tcnはより広い範囲の材料で一般的により良く機能する。 しかし、入射角、材料色、材料類似性などの要因は全体的な性能を阻害する可能性がある。

Advances in lidar technology have made the collection of 3D point clouds fast and easy. While most lidar sensors return per-point intensity (or reflectance) values along with range measurements, flash lidar sensors are able to provide information about the shape of the return pulse. The shape of the return waveform is affected by many factors, including the distance that the light pulse travels and the angle of incidence with a surface. Importantly, the shape of the return waveform also depends on the material properties of the reflecting surface. In this paper, we investigate whether the material type or class can be determined from the full-waveform response. First, as a proof of concept, we demonstrate that the extra information about material class, if known accurately, can improve performance on scene understanding tasks such as semantic segmentation. Next, we learn two different full-waveform material classifiers: a random forest classifier and a temporal convolutional neural network (TCN) classifier. We find that, in some cases, material types can be distinguished, and that the TCN generally performs better across a wider range of materials. However, factors such as angle of incidence, material colour, and material similarity may hinder overall performance.
翻訳日:2023-05-09 16:23:11 公開日:2023-05-07
# 高速腫瘍診断のための獣医細胞像の分節化

Segmentation of the veterinary cytological images for fast neoplastic tumors diagnosis ( http://arxiv.org/abs/2305.04332v1 )

ライセンス: Link先を確認
Jakub Grzeszczyk, Micha{\l} Karwatowski, Daria {\L}ukasik, Maciej Wielgosz, Pawe{\l} Russek, Szymon Mazurek, Jakub Caputa, Rafa{\l} Fr\k{a}czek, Anna \'Smiech, Ernest Jamro, Sebastian Koryciak, Agnieszka D\k{a}browska-Boruch, Marcin Pietro\'n, Kazimierz Wiatr(参考訳) 本稿では,獣医学における細胞画像のインスタンス分割を行う機械学習システムについて述べる。 11種類の細胞が直接および間接的に、損傷、未認識のカテゴリーを含む実験で使用された。 このシステムで使用される深層学習モデルは, 選択した3種類の腫瘍に対して, 平均精度とリコール基準, それぞれ0.94と0.8のスコアを得る。 このようなラベルタイプは腫瘍細胞タイプに対する誤りが比較的少ないという有意義な結論を導いた。 さらに、このモデルは腫瘍細胞の特徴を十分に学習し、ある腫瘍の型を別の型に誤分類しないようにした。 実験では、結果の品質がデータセットのサイズ(損傷した細胞を除く)によって改善されることも明らかにした。 すべての実験はvet医師の協力によって提供される独自のデータセットを使用して行われたことに注意が必要だ。

This paper shows the machine learning system which performs instance segmentation of cytological images in veterinary medicine. Eleven cell types were used directly and indirectly in the experiments, including damaged and unrecognized categories. The deep learning models employed in the system achieve a high score of average precision and recall metrics, i.e. 0.94 and 0.8 respectively, for the selected three types of tumors. This variety of label types allowed us to draw a meaningful conclusion that there are relatively few mistakes for tumor cell types. Additionally, the model learned tumor cell features well enough to avoid misclassification mistakes of one tumor type into another. The experiments also revealed that the quality of the results improves with the dataset size (excluding the damaged cells). It is worth noting that all the experiments were done using a custom dedicated dataset provided by the cooperating vet doctors.
翻訳日:2023-05-09 16:22:49 公開日:2023-05-07
# factify-5wqa: 質問応答による5wのアスペクトベースファクト検証

FACTIFY-5WQA: 5W Aspect-based Fact Verification through Question Answering ( http://arxiv.org/abs/2305.04329v1 )

ライセンス: Link先を確認
Anku Rani, S.M Towhidul Islam Tonmoy, Dwip Dalal, Shreya Gautam, Megha Chakraborty, Aman Chadha, Amit Sheth, Amitava Das(参考訳) 自動事実検証は近年大きな注目を集めている。 現代自動ファクトチェックシステムは、人間に解釈できない数値スコアを用いて真理度を推定することに焦点を当てている。 ヒューマン・ファクト・チェッカーは一般に、正当性クレームを検証し、それが真理であるかどうかを判断するためのいくつかの論理的なステップに従う。 人気のあるファクトチェックwebサイトは、半真実、半偽、偽、火のズボンなど、ファクト分類のための共通の構造に従う。 したがって、人間の事実確認者に対して、事実に関連する質問をすることを支援するアスペクトベース(どの部分が真実で、どの部分が偽であるか)で説明可能システムを持つことが必要であり、それを別々に検証して最終評決に達することができる。 本稿では5wフレームワーク(who,what, when, where, and why)を提案する。 その目的のために、私たちはfactify-5wqaと呼ばれる半自動生成データセットを収集しました。 セマンティックロールラベリングシステムを用いて、5Wを探索し、マスク付き言語モデルを用いてクレームのQAペアを生成する。 最後に,これらの回答を証拠文書から自動的に検出するベースラインQAシステムについて報告する。 最後に,言い換えられた主張を自動検証する堅牢な事実検証システムを提案する。 データセットとベースラインモデルはhttps://github.com/ankuranii/acl-5W-QAで公開されている。

Automatic fact verification has received significant attention recently. Contemporary automatic fact-checking systems focus on estimating truthfulness using numerical scores which are not human-interpretable. A human fact-checker generally follows several logical steps to verify a verisimilitude claim and conclude whether it is truthful or a mere masquerade. Popular fact-checking websites follow a common structure for fact categorization such as half true, half false, false, pants on fire, etc. Therefore, it is necessary to have an aspect-based (which part is true and which part is false) explainable system that can assist human fact-checkers in asking relevant questions related to a fact, which can then be validated separately to reach a final verdict. In this paper, we propose a 5W framework (who, what, when, where, and why) for question-answer-based fact explainability. To that end, we have gathered a semi-automatically generated dataset called FACTIFY-5WQA, which consists of 395, 019 facts along with relevant 5W QAs underscoring our major contribution to this paper. A semantic role labeling system has been utilized to locate 5Ws, which generates QA pairs for claims using a masked language model. Finally, we report a baseline QA system to automatically locate those answers from evidence documents, which can be served as the baseline for future research in this field. Lastly, we propose a robust fact verification system that takes paraphrased claims and automatically validates them. The dataset and the baseline model are available at https://github.com/ankuranii/acl-5W-QA.
翻訳日:2023-05-09 16:22:34 公開日:2023-05-07
# カメラ空間3次元ハンドポーズ推定のためのニューラル投票場

Neural Voting Field for Camera-Space 3D Hand Pose Estimation ( http://arxiv.org/abs/2305.04328v1 )

ライセンス: Link先を確認
Lin Huang, Chung-Ching Lin, Kevin Lin, Lin Liang, Lijuan Wang, Junsong Yuan, Zicheng Liu(参考訳) 3次元暗黙表現に基づく単一のrgb画像からカメラ空間3次元手ポーズ推定のための統一フレームワークを提案する。 まず, 全体的, ピクセルレベルでの重回帰を用いて相対的な3dハンドポーズを取得し, かつ, 複雑な第2ステージ操作により3dグローバルルートやスケールリカバリを行う最近の研究とは対照的に, カメラフラスタムにおける高密度3dポイントワイズ投票によるカメラ空間3dハンドポーズ推定のための新しい統一3d重回帰スキームを提案する。 3D領域の直接密なモデリングを、Pixel-aligned Implicit関数にインスパイアされた3Dの詳細な再構築を通じて、我々の提案したNeural Voting Field(NVF)は、3Dの局所的な証拠と手動のグローバルな幾何学をモデル化し、一般的な2Dから3Dの曖昧さを軽減する。 具体的には、カメラフラストラムの3Dクエリポイントとそのピクセル整列画像の特徴であるNVFは、多重層パーセプトロンで表される。 (i)手表面への符号付き距離 (ii)一連の4次元オフセットベクトル(各ハンドジョイントに対する1次元投票重量と3次元方向ベクトル)。 投票方式の後、近面点からの4Dオフセットベクトルを選択し、重み付き平均で3Dハンドジョイント座標を算出する。 実験により、NVFはカメラ空間の3Dハンドポーズ推定のためのFreiHANDデータセット上の既存の最先端アルゴリズムより優れていることが示された。 我々はまた、NVFをルート相対的な3D手ポーズ推定の古典的なタスクに適用し、HO3Dデータセットの最先端結果を得る。

We present a unified framework for camera-space 3D hand pose estimation from a single RGB image based on 3D implicit representation. As opposed to recent works, most of which first adopt holistic or pixel-level dense regression to obtain relative 3D hand pose and then follow with complex second-stage operations for 3D global root or scale recovery, we propose a novel unified 3D dense regression scheme to estimate camera-space 3D hand pose via dense 3D point-wise voting in camera frustum. Through direct dense modeling in 3D domain inspired by Pixel-aligned Implicit Functions for 3D detailed reconstruction, our proposed Neural Voting Field (NVF) fully models 3D dense local evidence and hand global geometry, helping to alleviate common 2D-to-3D ambiguities. Specifically, for a 3D query point in camera frustum and its pixel-aligned image feature, NVF, represented by a Multi-Layer Perceptron, regresses: (i) its signed distance to the hand surface; (ii) a set of 4D offset vectors (1D voting weight and 3D directional vector to each hand joint). Following a vote-casting scheme, 4D offset vectors from near-surface points are selected to calculate the 3D hand joint coordinates by a weighted average. Experiments demonstrate that NVF outperforms existing state-of-the-art algorithms on FreiHAND dataset for camera-space 3D hand pose estimation. We also adapt NVF to the classic task of root-relative 3D hand pose estimation, for which NVF also obtains state-of-the-art results on HO3D dataset.
翻訳日:2023-05-09 16:22:04 公開日:2023-05-07
# マルチチャネル脳波信号における患者間発作検出のための軽量畳み込みトランスフォーマ

Lightweight Convolution Transformer for Cross-patient Seizure Detection in Multi-channel EEG Signals ( http://arxiv.org/abs/2305.04325v1 )

ライセンス: Link先を確認
Salim Rukhsar and Anil K. Tiwari(参考訳) 背景:てんかんは脳に影響を及ぼす神経疾患で、頻繁で自発的な発作を経験しやすい。 てんかんに対する薬理学的治療の有効性を評価するためには, 発作頻度と重症度を正確に測定する方法が必要である。 薬物量はしばしば患者の報告から導き出され、発作とその頻度の不十分または不正確な説明によって重大な問題を引き起こす可能性がある。 方法と材料:本研究では,新しい深層学習アーキテクチャに基づく軽量畳み込みトランス (LCT) を提案する。 トランスは、マルチチャネル脳波(eeg)信号から同時に空間的および時間的相関情報を学習し、より小さなセグメント長で発作を検出することができる。 提案モデルでは,畳み込みトークン化を用いてvitの翻訳等価性と局在性の欠如を低減し,学習可能なクラストークンの代わりにシーケンスプーリングによってトランスフォーマエンコーダからの豊富な情報を抽出する。 結果: 広範な実験結果から, 患者間学習のモデルが脳波信号からの発作を効果的に検出できることが判明した。 CHB-MITデータセットの患者横断症例における発作検出の精度とF1スコアはそれぞれ0.5秒間隔で96.31%と96.32%である。 さらに, モデルにインダクティブバイアスと注意に基づくプーリングが組み込まれることで, 性能が向上し, トランスコーダ層数が減少し, 計算複雑性が著しく低下することを示した。 本研究では,マルチチャネル自動発作検出アーキテクチャの効率化と簡易化を目的とした新しい手法を提案する。

Background: Epilepsy is a neurological illness affecting the brain that makes people more likely to experience frequent, spontaneous seizures. There has to be an accurate automated method for measuring seizure frequency and severity in order to assess the efficacy of pharmacological therapy for epilepsy. The drug quantities are often derived from patient reports which may cause significant issues owing to inadequate or inaccurate descriptions of seizures and their frequencies. Methods and materials: This study proposes a novel deep learning architecture based lightweight convolution transformer (LCT). The transformer is able to learn spatial and temporal correlated information simultaneously from the multi-channel electroencephalogram (EEG) signal to detect seizures at smaller segment lengths. In the proposed model, the lack of translation equivariance and localization of ViT is reduced using convolution tokenization, and rich information from the transformer encoder is extracted by sequence pooling instead of the learnable class token. Results: Extensive experimental results demonstrate that the proposed model of cross-patient learning can effectively detect seizures from the raw EEG signals. The accuracy and F1-score of seizure detection in the cross-patient case on the CHB-MIT dataset are shown to be 96.31% and 96.32%, respectively, at 0.5 sec segment length. In addition, the performance metrics show that the inclusion of inductive biases and attention-based pooling in the model enhances the performance and reduces the number of transformer encoder layers, which significantly reduces the computational complexity. In this research work, we provided a novel approach to enhance efficiency and simplify the architecture for multi-channel automated seizure detection.
翻訳日:2023-05-09 16:21:34 公開日:2023-05-07
# 対関係から局所構造を推定する

Inferring Local Structure from Pairwise Correlations ( http://arxiv.org/abs/2305.04386v1 )

ライセンス: Link先を確認
Mahajabin Rahman and Ilya Nemenman(参考訳) 生物学のような大規模多変量複素システムのモデルを構築するには、どの変数が相互作用できるかを制約する必要がある。 これは変数の ``local'' 構造を検出すると見ることもできる。 2次元の自然画像と合成画像の単純な玩具モデルでは、重くアンサンプされた場合でも、変数間のペアの相関が、データの次元を含む局所的な関係を回復し、完全にスクランブルされた画像の画素配置を再構築するのに十分な情報を提供する。 これは、データに上位の相互作用構造が存在するにもかかわらず、成功することを証明します。 私たちは、複雑な多変量システムのモデリングに寄与し、現代の注意に基づく機械学習アプローチの成功を説明することを望んでいる。

To construct models of large, multivariate complex systems, such as those in biology, one needs to constrain which variables are allowed to interact. This can be viewed as detecting ``local'' structures among the variables. In the context of a simple toy model of 2D natural and synthetic images, we show that pairwise correlations between the variables -- even when severely undersampled -- provide enough information to recover local relations, including the dimensionality of the data, and to reconstruct arrangement of pixels in fully scrambled images. This proves to be successful even though higher order interaction structures are present in our data. We build intuition behind the success, which we hope might contribute to modeling complex, multivariate systems and to explaining the success of modern attention-based machine learning approaches.
翻訳日:2023-05-09 16:14:09 公開日:2023-05-07
# 不均衡ラベルサンプル分布を用いたファッション検出のためのデータ効率向上

Data Efficient Training with Imbalanced Label Sample Distribution for Fashion Detection ( http://arxiv.org/abs/2305.04379v1 )

ライセンス: Link先を確認
Xin Shen, Praful Agrawal, Zhongwei Cheng(参考訳) マルチラベル分類モデルは、視覚に基づくラベル予測や言語に基づく感情分類など、Eコマースに幅広い応用がある。 実世界でこれらのタスクの満足なパフォーマンスを達成する上での大きな課題は、データ分散の顕著な不均衡である。 例えば、ファッション属性検出では、ほとんどのeコマースファッションカタログにおいて、1000製品中「パフスリーブ」の服は6つしかない。 この問題に対処するために、大量のアノテーションを取得して十分なサンプルを集めるのではなく、よりデータ効率のよいモデルトレーニング手法を検討する。 本稿では,長いデータ分布を持つ多ラベル分類のためのディープニューラルネットワーク(DNN)の性能向上を目的とした,最先端の重み付き目的関数を提案する。 本実験では,ファッションアパレルの画像に基づく属性分類を行い,非重み付けおよび逆周波数重み付け機構と比較して,新しい重み付け法に好適な性能を示す。 ファッション業界で人気のファッション属性タイプであるスリーブタイプとアーチタイプを用いた新しい重み付け機構の堅牢性をさらに評価した。

Multi-label classification models have a wide range of applications in E-commerce, including visual-based label predictions and language-based sentiment classifications. A major challenge in achieving satisfactory performance for these tasks in the real world is the notable imbalance in data distribution. For instance, in fashion attribute detection, there may be only six 'puff sleeve' clothes among 1000 products in most E-commerce fashion catalogs. To address this issue, we explore more data-efficient model training techniques rather than acquiring a huge amount of annotations to collect sufficient samples, which is neither economic nor scalable. In this paper, we propose a state-of-the-art weighted objective function to boost the performance of deep neural networks (DNNs) for multi-label classification with long-tailed data distribution. Our experiments involve image-based attribute classification of fashion apparels, and the results demonstrate favorable performance for the new weighting method compared to non-weighted and inverse-frequency-based weighting mechanisms. We further evaluate the robustness of the new weighting mechanism using two popular fashion attribute types in today's fashion industry: sleevetype and archetype.
翻訳日:2023-05-09 16:13:56 公開日:2023-05-07
# 時空間連続HDR室内照明推定

Spatiotemporally Consistent HDR Indoor Lighting Estimation ( http://arxiv.org/abs/2305.04374v1 )

ライセンス: Link先を確認
Zhengqin Li, Li Yu, Mikhail Okunev, Manmohan Chandraker, Zhao Dong(参考訳) 本稿では,屋内照明推定問題に対する一般バージョンの解法として,身体的動機づけによる深層学習フレームワークを提案する。 深度マップを用いた1枚のLDR画像から,任意の画像位置における空間的に一貫した照明を予測できる。 特に、入力がLDRビデオシーケンスである場合、我々のフレームワークは、より多くの領域を見ることによって照明予測を徐々に洗練するだけでなく、改善を円滑に保ちながら時間的一貫性を保つ。 本研究では,3次元エンコーダデコーダを用いて球状ガウス照明量(SGLV)を再構成し,空間的に一貫した照明予測を可能にするとともに,詳細な環境マップのハイブリッドブレンディングネットワーク,仮想オブジェクト挿入のための光リアリズムを向上するネットワーク内モンテカルロレンダリング層,入力としてビデオシーケンスと時間的に一貫した照明予測を実現するリカレントニューラルネットワーク(RNN)を提案する。 トレーニングでは、より高解像度の360K HDR環境マップと、GPUベースのパストレースでレンダリングされた38Kビデオシーケンスを用いて、フォトリアリスティックな室内シーンのOpenRooms公開データセットを著しく強化する。 実験により,最先端の単一画像や映像ベースの手法と比較して,高品質な照明予測を実現し,オブジェクト挿入などのフォトリアリスティックarアプリケーションを実現することを実証した。

We propose a physically-motivated deep learning framework to solve a general version of the challenging indoor lighting estimation problem. Given a single LDR image with a depth map, our method predicts spatially consistent lighting at any given image position. Particularly, when the input is an LDR video sequence, our framework not only progressively refines the lighting prediction as it sees more regions, but also preserves temporal consistency by keeping the refinement smooth. Our framework reconstructs a spherical Gaussian lighting volume (SGLV) through a tailored 3D encoder-decoder, which enables spatially consistent lighting prediction through volume ray tracing, a hybrid blending network for detailed environment maps, an in-network Monte-Carlo rendering layer to enhance photorealism for virtual object insertion, and recurrent neural networks (RNN) to achieve temporally consistent lighting prediction with a video sequence as the input. For training, we significantly enhance the OpenRooms public dataset of photorealistic synthetic indoor scenes with around 360K HDR environment maps of much higher resolution and 38K video sequences, rendered with GPU-based path tracing. Experiments show that our framework achieves lighting prediction with higher quality compared to state-of-the-art single-image or video-based methods, leading to photorealistic AR applications such as object insertion.
翻訳日:2023-05-09 16:13:38 公開日:2023-05-07
# ラテンCy:ラテンNLPのための合成訓練パイプライン

LatinCy: Synthetic Trained Pipelines for Latin NLP ( http://arxiv.org/abs/2305.04365v1 )

ライセンス: Link先を確認
Patrick J. Burns (Institute for the Study of the Ancient World/New York University)(参考訳) 本稿では、spurCy自然言語処理フレームワークで使用するための、トレーニング済み汎用ラテン言語"コア"パイプラインであるLatinCyを紹介する。 モデルは大量のラテンデータに基づいてトレーニングされ、ラテンの普遍依存ツリーバンクの5つすべてを含む、互いに互換性を持つように事前処理されている。 その結果は、多くの自然言語処理タスクにおいて優れたパフォーマンスを持つラテン語の一般的なモデルのセットである(例えば、トップパフォーマンスモデルはPOSタグ、97.41%の精度、補綴、94.66%の精度、形態的タグ、92.76%の精度)。 本論文では,学習データとパラメータ化を含むモデルトレーニングについて述べるとともに,NLP作業に使用可能なpaCyモデルを持つことの利点をラテン語研究者に提示する。

This paper introduces LatinCy, a set of trained general purpose Latin-language "core" pipelines for use with the spaCy natural language processing framework. The models are trained on a large amount of available Latin data, including all five of the Latin Universal Dependency treebanks, which have been preprocessed to be compatible with each other. The result is a set of general models for Latin with good performance on a number of natural language processing tasks (e.g. the top-performing model yields POS tagging, 97.41% accuracy; lemmatization, 94.66% accuracy; morphological tagging 92.76% accuracy). The paper describes the model training, including its training data and parameterization, and presents the advantages to Latin-language researchers of having a spaCy model available for NLP work.
翻訳日:2023-05-09 16:13:11 公開日:2023-05-07
# 予測クラスタリングと最適化のための一般化フレームワーク

A Generalized Framework for Predictive Clustering and Optimization ( http://arxiv.org/abs/2305.04364v1 )

ライセンス: Link先を確認
Aravinth Chembu, Scott Sanner(参考訳) クラスタリングは強力で広く使われているデータサイエンスツールです。 クラスタリングは一般に教師なし学習技術と考えられているが、Spathのクラスタワイズレグレッションのような教師なしのバリエーションもあり、教師付きターゲット上で低い回帰誤差をもたらすデータのクラスタを見つけようとする。 クラスタワイズ回帰は、教師付きクラスタリングモデルのほとんど探索されていない設計空間の単一の頂点に過ぎないと我々は信じている。 本稿では,クラスタ定義(任意点割り当て,最接近点,バウンディングボックス)と回帰的および分類的目的の両方を許容する,予測的クラスタリングのための一般化最適化フレームワークを定義する。 次に、この一般化フレームワークにおける大域的最適化のために混合整数線形計画(milp)を利用する共同最適化戦略を提案する。 大規模データセットのスケーラビリティに関する懸念を軽減するため,Majorization-Minimization (MM)フレームワークにヒントを得た,高度にスケーラブルなグレディアルゴリズムも提供する。 最後に,4つの実世界のデータセットを実験することにより,データ中の異なる解釈可能な離散クラスタ構造を明らかにするモデルの有効性を実証する。

Clustering is a powerful and extensively used data science tool. While clustering is generally thought of as an unsupervised learning technique, there are also supervised variations such as Spath's clusterwise regression that attempt to find clusters of data that yield low regression error on a supervised target. We believe that clusterwise regression is just a single vertex of a largely unexplored design space of supervised clustering models. In this article, we define a generalized optimization framework for predictive clustering that admits different cluster definitions (arbitrary point assignment, closest center, and bounding box) and both regression and classification objectives. We then present a joint optimization strategy that exploits mixed-integer linear programming (MILP) for global optimization in this generalized framework. To alleviate scalability concerns for large datasets, we also provide highly scalable greedy algorithms inspired by the Majorization-Minimization (MM) framework. Finally, we demonstrate the ability of our models to uncover different interpretable discrete cluster structures in data by experimenting with four real-world datasets.
翻訳日:2023-05-09 16:12:55 公開日:2023-05-07
# モンテカルロ強化学習におけるトランシング軌道

Truncating Trajectories in Monte Carlo Reinforcement Learning ( http://arxiv.org/abs/2305.04361v1 )

ライセンス: Link先を確認
Riccardo Poiani, Alberto Maria Metelli, Marcello Restelli(参考訳) 強化学習(Reinforcement Learning, RL)では、エージェントが未知の環境で動作し、期待される外部報酬信号の累積割引和、すなわち期待されるリターンを最大化する。 実際には、政策最適化のような多くのタスクにおいて、エージェントは通常、シミュレータ内で一定の長さのエピソード(モンテカルロシミュレーション)を収集することで相互作用予算を使う。 しかし、RL目標の割引の性質を考えると、このデータ収集戦略は最良の選択肢ではないかもしれない。 実際、初期のシミュレーションで得られる報酬は、将来の報酬よりも指数関数的に重い。 この直観からヒントを得た本論文では,a-prioriの予算配分戦略をデザインし,異なる長さの軌道,すなわち断続的な軌道の集合を導く。 提案手法は、予測された政策の回帰に関する経験的推定値の周りの信頼区間の幅を最小化する。 本手法の理論的特性について考察した後,本手法は,重要サンプリング(pois,metelli et al., 2018)アルゴリズムによるポリシー最適化を拡張するために,軌道切断機構を利用する。 最後に,我々のアルゴリズムとpoisを数値的に比較する:結果は我々の理論と一致し,軌道の適切な切り出しが性能向上に成功することを示す。

In Reinforcement Learning (RL), an agent acts in an unknown environment to maximize the expected cumulative discounted sum of an external reward signal, i.e., the expected return. In practice, in many tasks of interest, such as policy optimization, the agent usually spends its interaction budget by collecting episodes of fixed length within a simulator (i.e., Monte Carlo simulation). However, given the discounted nature of the RL objective, this data collection strategy might not be the best option. Indeed, the rewards taken in early simulation steps weigh exponentially more than future rewards. Taking a cue from this intuition, in this paper, we design an a-priori budget allocation strategy that leads to the collection of trajectories of different lengths, i.e., truncated. The proposed approach provably minimizes the width of the confidence intervals around the empirical estimates of the expected return of a policy. After discussing the theoretical properties of our method, we make use of our trajectory truncation mechanism to extend Policy Optimization via Importance Sampling (POIS, Metelli et al., 2018) algorithm. Finally, we conduct a numerical comparison between our algorithm and POIS: the results are consistent with our theory and show that an appropriate truncation of the trajectories can succeed in improving performance.
翻訳日:2023-05-09 16:12:37 公開日:2023-05-07
# グラフベースのANNSアルゴリズムを数十億規模のデータセットにスケールする:比較分析

Scaling Graph-Based ANNS Algorithms to Billion-Size Datasets: A Comparative Analysis ( http://arxiv.org/abs/2305.04359v1 )

ライセンス: Link先を確認
Magdalen Dobson, Zheqi Shen, Guy E. Blelloch, Laxman Dhulipala, Yan Gu, Harsha Vardhan Simhadri, Yihan Sun(参考訳) ほぼ近接探索(ANNS)のためのアルゴリズムは、最近研究コミュニティにおいて重要な関心を集めている。 しかし、そのようなアルゴリズムの評価は通常、数百万から数千万のポイントを持つ少数のデータセットに限定されるが、現実世界のアプリケーションは数十億ポイントのスケールで動作するアルゴリズムを必要とする。 さらに、ANNSアルゴリズムの既存の評価は、通常、所定の精度でクエリ毎秒(QPS)の測定と最適化に重点を置いている。 本稿では,10億規模のデータセットへの拡張性に再焦点をあてた anns アルゴリズムの評価手法を提案する。 これらの測定には、効率的な並列化、ビルド時間、データセットサイズの増加に伴う関係のスケーリングなどが含まれる。 また,クエリ毎の距離計算数などのマシン非依存の尺度でQPS尺度を拡張し,レンジクエリの評価やアウト・オブ・ディストリビューションデータの実行など,最新のアプリケーションで要求されるより要求の高い設定において,ANNSデータ構造を精度良く評価する。 数十億のスケール設定のために4つのグラフベースのアルゴリズムを最適化し、その過程で、インクリメンタルなANNSグラフアルゴリズムをロックフリーにするための一般的なフレームワークを提供する。 我々は、前述のグラフベースのANNSアルゴリズムと2つの代替アプローチを評価するためにフレームワークを使用します。

Algorithms for approximate nearest-neighbor search (ANNS) have been the topic of significant recent interest in the research community. However, evaluations of such algorithms are usually restricted to a small number of datasets with millions or tens of millions of points, whereas real-world applications require algorithms that work on the scale of billions of points. Furthermore, existing evaluations of ANNS algorithms are typically heavily focused on measuring and optimizing for queries-per second (QPS) at a given accuracy, which can be hardware-dependent and ignores important metrics such as build time. In this paper, we propose a set of principled measures for evaluating ANNS algorithms which refocuses on their scalability to billion-size datasets. These measures include ability to be efficiently parallelized, build times, and scaling relationships as dataset size increases. We also expand on the QPS measure with machine-agnostic measures such as the number of distance computations per query, and we evaluate ANNS data structures on their accuracy in more demanding settings required in modern applications, such as evaluating range queries and running on out-of-distribution data. We optimize four graph-based algorithms for the billion-scale setting, and in the process provide a general framework for making many incremental ANNS graph algorithms lock-free. We use our framework to evaluate the aforementioned graph-based ANNS algorithms as well as two alternative approaches.
翻訳日:2023-05-09 16:12:15 公開日:2023-05-07
# 因果抽象学習における一貫性と情報損失の定量化

Quantifying Consistency and Information Loss for Causal Abstraction Learning ( http://arxiv.org/abs/2305.04357v1 )

ライセンス: Link先を確認
Fabio Massimo Zennaro, Paolo Turrini, Theodoros Damoulas(参考訳) 構造因果モデルは、興味のある変数間の因果関係を表現するフォーマリズムを提供する。 モデルと変数は異なる抽象レベルでシステムを表現することができ、モデルラーのニーズに応じて関係を粗くして洗練することができる。 しかし、異なる抽象化レベル間の切り替えには、一貫性と異なるモデル間の情報損失の間のトレードオフを評価する必要がある。 本稿では,エージェントがそのようなトレードオフを評価するために使用できる介入措置のファミリーを紹介する。 我々は,異なるタスクに適した4つの尺度を考察し,その特性を分析し,因果的抽象化を評価するアルゴリズムを提案する。 最後に,さまざまな指標やアルゴリズムの選択が抽象化にどのようにつながるのかを実証的に示すことで,セットアップの柔軟性を示す。

Structural causal models provide a formalism to express causal relations between variables of interest. Models and variables can represent a system at different levels of abstraction, whereby relations may be coarsened and refined according to the need of a modeller. However, switching between different levels of abstraction requires evaluating a trade-off between the consistency and the information loss among different models. In this paper we introduce a family of interventional measures that an agent may use to evaluate such a trade-off. We consider four measures suited for different tasks, analyze their properties, and propose algorithms to evaluate and learn causal abstractions. Finally, we illustrate the flexibility of our setup by empirically showing how different measures and algorithmic choices may lead to different abstractions.
翻訳日:2023-05-09 16:11:51 公開日:2023-05-07
# Stanford MLab at SemEval-2023 Task 10: Exploring GloVe- and Transformer-based Methods for Explainable Detection of Online Sexism

Stanford MLab at SemEval-2023 Task 10: Exploring GloVe- and Transformer-Based Methods for the Explainable Detection of Online Sexism ( http://arxiv.org/abs/2305.04356v1 )

ライセンス: Link先を確認
Hee Jung Choi, Trevor Chow, Aaron Wan, Hong Meng Yam, Swetha Yogeswaran, Beining Zhou(参考訳) 本稿では,SemEval-2023 Task 10: Towards the Explainable Detection of Online Sexismについて述べる。 入力テキストが与えられた場合、テキストがセクシストであるかどうかを予測し、セクシストテキストをサブカテゴリに分類する3つの分類タスクを実行し、なぜセクシストなのかを解説する。 ベースラインアプローチとしてGloVe埋め込み、BERT、RoBERTa、DeBERTaといったトランスフォーマーベースのディープラーニングモデル、アンサンブルモデル、モデルブレンディングなど、さまざまなタイプのモデルを探索した。 モデル性能を改善するため,様々なデータクリーニングと拡張手法を検討した。 プリトレーニングトランスモデルは性能が大幅に向上し、アンサンブルとブレンドによりf1スコアのロバスト性がわずかに向上した。

In this paper, we discuss the methods we applied at SemEval-2023 Task 10: Towards the Explainable Detection of Online Sexism. Given an input text, we perform three classification tasks to predict whether the text is sexist and classify the sexist text into subcategories in order to provide an additional explanation as to why the text is sexist. We explored many different types of models, including GloVe embeddings as the baseline approach, transformer-based deep learning models like BERT, RoBERTa, and DeBERTa, ensemble models, and model blending. We explored various data cleaning and augmentation methods to improve model performance. Pre-training transformer models yielded significant improvements in performance, and ensembles and blending slightly improved robustness in the F1 score.
翻訳日:2023-05-09 16:11:39 公開日:2023-05-07
# クリロフ複雑性のバルク表現

A bulk manifestation of Krylov complexity ( http://arxiv.org/abs/2305.04355v1 )

ライセンス: Link先を確認
E. Rabinovici, A. S\'anchez-Garrido, R. Shir and J. Sonner(参考訳) 量子場理論における複雑性の概念には、有限量子系と同様に様々な定義がある。 いくつかは、予想されるホログラフィックバルク双対が存在する。 本稿では,ads/cft辞書にkrylovやk-complexityという,そのような複雑性のクラスを記載する。 この目的のために、AdS$_2$の重力理論であるJT重力に対するある種の極限で双対である二重スケールSYKモデルで作業する。 特に境界上の状態はバルクにおいて明確な幾何学的定義を持つ。 この結果から,AdS$_2$境界における常温熱電場二重状態のクリロフ複雑性が,JT重力,すなわち両側のワームホールの長さにおいて正確なバルク記述を持つことを示す。 我々は、クリロフ複雑性作用素の固有状態であるクリロフ基底元が、バルク・ヒルベルト空間を同定するバルク・バウンダリー写像にk-複素性を適用することにより、バルク理論における長固有状態に写像されることを示した。 この結果はコードダイアグラムの手法を広く利用し、バルク重力ヒルベルト空間を構成する固定コード数状態を持つ境界量子系のクリロフ基底を同定する。

There are various definitions of the concept of complexity in Quantum Field Theory as well as for finite quantum systems. For several of them there are conjectured holographic bulk duals. In this work we establish an entry in the AdS/CFT dictionary for one such class of complexity, namely Krylov or K-complexity. For this purpose we work in the double-scaled SYK model which is dual in a certain limit to JT gravity, a theory of gravity in AdS$_2$. In particular, states on the boundary have a clear geometrical definition in the bulk. We use this result to show that Krylov complexity of the infinite-temperature thermofield double state on the boundary of AdS$_2$ has a precise bulk description in JT gravity, namely the length of the two-sided wormhole. We do this by showing that the Krylov basis elements, which are eigenstates of the Krylov complexity operator, are mapped to length eigenstates in the bulk theory by subjecting K-complexity to the bulk-boundary map identifying the bulk/boundary Hilbert spaces. Our result makes extensive use of chord diagram techniques and identifies the Krylov basis of the boundary quantum system with fixed chord number states building the bulk gravitational Hilbert space.
翻訳日:2023-05-09 16:11:21 公開日:2023-05-07
# 遠絡多要素深ベイズ能動学習

Disentangled Multi-Fidelity Deep Bayesian Active Learning ( http://arxiv.org/abs/2305.04392v1 )

ライセンス: Link先を確認
Dongxia Wu, Ruijia Niu, Matteo Chinazzi, Yian Ma, Rose Yu(参考訳) 品質とコストのバランスをとるため、様々な領域の科学と工学が様々なレベルの洗練度でシミュレーションを実行する。 複数の忠実度レベルからデータを積極的に取得することで、入力パラメータからシミュレーション出力への直接マッピングを学習することを目的としている。 しかし、ガウス過程に基づく既存のアプローチは高次元データに対してはほとんどスケーラブルではない。 他のディープラーニングベースの手法では階層構造を使用し、低忠実度から高忠実度への情報伝達のみをサポートする。 このアプローチは、低忠実度表現から高忠実表現へのエラーの望ましくない伝播にもつながる。 本稿では,多元数における関数の分布を前提とした代理モデルを学ぶための,多元性アクティブラーニングのための新しい不連続深ベイズ学習フレームワークを提案する。

To balance quality and cost, various domain areas of science and engineering run simulations at multiple levels of sophistication. Multi-fidelity active learning aims to learn a direct mapping from input parameters to simulation outputs by actively acquiring data from multiple fidelity levels. However, existing approaches based on Gaussian processes are hardly scalable to high-dimensional data. Other deep learning-based methods use the hierarchical structure, which only supports passing information from low-fidelity to high-fidelity. This approach also leads to the undesirable propagation of errors from low-fidelity representations to high-fidelity ones. We propose a novel disentangled deep Bayesian learning framework for multi-fidelity active learning, that learns the surrogate models conditioned on the distribution of functions at multiple fidelities.
翻訳日:2023-05-09 16:03:10 公開日:2023-05-07
# 拡散モデルを用いた逆問題に対する変分的考察

A Variational Perspective on Solving Inverse Problems with Diffusion Models ( http://arxiv.org/abs/2305.04391v1 )

ライセンス: Link先を確認
Morteza Mardani, Jiaming Song, Jan Kautz, Arash Vahdat(参考訳) 拡散モデルは、視覚領域の基礎モデルの主要な柱として現れてきた。 彼らの重要な応用の1つは、各タスクを再訓練することなく単一の拡散によって異なる下流の逆タスクを普遍的に解くことである。 ほとんどの逆タスクは、測定値(マスク付き画像など)が与えられたデータ(フルイメージなど)の後方分布を推測するものとして定式化することができる。 しかし、拡散過程の非線形かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。 この課題に対処するために,設計により真の後方分布を近似しようとする変分的アプローチを提案する。 異なる時間ステップでデノワザが同時に画像に異なる構造的制約を課す拡散過程(red-diff)をデノライゼーションすることで、我々のアプローチは自然に正則化をもたらすことが示されている。 そこで本研究では,信号対雑音比(SNR)に基づく重み付け機構を提案する。 提案手法は,拡散モデルを用いた逆問題に対する新しい変分的視点を提供することにより,標本化を確率的最適化として定式化することができる。 インペインティングや超解像などの画像復元課題に対する実験は,最先端サンプリングに基づく拡散モデルと比較して,提案手法の強みを実証する。

Diffusion models have emerged as a key pillar of foundation models in visual domains. One of their critical applications is to universally solve different downstream inverse tasks via a single diffusion prior without re-training for each task. Most inverse tasks can be formulated as inferring a posterior distribution over data (e.g., a full image) given a measurement (e.g., a masked image). This is however challenging in diffusion models since the nonlinear and iterative nature of the diffusion process renders the posterior intractable. To cope with this challenge, we propose a variational approach that by design seeks to approximate the true posterior distribution. We show that our approach naturally leads to regularization by denoising diffusion process (RED-Diff) where denoisers at different timesteps concurrently impose different structural constraints over the image. To gauge the contribution of denoisers from different timesteps, we propose a weighting mechanism based on signal-to-noise-ratio (SNR). Our approach provides a new variational perspective for solving inverse problems with diffusion models, allowing us to formulate sampling as stochastic optimization, where one can simply apply off-the-shelf solvers with lightweight iterates. Our experiments for image restoration tasks such as inpainting and superresolution demonstrate the strengths of our method compared with state-of-the-art sampling-based diffusion models.
翻訳日:2023-05-09 16:02:57 公開日:2023-05-07
# 言語モデルは、いつも何を考えているのかを言わない: チェーン・オブ・サート・プロンプティングにおける不誠実な説明

Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting ( http://arxiv.org/abs/2305.04388v1 )

ライセンス: Link先を確認
Miles Turpin, Julian Michael, Ethan Perez, Samuel R. Bowman(参考訳) 大規模言語モデル(LLM)は、最終的な出力を与える前にステップバイステップの推論を生成することで、多くのタスクにおいて強力なパフォーマンスを達成することができる。 これらの CoT の説明を LLM のタスク解決プロセスとして解釈する傾向があります。 しかし、CoTの説明はモデルが予測する真の理由を体系的に誤って表すことができる。 モデル入力にバイアス機能を加えることで,cotの説明に大きな影響があることを実証する - 例えば,数秒のプロンプトで複数の選択肢を並べ替えて,常に"(a)" – モデルが説明の中で体系的に言及できないようにすることで。 間違った回答に向かってモデルをバイアスすると、その答えをサポートするCoT説明が頻繁に生成される。 これにより、OpenAIの GPT-3.5 と Anthropic の Claude 1.0 でテストすると、BIG-Bench Hard の 13 タスクスイートで最大 36% の精度が低下する。 社会的バイアスのタスクでは、モデル説明は、これらの社会的バイアスの影響を言及せずに、ステレオタイプに則った回答を正当化する。 以上の結果から,cotの説明は誤解を招く可能性があり,安全性を保証せずにllmへの信頼が高まるリスクがあることが示唆された。 CoTは説明責任を約束しますが、私たちの結果は、説明の忠実さを評価し改善するための目標とする努力の必要性を強調します。

Large Language Models (LLMs) can achieve strong performance on many tasks by producing step-by-step reasoning before giving a final output, often referred to as chain-of-thought reasoning (CoT). It is tempting to interpret these CoT explanations as the LLM's process for solving a task. However, we find that CoT explanations can systematically misrepresent the true reason for a model's prediction. We demonstrate that CoT explanations can be heavily influenced by adding biasing features to model inputs -- e.g., by reordering the multiple-choice options in a few-shot prompt to make the answer always "(A)" -- which models systematically fail to mention in their explanations. When we bias models toward incorrect answers, they frequently generate CoT explanations supporting those answers. This causes accuracy to drop by as much as 36% on a suite of 13 tasks from BIG-Bench Hard, when testing with GPT-3.5 from OpenAI and Claude 1.0 from Anthropic. On a social-bias task, model explanations justify giving answers in line with stereotypes without mentioning the influence of these social biases. Our findings indicate that CoT explanations can be plausible yet misleading, which risks increasing our trust in LLMs without guaranteeing their safety. CoT is promising for explainability, but our results highlight the need for targeted efforts to evaluate and improve explanation faithfulness.
翻訳日:2023-05-09 16:02:35 公開日:2023-05-07
# 変形可能な変圧器を用いた端端端端の半監督テーブル検出に向けて

Towards End-to-End Semi-Supervised Table Detection with Deformable Transformer ( http://arxiv.org/abs/2305.02769v2 )

ライセンス: Link先を確認
Tahira Shehzadi, Khurram Azeem Hashmi, Didier Stricker, Marcus Liwicki and Muhammad Zeshan Afzal(参考訳) テーブル検出は、ドキュメントイメージ内のテーブルオブジェクトを分類し、ローカライズするタスクである。 近年の深層学習手法の発展に伴い,テーブル検出の著しい成功が観察されている。 しかし、これらのモデルを効果的に訓練するには、かなりの量のラベル付きデータが必要である。 多くの半教師付きアプローチが、大量のラベルデータの必要性を軽減するために導入されている。 これらのアプローチでは、アンカー提案やNMSのような後処理段階に依存するCNNベースの検出器を使用する。 そこで本稿では, テーブルオブジェクトの検出に変形可能な変換器を用いた, エンドツーエンドの半教師付きテーブル検出手法を提案する。 我々はPubLayNet,DocBank,ICADR-19,TableBankの半教師付き手法を評価し,従来の手法と比較して優れた性能を実現する。 これは、TableBank-bothデータセットの10\%ラベルで+3.4ポイント、PubLayNetデータセットの10\%ラベルで+1.8ポイントで、完全に教師された方法(Deformable transformer)よりも優れている。 この研究が、半教師なしおよび教師なしのテーブル検出方法への新たな可能性を開くことを願っている。

Table detection is the task of classifying and localizing table objects within document images. With the recent development in deep learning methods, we observe remarkable success in table detection. However, a significant amount of labeled data is required to train these models effectively. Many semi-supervised approaches are introduced to mitigate the need for a substantial amount of label data. These approaches use CNN-based detectors that rely on anchor proposals and post-processing stages such as NMS. To tackle these limitations, this paper presents a novel end-to-end semi-supervised table detection method that employs the deformable transformer for detecting table objects. We evaluate our semi-supervised method on PubLayNet, DocBank, ICADR-19 and TableBank datasets, and it achieves superior performance compared to previous methods. It outperforms the fully supervised method (Deformable transformer) by +3.4 points on 10\% labels of TableBank-both dataset and the previous CNN-based semi-supervised approach (Soft Teacher) by +1.8 points on 10\% labels of PubLayNet dataset. We hope this work opens new possibilities towards semi-supervised and unsupervised table detection methods.
翻訳日:2023-05-09 11:23:03 公開日:2023-05-07
# 異方性コントラストコラボレーティブフィルタ

Disentangled Contrastive Collaborative Filtering ( http://arxiv.org/abs/2305.02759v2 )

ライセンス: Link先を確認
Xubin Ren, Lianghao Xia, Jiashu Zhao, Dawei Yin and Chao Huang(参考訳) 近年の研究では、グラフニューラルネットワーク(GNN)が協調フィルタリング(CF)の高次関係のモデル化に有効であることが示されている。 この研究ラインに向けて,グラフコントラスト学習(GCL)は,拡張ユーザとアイテム表現を学習することで,監督ラベル不足問題に対処する上で,強力な性能を示した。 多くは有効性を示しているが、2つの重要な疑問はまだ未解決のままである。 i) 既存のgclベースのcfモデルは,ユーザとコンテンツの相互作用行動が多種多様な潜在意図要因(例えば,家族に対する買い物,好みの色,商品のブランドなど)によって引き起こされるという事実を無視して,いまだに制限されている。 二 導入した非適応増強技術は、ノイズ情報に弱いため、モデルの堅牢性及び誤った自己管理信号の導入リスクへの懸念を生じさせる。 これらの制約を考慮して,自己監督型拡張による意図的絡み合いを実現するためのDCCF(Disentangled Contrasative Collaborative Filtering framework)を提案する。 学習された異角形表現と大域的文脈により,dccfは,絡み合った自己スーパービジョン信号からきめ細かな潜伏因子を抽出できるだけでなく,拡張によるノイズを軽減することができる。 最後に、パラメータ化された相互作用マスク生成器による適応的な拡張を実現するために、クロスビューコントラスト学習タスクを導入した。 各種公開データセットを用いた実験により,提案手法が既存ソリューションよりも優れていることを示す。 私たちのモデル実装はリンクhttps://github.com/hkuds/dccfでリリースしています。

Recent studies show that graph neural networks (GNNs) are prevalent to model high-order relationships for collaborative filtering (CF). Towards this research line, graph contrastive learning (GCL) has exhibited powerful performance in addressing the supervision label shortage issue by learning augmented user and item representations. While many of them show their effectiveness, two key questions still remain unexplored: i) Most existing GCL-based CF models are still limited by ignoring the fact that user-item interaction behaviors are often driven by diverse latent intent factors (e.g., shopping for family party, preferred color or brand of products); ii) Their introduced non-adaptive augmentation techniques are vulnerable to noisy information, which raises concerns about the model's robustness and the risk of incorporating misleading self-supervised signals. In light of these limitations, we propose a Disentangled Contrastive Collaborative Filtering framework (DCCF) to realize intent disentanglement with self-supervised augmentation in an adaptive fashion. With the learned disentangled representations with global context, our DCCF is able to not only distill finer-grained latent factors from the entangled self-supervision signals but also alleviate the augmentation-induced noise. Finally, the cross-view contrastive learning task is introduced to enable adaptive augmentation with our parameterized interaction mask generator. Experiments on various public datasets demonstrate the superiority of our method compared to existing solutions. Our model implementation is released at the link https://github.com/HKUDS/DCCF.
翻訳日:2023-05-09 11:22:41 公開日:2023-05-07
# 心内膜超音波による肺腫瘍分類のための自己監督学習を用いた時空間デュアルストリームネットワーク

Using Spatio-Temporal Dual-Stream Network with Self-Supervised Learning for Lung Tumor Classification on Radial Probe Endobronchial Ultrasound Video ( http://arxiv.org/abs/2305.02719v2 )

ライセンス: Link先を確認
Ching-Kai Lin, Chin-Wen Chen, Yun-Chien Cheng(参考訳) 本研究の目的は,良性肺病変と悪性肺病変を分類するコンピュータ支援診断システムの開発と,ラジアルプローブ内気管支超音波(ebus)映像のリアルタイム解析を支援することである。 肺癌の生検の過程において、医師は超音波画像を用いて検体に適した部位を見つける。 しかし、これらの画像の多くは分類が難しく、ノイズが多く含まれている。 これまでの研究では、良性肺病変と悪性肺病変を効果的に区別するために2次元畳み込みニューラルネットワークを使用してきたが、医師は高品質な画像を手作業で選択する必要があるため、追加の労働コストが発生する可能性がある。 また, 2次元ニューラルネットワークは, 超音波映像の時間情報を取り込むことができないため, 連続画像の特徴の関係を得ることは困難である。 本研究では,3次元ニューラルネットワークに基づく自動診断システムを設計し,SlowFastアーキテクチャを背骨として時間的特徴と空間的特徴を融合させ,SwaV法によるコントラスト学習を用いてモデルのノイズロバスト性を高める。 本手法は,(1)臨床用超音波フィルムをモデル入力として使用することにより,医師による高品質な画像選択の必要性を低減し,(2)良性および悪性の肺病変の高精度分類が臨床診断における医師の助けとなり,手術の時間とリスクを低減し,(3)有意な画像ノイズの存在下でも適切に分類できるという利点を含む。 検証セットにおける提案手法のauc,精度,リコール,特異度はそれぞれ0.87,83.87%,86.96%,90.91%,66.67%であった。 その結果,時間情報を取り込むことの重要性と,特徴抽出におけるコントラスト学習法の有効性が検証された。

The purpose of this study is to develop a computer-aided diagnosis system for classifying benign and malignant lung lesions, and to assist physicians in real-time analysis of radial probe endobronchial ultrasound (EBUS) videos. During the biopsy process of lung cancer, physicians use real-time ultrasound images to find suitable lesion locations for sampling. However, most of these images are difficult to classify and contain a lot of noise. Previous studies have employed 2D convolutional neural networks to effectively differentiate between benign and malignant lung lesions, but doctors still need to manually select good-quality images, which can result in additional labor costs. In addition, the 2D neural network has no ability to capture the temporal information of the ultrasound video, so it is difficult to obtain the relationship between the features of the continuous images. This study designs an automatic diagnosis system based on a 3D neural network, uses the SlowFast architecture as the backbone to fuse temporal and spatial features, and uses the SwAV method of contrastive learning to enhance the noise robustness of the model. The method we propose includes the following advantages, such as (1) using clinical ultrasound films as model input, thereby reducing the need for high-quality image selection by physicians, (2) high-accuracy classification of benign and malignant lung lesions can assist doctors in clinical diagnosis and reduce the time and risk of surgery, and (3) the capability to classify well even in the presence of significant image noise. The AUC, accuracy, precision, recall and specificity of our proposed method on the validation set reached 0.87, 83.87%, 86.96%, 90.91% and 66.67%, respectively. The results have verified the importance of incorporating temporal information and the effectiveness of using the method of contrastive learning on feature extraction.
翻訳日:2023-05-09 11:21:58 公開日:2023-05-07
# ビッグデータと膨大な数です Zipfの法則の解釈

Big Data and Large Numbers. Interpreting Zipf's Law ( http://arxiv.org/abs/2305.02687v2 )

ライセンス: Link先を確認
Horia-Nicolai L. Teodorescu(参考訳) ビッグデータのいくつかの実証的な事実は、大量の性質の影響であることがわかった。 zipfの法則「ノイズ」はそのようなアーティファクトの例である。 我々は、人口が有限で、人口の要素のランクとカウントが自然数であるときに生じる、パワーロー分布と類似した分布のいくつかの性質を暴露する。 我々は特に、法則のグラフの低位端点、法におけるノイズの可能性、および様々な階における対象のタイプ数を近似することに関心を持っている。 正確な解ではなく近似が注目の中心である。 Zipfの法則の解釈における結果について議論する。

It turns out that some empirical facts in Big Data are the effects of properties of large numbers. Zipf's law 'noise' is an example of such an artefact. We expose several properties of the power law distributions and of similar distribution that occur when the population is finite and the rank and counts of elements in the population are natural numbers. We are particularly concerned with the low-rank end of the graph of the law, the potential of noise in the law, and with the approximation of the number of types of objects at various ranks. Approximations instead of exact solutions are the center of attention. Consequences in the interpretation of Zipf's law are discussed.
翻訳日:2023-05-09 11:21:24 公開日:2023-05-07
# 知識誘導型プロンプティングに基づく因果認識概念抽出

Causality-aware Concept Extraction based on Knowledge-guided Prompting ( http://arxiv.org/abs/2305.01876v3 )

ライセンス: Link先を確認
Siyu Yuan, Deqing Yang, Jinxi Liu, Shuyu Tian, Jiaqing Liang, Yanghua Xiao, Rui Xie(参考訳) 概念は自然言語理解に役立つが、既存の知識グラフ(kgs)では完璧ではない。 近年,テキストベース概念抽出(CE)において,事前学習言語モデル (PLM) が広く用いられている。 しかし、plmはトークン間の本当の因果効果ではなく、事前学習された知識として大量のコーパスから共起関係を掘り出す傾向がある。 その結果、事前学習された知識はPLMを組み合わさり、素早い共起相関に基づく偏りのある概念を抽出し、必然的に低い精度をもたらす。 本稿では, 構造因果モデル (SCM) のレンズを用いて, 概念バイアスを軽減するため, 知識誘導型プロンプトを用いたPLM抽出器を提案する。 このプロンプトは、与えられた実体のトピックを既存のKGの知識から採用し、実体と偏見のある概念の間の急激な共起相関を緩和する。 代表的多言語KGデータセットに関する広範な実験により,提案するプロンプトが概念バイアスを効果的に緩和し,PLMベースのCEモデルの性能を向上させることが確認された。

Concepts benefit natural language understanding but are far from complete in existing knowledge graphs (KGs). Recently, pre-trained language models (PLMs) have been widely used in text-based concept extraction (CE). However, PLMs tend to mine the co-occurrence associations from massive corpus as pre-trained knowledge rather than the real causal effect between tokens. As a result, the pre-trained knowledge confounds PLMs to extract biased concepts based on spurious co-occurrence correlations, inevitably resulting in low precision. In this paper, through the lens of a Structural Causal Model (SCM), we propose equipping the PLM-based extractor with a knowledge-guided prompt as an intervention to alleviate concept bias. The prompt adopts the topic of the given entity from the existing knowledge in KGs to mitigate the spurious co-occurrence correlations between entities and biased concepts. Our extensive experiments on representative multilingual KG datasets justify that our proposed prompt can effectively alleviate concept bias and improve the performance of PLM-based CE models.The code has been released on https://github.com/siyuyuan/KPCE.
翻訳日:2023-05-09 11:20:24 公開日:2023-05-07
# DR-VIDAL --2つのロバストな変分情報-実世界データに基づく対実予測と処理効果推定のためのディープラーニング

DR-VIDAL -- Doubly Robust Variational Information-theoretic Deep Adversarial Learning for Counterfactual Prediction and Treatment Effect Estimation on Real World Data ( http://arxiv.org/abs/2303.04201v3 )

ライセンス: Link先を確認
Shantanu Ghosh, Zheng Feng, Jiang Bian, Kevin Butler, Mattia Prosperi(参考訳) リアルワールド、観察的(非ランダム化)データ、例えば電子的な健康記録を用いた治療の再利用の結果に対する介入の因果効果の決定は、基礎的なバイアスのために困難である。 因果深い学習は、個別化された治療効果(ITE)を推定する伝統的な手法よりも改善されている。 本稿では2つの治療と結果のジョイントモデルを組み合わせた新たな生成フレームワークであるDouubly Robust Variational Information-theoretic Deep Adversarial Learning(DR-VIDAL)を提案する。 DR-VIDAL の統合 (i)共起者を因果的前提に従って潜在変数に分解する変分オートエンコーダ(vae) 二 反事実を発生させる情報理論的生成広告ネットワーク(info-gan) (iii)アウトカム予測のための治療効果を組み込んだ二重ロバストなブロック。 Infant Health and Development Program、Twin Birth Registry、National Supported Work Programといった人工的および現実世界のデータセットでは、DR-VIDALは他の生成的および生成的手法よりも優れたパフォーマンスを達成する。 結論として、DR-VIDALは因果仮定、VAE、Info-GAN、そして2倍の堅牢性を包括的でパフォーマンスのよいフレームワークに融合させる。 コードは、MITライセンス下でhttps://github.com/Shantanu48114860/DR-VIDAL-AMIA-22で入手できる。

Determining causal effects of interventions onto outcomes from real-world, observational (non-randomized) data, e.g., treatment repurposing using electronic health records, is challenging due to underlying bias. Causal deep learning has improved over traditional techniques for estimating individualized treatment effects (ITE). We present the Doubly Robust Variational Information-theoretic Deep Adversarial Learning (DR-VIDAL), a novel generative framework that combines two joint models of treatment and outcome, ensuring an unbiased ITE estimation even when one of the two is misspecified. DR-VIDAL integrates: (i) a variational autoencoder (VAE) to factorize confounders into latent variables according to causal assumptions; (ii) an information-theoretic generative adversarial network (Info-GAN) to generate counterfactuals; (iii) a doubly robust block incorporating treatment propensities for outcome predictions. On synthetic and real-world datasets (Infant Health and Development Program, Twin Birth Registry, and National Supported Work Program), DR-VIDAL achieves better performance than other non-generative and generative methods. In conclusion, DR-VIDAL uniquely fuses causal assumptions, VAE, Info-GAN, and doubly robustness into a comprehensive, performant framework. Code is available at: https://github.com/Shantanu48114860/DR-VIDAL-AMIA-22 under MIT license.
翻訳日:2023-05-09 11:20:04 公開日:2023-05-07