このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240106となっている論文です。

PDF登録状況(公開日: 20240106)

TitleAuthorsAbstract論文公表日・翻訳日
# NuLinkにおけるゼロ知識証明

Zero-Knowledge Proof in NuLink ( http://arxiv.org/abs/2401.03118v1 )

ライセンス: Link先を確認
Pawn, Rookie, Zhuan Cheng, (参考訳) NuLinkはAPI経由の分散アプリケーションのためのプライバシ保護技術を提供する。 ユーザーは価値あるデータを安全に保存したり、他人と取引したりできる。 NuLinkが提供するサービスのプライバシとセキュリティを確保するためには、(ゼロ知識)証明システムが必要である。 ゼロ知識証明システムでは、証明者が検証者に有用な情報を与えることなく、ある結論が正しいと信じさせることが可能である。 NuLinkでは、以下の3つの手法で(ゼロ知識)証明システムを使用します。 1. NuLink を通じてデータを分散的に保存する。 ストレージクライアントが実際にデータを格納していることを保証するため、ストレージシステムの証明を採用しています。 本システムでは,実際にデータを保存している人だけに正しく答えられるような課題をユーザが作成する。 2. NuLink に計算をアウトソースするオプションがある。 計算ノードが提供する計算結果の正当性を検証するためには,SNARKシステムによる正当性証明をノードに要求する。 計算用インプットとしてセンシティブパラメータを用いる場合、zk-SNARKを用いて、これらのパラメータの潜在的な漏洩を防止する。 3. NuLink を通じてデータを交換することも可能だ。 買い手が十分なデジタル資金を有し、売り手が所望のデータを持っていることを確認するために、双方がzk−SNARKを介して証明を行うことができる。 これにより、信頼性が向上し、トランザクション中の不正行為が防止される。 ゼロ知識証明システムを使用することで,NuLinkの全ノードが誠実に動作し,システム全体の不正行為を回避することができる。

NuLink provides privacy-preserving technology for decentralized applications via APIs. Users can securely store its valuable data, trade with others and so on. To ensure the privacy and security of service provided by NuLink, (zero-knowledge) proof systems are necessary. Zero-knowledge proof systems allow the prover to make the verifier believe that a certain conclusion is correct without providing any useful information to the verifier. In NuLink, we are going to use (zero-knowledge) proof system in the following three methods: 1. Users store their data through NuLink in a decentralized manner. To ensure that the storage clients are indeed storing the data, we employ proof of storage systems. In this system, users prepare certain challenges that can only be correctly answered by those who are actually storing the data. 2. Users have the option to outsource computations to NuLink. To verify the correctness of the computation results provided by the compute node, we require the node to provide a proof of correctness via SNARK systems. When sensitive parameters are used as inputs for computation, we utilize zk-SNARKs to prevent any potential leakage of these parameters. 3. Users may choose to trade their data through NuLink. To confirm that the buyer has sufficient digital funds and the seller possesses the desired data, both parties can provide a proof via zk-SNARKs. This builds confidence and prevents cheating during transactions. Using zero-knowledge proof systems, we can ensure that all nodes in NuLink behaves honestly and avoid cheating in the whole system.
翻訳日:2024-03-18 10:39:11 公開日:2024-01-06
# 低自己相関と高線形複雑性を持つ四元数列の4進複雑性

The 4-adic complexity of quaternary sequences with low autocorrelation and high linear complexity ( http://arxiv.org/abs/2401.03204v1 )

ライセンス: Link先を確認
Feifei Yan, Pinhui Ke, Lingmei Xiao, (参考訳) 最近、ジアンらは、逆グレイ写像 (JAMC, \textbf{69} (2023): 689--706) を用いて、低い自己相関と高い線形複雑性を持つ4次列の新たなクラスを提案した。 本稿では,これらの4進列の4進複雑性を推定する。 以上の結果から,これらの系列は有理近似アルゴリズムの攻撃に抵抗するため,大きく4進的複雑であることがわかった。

Recently, Jiang et al. proposed several new classes of quaternary sequences with low autocorrelation and high linear complexity by using the inverse Gray mapping (JAMC, \textbf{69} (2023): 689--706). In this paper, we estimate the 4-adic complexity of these quaternary sequences. Our results show that these sequences have large 4-adic complexity to resist the attack of the rational approximation algorithm.
翻訳日:2024-03-18 08:46:40 公開日:2024-01-06
# 分散暗号アプリケーションのセキュアな合成(技術報告)

Secure Synthesis of Distributed Cryptographic Applications (Technical Report) ( http://arxiv.org/abs/2401.04131v1 )

ライセンス: Link先を確認
Coşku Acay, Joshua Gancher, Rolph Recto, Andrew C. Myers, (参考訳) セキュアな分散システムの開発は困難であり、セキュリティ目標を達成するために高度な暗号を使用する必要がある場合には、さらに困難である。 通信処理のシステムを実装する代わりに、プログラマは集中型でシーケンシャルなプログラムを実装し、暗号化を利用するセキュアな分散バージョンに自動的にコンパイルする。 このアプローチは有望だが、そのようなコンパイラのセキュリティに関する公式な結果はスコープに限られている。 特に、堅牢で効率的なアプリケーションに必要な微妙な問題、複数の暗号機構、悪意のある汚職、非同期通信に同時に対処するセキュリティ証明は存在しない。 本研究では,これらの微妙さを扱うコンパイラセキュリティ証明を開発する。 我々の証明は、シミュレーションベースのセキュリティ、情報フロー制御、振付プログラミング、並列プログラムのシーケンシャル化といった新しい統合技術に依存している。 提案手法は,暗号機構を理想化された機能として抽象化するハイブリッドプロトコルを対象としているが,Universal Composabilityを活用して,完全な暗号化機構を備えたエンドツーエンドでモジュール化されたセキュリティ結果を得るための明確な道筋を提供する。 最後に、シミュレーションベースのセキュリティに関する事前の観測に続いて、ターゲットプログラムのソースレベルのセキュリティ特性を全て保持するコンパイラの正確性に関する重要な基準である、堅牢なハイパープロパリティ保護が保証されていることを証明した。

Developing secure distributed systems is difficult, and even harder when advanced cryptography must be used to achieve security goals. Following prior work, we advocate using secure program partitioning to synthesize cryptographic applications: instead of implementing a system of communicating processes, the programmer implements a centralized, sequential program, which is automatically compiled into a secure distributed version that uses cryptography. While this approach is promising, formal results for the security of such compilers are limited in scope. In particular, no security proof yet simultaneously addresses subtleties essential for robust, efficient applications: multiple cryptographic mechanisms, malicious corruption, and asynchronous communication. In this work, we develop a compiler security proof that handles these subtleties. Our proof relies on a novel unification of simulation-based security, information-flow control, choreographic programming, and sequentialization techniques for concurrent programs. While our proof targets hybrid protocols, which abstract cryptographic mechanisms as idealized functionalities, our approach offers a clear path toward leveraging Universal Composability to obtain end-to-end, modular security results with fully instantiated cryptographic mechanisms. Finally, following prior observations about simulation-based security, we prove that our result guarantees robust hyperproperty preservation, an important criterion for compiler correctness that preserves all source-level security properties in target programs.
翻訳日:2024-03-18 08:46:40 公開日:2024-01-06
# LSTMのニューラルネットワークアルゴリズムによるOECD加盟国とイランの予測輸入

Forecasting Imports in OECD Member Countries and Iran by Using Neural Network Algorithms of LSTM ( http://arxiv.org/abs/2402.01648v1 )

ライセンス: Link先を確認
Soheila Khajoui, Saeid Dehyadegari, Sayyed Abdolmajid Jalaee(参考訳) 人工知能の分野であるArtificial Neural Networks (ANN)は、多くのアプリケーションで高い価値を示しており、適切な予測方法として使われている。 そこで本研究では,2021年から2025年までの20年間,OECD加盟国とイランの輸入をANNを用いて予測することを目的とした。 1970年から2019年にかけて50年以上に渡り、世界銀行、WTO、IFMなどの有効な資料から収集されたデータから、Dizの公式を用いて、収集されたデータの数を増やし、ネットワークの性能と精度を高めるために、輸入に関連するデータが200あることを証明した。 本研究ではLSTMを用いてPycharmのデータ解析を行った。 75%のデータをトレーニングデータ、25%をテストデータとして、分析の結果を99%の精度で予測し、結果の妥当性と信頼性を明らかにした。 輸入は消費機能であり、消費はコビッド19パンデミックの影響を受けているため、輸入に影響を及ぼすように修正・改善するのに時間がかかるため、コビッド19パンデミック以降の輸入は変動傾向にある。

Artificial Neural Networks (ANN) which are a branch of artificial intelligence, have shown their high value in lots of applications and are used as a suitable forecasting method. Therefore, this study aims at forecasting imports in OECD member selected countries and Iran for 20 seasons from 2021 to 2025 by means of ANN. Data related to the imports of such countries collected over 50 years from 1970 to 2019 from valid resources including World Bank, WTO, IFM,the data turned into seasonal data to increase the number of collected data for better performance and high accuracy of the network by using Diz formula that there were totally 200 data related to imports. This study has used LSTM to analyse data in Pycharm. 75% of data considered as training data and 25% considered as test data and the results of the analysis were forecasted with 99% accuracy which revealed the validity and reliability of the output. Since the imports is consumption function and since the consumption is influenced during Covid-19 Pandemic, so it is time-consuming to correct and improve it to be influential on the imports, thus the imports in the years after Covid-19 Pandemic has had a fluctuating trend.
翻訳日:2024-02-11 17:16:49 公開日:2024-01-06
# 自分でロボットの友だちを作る:ai教育のためのオープンソースの学習モジュール

Build Your Own Robot Friend: An Open-Source Learning Module for Accessible and Engaging AI Education ( http://arxiv.org/abs/2402.01647v1 )

ライセンス: Link先を確認
Zhonghao Shi, Allison O'Connell, Zongjian Li, Siqi Liu, Jennifer Ayissi, Guy Hoffman, Mohammad Soleymani, Maja J. Matari\'c(参考訳) 人工知能(AI)が社会と世界経済においてますます重要な役割を担っている中、AI教育とリテラシーは、AIを活用した社会のために学生を準備するために、大学やK-12教育において必要不可欠な要素となっている。 しかし、現在のaiカリキュラムは、教育目的の異なるすべての社会経済的背景を持つ学生や学校にとって、まだアクセス可能で十分ではない。 そこで本研究では,学生がロボットのコンパニオンをゼロから構築できるオープンソース学習モジュールを開発した。 このオープンプラットフォームは、ロボット工学、機械学習(ML)、ソフトウェア工学、機械工学など、AIのさまざまな側面に関するハンズオン体験と入門知識を提供するために使用できる。 このモジュールは、社会的に補助的なロボット仲間の社会的および個人的な性質のため、人間中心のAIにも特に重点を置いており、学生はハンズオン学習活動を通じて、人間とAIの相互作用とAI倫理をよりよく理解することができる。 オープンソースドキュメンテーション、マニュアルの組み立て、手頃な資料によって、異なる社会経済的背景を持つ学生は、個々の教育目標に基づいて学習経験をパーソナライズすることができる。 モジュールの質を評価するため,15人の大学生を対象に,マイノリティ施設から採用したユーザビリティテストワークショップを開催した。 その結果、我々のAIモジュールは効果的で、簡単にフォローでき、エンゲージメントがあり、将来的にはAI/MLとロボティクスの研究への学生の関心が高まります。 大学生と高校生の人間とAIのインタラクションにおける、アクセスしやすく魅力的なAI教育への貢献を願っている。

As artificial intelligence (AI) is playing an increasingly important role in our society and global economy, AI education and literacy have become necessary components in college and K-12 education to prepare students for an AI-powered society. However, current AI curricula have not yet been made accessible and engaging enough for students and schools from all socio-economic backgrounds with different educational goals. In this work, we developed an open-source learning module for college and high school students, which allows students to build their own robot companion from the ground up. This open platform can be used to provide hands-on experience and introductory knowledge about various aspects of AI, including robotics, machine learning (ML), software engineering, and mechanical engineering. Because of the social and personal nature of a socially assistive robot companion, this module also puts a special emphasis on human-centered AI, enabling students to develop a better understanding of human-AI interaction and AI ethics through hands-on learning activities. With open-source documentation, assembling manuals and affordable materials, students from different socio-economic backgrounds can personalize their learning experience based on their individual educational goals. To evaluate the student-perceived quality of our module, we conducted a usability testing workshop with 15 college students recruited from a minority-serving institution. Our results indicate that our AI module is effective, easy-to-follow, and engaging, and it increases student interest in studying AI/ML and robotics in the future. We hope that this work will contribute toward accessible and engaging AI education in human-AI interaction for college and high school students.
翻訳日:2024-02-11 17:16:28 公開日:2024-01-06
# 第1回ロボティクスコンペティションにおけるチーム形成と勝者予測のための統合フレームワーク:モデル,アルゴリズム,分析

An Integrated Framework for Team Formation and Winner Prediction in the FIRST Robotics Competition: Model, Algorithm, and Analysis ( http://arxiv.org/abs/2402.00031v1 )

ライセンス: Link先を確認
Federico Galbiati, Ranier X. Gran, Brendan D. Jacques, Sullivan J. Mulhern, Chun-Kit Ngan(参考訳) 本研究は,チーム形成に先立って,競争環境におけるチーム形成の最適化とチームパフォーマンス予測のための分析的アプローチを開発することを目的とする。 チームのパフォーマンスを最適化し予測するための科学的文献には、いくつかのアプローチがある。 しかし、ほとんどの研究は、個々のメンバーの細かなスキル統計や、メンバーのグループのチームのような制約を用いている。 現在、FIRSTロボティクスコンペティションの厳しい領域に対処する研究は行われていない。 この研究は、競争環境におけるチームのパフォーマンスを最適化し予測する分析方法を提供することによって、このギャップを埋めることを目的としています。 本手法を第1回ロボティクスコンペティションの草案作成プロセスに適用し, 年々スキルが変化し, チームメンバーがシーズンを通じて変化し, 各試合の表層的な統計データのみを持ち, コンペティション形成が競争成功の鍵となる分野である。 まず,チーム全体のパフォーマンスに基づいて,個々のメンバのパフォーマンスを推定する手法を開発した。 チーム形成を最適化するためにアライアンス最適化アルゴリズムが開発され、高い処理後実世界のデータを使用して勝利チームを予測するためにディープニューラルネットワークモデルが訓練される。 我々の手法は、チーム統計全体から個々のメンバーのメトリクスを抽出し、競争力のあるチームを形成し、84.08%の精度で勝利チームを予測できる。

This research work aims to develop an analytical approach for optimizing team formation and predicting team performance in a competitive environment based on data on the competitors' skills prior to the team formation. There are several approaches in scientific literature to optimize and predict a team's performance. However, most studies employ fine-grained skill statistics of the individual members or constraints such as teams with a set group of members. Currently, no research tackles the highly constrained domain of the FIRST Robotics Competition. This research effort aims to fill this gap by providing an analytical method for optimizing and predicting team performance in a competitive environment while allowing these constraints and only using metrics on previous team performance, not on each individual member's performance. We apply our method to the drafting process of the FIRST Robotics competition, a domain in which the skills change year-over-year, team members change throughout the season, each match only has a superficial set of statistics, and alliance formation is key to competitive success. First, we develop a method that could extrapolate individual members' performance based on overall team performance. An alliance optimization algorithm is developed to optimize team formation and a deep neural network model is trained to predict the winning team, both using highly post-processed real-world data. Our method is able to successfully extract individual members' metrics from overall team statistics, form competitive teams, and predict the winning team with 84.08% accuracy.
翻訳日:2024-02-04 05:24:07 公開日:2024-01-06
# 進化を推し進めるシミュレーション:人工知能か人的知性:どれが先か?

Evolution-Bootstrapped Simulation: Artificial or Human Intelligence: Which Came First? ( http://arxiv.org/abs/2402.00030v1 )

ライセンス: Link先を確認
Paul Alexander Bilokon(参考訳) 人間は人工知能(AI)を作ったが、その逆ではない。 この発言は明白である。 本稿では,この主張を軽快なGedanken実験として論じることにした。 自然選択による進化によって駆動される世界において、ニューラルネットワークや人間が最初に進化する可能性はあるだろうか? 我々は、Solomonoff-Kolmogorov-Chaitinの複雑さを比較し、ニューラルネットワーク(LLMでさえ)は人間よりもはるかに単純である。 さらに、複雑な人為的な機器がニューラルネットワークが存在することは不要であると主張する。 ニューラルネットワークは、人間が化学反応や酵素に基づく計算を行う前に自然に発生する物体として進化した可能性がある。 今や、ニューラルネットワークがチューリングテストに合格し、超知能(superintelligence)の可能性を疑うことができることが分かっているので、ニューラルネットワークの自然な進化が、自然選択による純粋な進化から進化を起動したシミュレーションへと導くかどうかを問う。 ニューラルネットワークの進化は、既約の複雑さを伴わない; 進化のブートストラップシミュレーションにおいて、既約の複雑さが容易に存在することを可能にする; 偽造可能な科学的仮説であり、インテリジェントデザインの問題とは独立/直交する。

Humans have created artificial intelligence (AI), not the other way around. This statement is deceptively obvious. In this note, we decided to challenge this statement as a small, lighthearted Gedankenexperiment. We ask a simple question: in a world driven by evolution by natural selection, would neural networks or humans be likely to evolve first? We compare the Solomonoff--Kolmogorov--Chaitin complexity of the two and find neural networks (even LLMs) to be significantly simpler than humans. Further, we claim that it is unnecessary for any complex human-made equipment to exist for there to be neural networks. Neural networks may have evolved as naturally occurring objects before humans did as a form of chemical reaction-based or enzyme-based computation. Now that we know that neural networks can pass the Turing test and suspect that they may be capable of superintelligence, we ask whether the natural evolution of neural networks could lead from pure evolution by natural selection to what we call evolution-bootstrapped simulation. The evolution of neural networks does not involve irreducible complexity; would easily allow irreducible complexity to exist in the evolution-bootstrapped simulation; is a falsifiable scientific hypothesis; and is independent of / orthogonal to the issue of intelligent design.
翻訳日:2024-02-04 05:23:37 公開日:2024-01-06
# 文化コンセンサス理論のレンズを通した責任あるaiに関する世論の探求

Exploring Public Opinion on Responsible AI Through The Lens of Cultural Consensus Theory ( http://arxiv.org/abs/2402.00029v1 )

ライセンス: Link先を確認
Necdet Gurkan, Jordan W. Suchow(参考訳) 人工知能(AI)の社会的意味が成長を続けるにつれ、責任あるAIの追求は、その開発とガバナンスプロセスにおける公的な関与を必要としている。 この関与は、多様な視点を捉え、公平なプラクティスと成果を促進するために不可欠です。 我々は、アメリカにおける責任あるAIに関する信念と態度を識別するために、AIの様々な側面に関する全国的に代表される調査データセットに文化合意理論(CCT)を適用した。 私たちの結果は、責任あるAIに関する共有とコントラストの見解を特定することで、貴重な洞察を与えます。 さらに、これらの発見は、開発者や政策立案者にとって重要な参考点となり、重要な決定を下し、人々の懸念に対処する際に、個々の分散やグループレベルの文化的視点をより効果的に検討することができる。

As the societal implications of Artificial Intelligence (AI) continue to grow, the pursuit of responsible AI necessitates public engagement in its development and governance processes. This involvement is crucial for capturing diverse perspectives and promoting equitable practices and outcomes. We applied Cultural Consensus Theory (CCT) to a nationally representative survey dataset on various aspects of AI to discern beliefs and attitudes about responsible AI in the United States. Our results offer valuable insights by identifying shared and contrasting views on responsible AI. Furthermore, these findings serve as critical reference points for developers and policymakers, enabling them to more effectively consider individual variances and group-level cultural perspectives when making significant decisions and addressing the public's concerns.
翻訳日:2024-02-04 05:23:15 公開日:2024-01-06
# ニューラルレンダリングとそのハードウェアアクセラレーション

Neural Rendering and Its Hardware Acceleration: A Review ( http://arxiv.org/abs/2402.00028v1 )

ライセンス: Link先を確認
Xinkai Yan, Jieting Xu, Yuchi Huo, Hujun Bao(参考訳) neural renderingは、ディープラーニングに基づく新しい画像およびビデオ生成方法である。 深層学習モデルとコンピュータグラフィックスの物理知識を組み合わせて、制御可能で現実的なシーンモデルを取得し、照明、カメラパラメータ、姿勢などのシーン特性の制御を実現する。 一方で、ニューラルネットワークは、従来のフォワードレンダリングプロセスを加速するためにディープラーニングの利点をフル活用できるだけでなく、逆レンダリングや3d再構成のような特定のタスクのための新しいソリューションを提供することができる。 一方、ニューラルレンダリングパイプラインに適応する革新的なハードウェア構造の設計は、既存のグラフィックスプロセッサの並列コンピューティングと消費電力のボトルネックを突破し、仮想現実や拡張現実、映画やテレビの制作、デジタルエンターテイメント、人工知能、メタバースといった将来の重要な領域に重要なサポートを提供すると期待されている。 本稿では,ニューラルレンダリングの技術的意味,主な課題,研究の進展について概説する。 そこで本研究では,ハードウェアアクセラレーションのためのニューラルレンダリングパイプラインの共通要件と,現在のハードウェアアクセラレーションアーキテクチャの特徴を分析し,ニューラルレンダリングプロセッサアーキテクチャの設計課題について議論する。 最後に、ニューラルレンダリングプロセッサアーキテクチャの今後の開発動向を展望する。

Neural rendering is a new image and video generation method based on deep learning. It combines the deep learning model with the physical knowledge of computer graphics, to obtain a controllable and realistic scene model, and realize the control of scene attributes such as lighting, camera parameters, posture and so on. On the one hand, neural rendering can not only make full use of the advantages of deep learning to accelerate the traditional forward rendering process, but also provide new solutions for specific tasks such as inverse rendering and 3D reconstruction. On the other hand, the design of innovative hardware structures that adapt to the neural rendering pipeline breaks through the parallel computing and power consumption bottleneck of existing graphics processors, which is expected to provide important support for future key areas such as virtual and augmented reality, film and television creation and digital entertainment, artificial intelligence and the metaverse. In this paper, we review the technical connotation, main challenges, and research progress of neural rendering. On this basis, we analyze the common requirements of neural rendering pipeline for hardware acceleration and the characteristics of the current hardware acceleration architecture, and then discuss the design challenges of neural rendering processor architecture. Finally, the future development trend of neural rendering processor architecture is prospected.
翻訳日:2024-02-04 05:23:01 公開日:2024-01-06
# 癌サブタイプ診断のための神経集団デコードと不均衡マルチオミックデータセット

Neural Population Decoding and Imbalanced Multi-Omic Datasets For Cancer Subtype Diagnosis ( http://arxiv.org/abs/2401.10844v1 )

ライセンス: Link先を確認
Charles Theodore Kent, Leila Bagheriye and Johan Kwisthout(参考訳) ニューラルネットワークの分野における最近の進歩は、階層的ベイズ推論の統一とスパイクニューラルネットワークを神経生物学的に妥当な情報処理モデルとして活用するために、Winner Take All (WTA) 回路が採用されている。 現在の研究は、これらのネットワークの性能を分類タスク、特にMNISTデータセットを通して検証している。 しかし、研究者はまだ、これらのネットワークからの確率的応答を離散的な決定に翻訳する最善の方法についての合意に達していない。 本研究は,snsの分類精度に乏しい部分であるにもかかわらず,wtaネットワークの分類性能に人口デコードの影響があることを実証するものである。 そこで本研究では,癌ゲノムアトラス(TCGA)のデータセットを用いて,多眼データからの癌サブタイプ診断の問題にWTAネットワークを適用した。 そこで我々は,kohoens 自己組織化マップアルゴリズムに基づく特徴符号化手法であるgene similarity network の新規実装を利用する。 さらに,不均衡なデータセットに対して,特定の集団復号法の選択の影響が増大することを示した。

Recent strides in the field of neural computation has seen the adoption of Winner Take All (WTA) circuits to facilitate the unification of hierarchical Bayesian inference and spiking neural networks as a neurobiologically plausible model of information processing. Current research commonly validates the performance of these networks via classification tasks, particularly of the MNIST dataset. However, researchers have not yet reached consensus about how best to translate the stochastic responses from these networks into discrete decisions, a process known as population decoding. Despite being an often underexamined part of SNNs, in this work we show that population decoding has a significanct impact on the classification performance of WTA networks. For this purpose, we apply a WTA network to the problem of cancer subtype diagnosis from multi omic data, using datasets from The Cancer Genome Atlas (TCGA). In doing so we utilise a novel implementation of gene similarity networks, a feature encoding technique based on Kohoens self organising map algorithm. We further show that the impact of selecting certain population decoding methods is amplified when facing imbalanced datasets.
翻訳日:2024-01-28 16:07:38 公開日:2024-01-06
# CRISIS ALERT:機械学習を用いた株式市場危機予測

CRISIS ALERT:Forecasting Stock Market Crisis Events Using Machine Learning Methods ( http://arxiv.org/abs/2401.06172v1 )

ライセンス: Link先を確認
Yue Chen, Xingyi Andrew, Salintip Supasanya(参考訳) 歴史的に経済不況はしばしば急激かつ悲惨なものになった。 例えば2008年の金融危機の間、sp500は2007年10月から2009年3月までの46%下落した。 危機の兆候を早期に検出できれば、予防措置を講じることができただろう。 そこで,このような動機を活かして,ランダムフォレストや極端な勾配促進といった高度な機械学習技術を用いて,米国市場を中心に潜在的な市場崩壊を予測した。 また、これらの手法の性能を比較し、米国株式市場の暴落を予測するためのモデルについて検討したい。 当社のモデルを日々の金融市場データに適用し、高い報告頻度で応答する傾向にあります。 我々は、米国株式市場指数、SP500セクター指数、危機予測の目的で利用可能な市場指標を含む、75の説明変数について検討する。 最後に, 選択された分類指標を用いて, 極度勾配促進法が米国株式市場危機の予測に最善を尽くしていると結論づける。

Historically, the economic recession often came abruptly and disastrously. For instance, during the 2008 financial crisis, the SP 500 fell 46 percent from October 2007 to March 2009. If we could detect the signals of the crisis earlier, we could have taken preventive measures. Therefore, driven by such motivation, we use advanced machine learning techniques, including Random Forest and Extreme Gradient Boosting, to predict any potential market crashes mainly in the US market. Also, we would like to compare the performance of these methods and examine which model is better for forecasting US stock market crashes. We apply our models on the daily financial market data, which tend to be more responsive with higher reporting frequencies. We consider 75 explanatory variables, including general US stock market indexes, SP 500 sector indexes, as well as market indicators that can be used for the purpose of crisis prediction. Finally, we conclude, with selected classification metrics, that the Extreme Gradient Boosting method performs the best in predicting US stock market crisis events.
翻訳日:2024-01-22 12:53:20 公開日:2024-01-06
# Ensemble BERT関連モデルと新しいテキスト処理手法を用いた特許文書のセマンティック類似性マッチング

Semantic Similarity Matching for Patent Documents Using Ensemble BERT-related Model and Novel Text Processing Method ( http://arxiv.org/abs/2401.06782v1 )

ライセンス: Link先を確認
Liqiang Yu, Bo Liu, Qunwei Lin, Xinyu Zhao, Chang Che(参考訳) 特許文書分析の分野では、フレーズ間の意味的類似性を評価することは重要な課題であり、特に協調特許分類(CPC)研究の複雑さを増幅している。 まず、これらの課題に対処し、初期のCPC作業を認識しながら、過去の言語障壁と文書の複雑さとの闘いを認識した。 第2に、CPC研究の継続的な困難を浮き彫りにする。 これらの課題を克服し、CPCシステムを強化するために、本稿では2つの重要なイノベーションを示す。 まず、4つのBERT関連モデルを組み込んだアンサンブルアプローチを導入し、重み付け平均化による意味的類似性を向上する。 第二に、特許文書に適した新しいテキスト前処理方式を導入し、BCELossを利用してCPCコンテキストトレーニング中に意味的関係をキャプチャするトークンスコアリングを備えた特異な入力構造を特徴とする。 当社の実験結果は,米国特許フレーズからフレーズマッチングデータセットへのデプロイにおいて,アンサンブルモデルと新規テキスト処理戦略の両方の有効性を確定した。

In the realm of patent document analysis, assessing semantic similarity between phrases presents a significant challenge, notably amplifying the inherent complexities of Cooperative Patent Classification (CPC) research. Firstly, this study addresses these challenges, recognizing early CPC work while acknowledging past struggles with language barriers and document intricacy. Secondly, it underscores the persisting difficulties of CPC research. To overcome these challenges and bolster the CPC system, This paper presents two key innovations. Firstly, it introduces an ensemble approach that incorporates four BERT-related models, enhancing semantic similarity accuracy through weighted averaging. Secondly, a novel text preprocessing method tailored for patent documents is introduced, featuring a distinctive input structure with token scoring that aids in capturing semantic relationships during CPC context training, utilizing BCELoss. Our experimental findings conclusively establish the effectiveness of both our Ensemble Model and novel text processing strategies when deployed on the U.S. Patent Phrase to Phrase Matching dataset.
翻訳日:2024-01-22 12:42:49 公開日:2024-01-06
# 限定サンプルを用いた人間指導自由LLM自己アライメント

Human-Instruction-Free LLM Self-Alignment with Limited Samples ( http://arxiv.org/abs/2401.06785v1 )

ライセンス: Link先を確認
Hongyi Guo, Yuanshun Yao, Wei Shen, Jiaheng Wei, Xiaoying Zhang, Zhaoran Wang, Yang Liu(参考訳) 人的価値を持つ大規模言語モデル(LLM)の調整は、LLM実践者にとって重要な課題である。 現在のアライメント技術には,(1)大量のアノテートデータを必要とすること,(2)重い人間の関与を必要とすること,(3)継続的改善のための体系的なメカニズムの欠如など,いくつかの制限がある。 本研究では, LLMを限られたサンプル(例えば<100)を持つ新しい領域に整列させることを検討した。 本研究では,人間の関与なく反復的に自己調整可能なアルゴリズムを提案する。 既存の研究と異なり、我々のアルゴリズムは人造指示にも報酬にも依存せず、人間の関与を著しく減らしている。 さらに,アルゴリズムは連続的にアライメントを自己改善することができる。 重要なアイデアは、まずターゲットドメインに関連する高品質なサンプルを取得し、それらをコンテキスト内学習のサンプルとして使用して、より多くのサンプルを生成することだ。 次に、自己生成サンプルを用いてLCMを反復的に微調整する。 提案手法は,LLMの自己一般化能力を解き放ち,ほぼゼロに近い人的監督と整合できることを示す。 本アルゴリズムは安全性,真理性,命令追従性の3つのベンチマークでテストし,アライメント,ドメイン適応性,拡張性に優れた性能を示す。

Aligning large language models (LLMs) with human values is a vital task for LLM practitioners. Current alignment techniques have several limitations: (1) requiring a large amount of annotated data; (2) demanding heavy human involvement; (3) lacking a systematic mechanism to continuously improve. In this work, we study aligning LLMs to a new domain with limited samples (e.g. < 100). We propose an algorithm that can self-align LLMs iteratively without active human involvement. Unlike existing works, our algorithm relies on neither human-crafted instructions nor labeled rewards, significantly reducing human involvement. In addition, our algorithm can self-improve the alignment continuously. The key idea is to first retrieve high-quality samples related to the target domain and use them as In-context Learning examples to generate more samples. Then we use the self-generated samples to finetune the LLM iteratively. We show that our method can unlock the LLMs' self-generalization ability to perform alignment with near-zero human supervision. We test our algorithm on three benchmarks in safety, truthfulness, and instruction-following, and show good performance in alignment, domain adaptability, and scalability.
翻訳日:2024-01-22 12:26:31 公開日:2024-01-06
# MultiSiam:ソーシャルメディアのテキスト分類と重複テキスト検出のための複数入力シームネットワーク

MultiSiam: A Multiple Input Siamese Network For Social Media Text Classification And Duplicate Text Detection ( http://arxiv.org/abs/2401.06783v1 )

ライセンス: Link先を確認
Sudhanshu Bhoi, Swapnil Markhedkar, Shruti Phadke, and Prashant Agrawal(参考訳) ソーシャルメディアのアカウントはますます似たようなコンテンツを投稿し、プラットフォーム間のカオスな体験を生み出し、望ましい情報へのアクセスを困難にしている。 これらの投稿は、ソーシャルハンドルとアカウントをまたいで重複を分類しグループ化することで整理することができる。 投稿の重複は複数あるが、従来のsiamのニューラルネットワークでは、重複したテキスト検出のために1対の入力しか考慮していない。 本稿ではまず,複数入力のSiameseネットワークであるMultiSiamを提案する。 次に、この縮合されたネットワークを用いて、重複テキストグループ化と分類の両方を行う別のモデルSMCD(Social Media Classification and Duplication Model)を提案する。 siameseと同様に、multisiamネットワークはサブネットワークを適切に変更することで、複数のアプリケーションで使用できる。

Social media accounts post increasingly similar content, creating a chaotic experience across platforms, which makes accessing desired information difficult. These posts can be organized by categorizing and grouping duplicates across social handles and accounts. There can be more than one duplicate of a post, however, a conventional Siamese neural network only considers a pair of inputs for duplicate text detection. In this paper, we first propose a multiple-input Siamese network, MultiSiam. This condensed network is then used to propose another model, SMCD (Social Media Classification and Duplication Model) to perform both duplicate text grouping and categorization. The MultiSiam network, just like the Siamese, can be used in multiple applications by changing the sub-network appropriately.
翻訳日:2024-01-22 12:26:09 公開日:2024-01-06
# CogGPT:大規模言語モデルにおける認知ダイナミクスのパワーの解放

CogGPT: Unleashing the Power of Cognitive Dynamics on Large Language Models ( http://arxiv.org/abs/2401.08438v1 )

ライセンス: Link先を確認
Yaojia Lv, Haojie Pan, Ruiji Fu, Ming Liu, Zhongyuan Wang, Bing Qin(参考訳) 認知力学は、人間の世界の理解を促進するために重要である。 大規模言語モデル(LLM)の最近の進歩は、認知シミュレーションの可能性を明らかにしている。 しかし、これらのLLMに基づく認知研究は主に静的モデリングに焦点を当てており、認知の動的な性質を見下ろしている。 このギャップを埋めるために,LLMの認知力学の概念を提案し,縦断的研究のインスピレーションを得てそれに対応する課題を提示する。 この課題に向けて,LLMの認知力学を評価し,参加者調査を通じて検証する新しいベンチマークであるCogBenchを開発した。 また、認証とRationalityを含む2つの評価指標をCogBench向けに設計する。 llmsの本質的な静的な性質を認識し,生涯の認知ダイナミクス向上を目的とした革新的な反復的認知機構を特徴とするタスクのためのcoggptを提案する。 実証実験の結果、CogGPTは既存の手法よりも優れていることが示され、特に連続的な情報フロー下での役割特異的認知力学を促進する能力が示された。

Cognitive dynamics are pivotal to advance human understanding of the world. Recent advancements in large language models (LLMs) reveal their potential for cognitive simulation. However, these LLM-based cognitive studies primarily focus on static modeling, overlooking the dynamic nature of cognition. To bridge this gap, we propose the concept of the cognitive dynamics of LLMs and present a corresponding task with the inspiration of longitudinal studies. Towards the task, we develop CogBench, a novel benchmark to assess the cognitive dynamics of LLMs and validate it through participant surveys. We also design two evaluation metrics for CogBench, including Authenticity and Rationality. Recognizing the inherent static nature of LLMs, we introduce CogGPT for the task, which features an innovative iterative cognitive mechanism aimed at enhancing lifelong cognitive dynamics. Empirical results demonstrate the superiority of CogGPT over existing methods, particularly in its ability to facilitate role-specific cognitive dynamics under continuous information flows.
翻訳日:2024-01-22 10:01:39 公開日:2024-01-06
# ECGformer:心電図不整脈分類のためのレバレッジ変換器

ECGformer: Leveraging transformer for ECG heartbeat arrhythmia classification ( http://arxiv.org/abs/2401.05434v1 )

ライセンス: Link先を確認
Taymaz Akan, Sait Alp, Mohammad Alfrad Nobel Bhuiyan(参考訳) 不整脈または不整脈とも呼ばれる不整脈は不整脈を指す。 不整脈には様々な種類の不整脈があり、心臓の異なる部位から発生し、急速な、遅い、または不規則な心拍を生じさせる。 心電図(Electrocardiogram、ECG)は、心臓の異常や異常を検知するための重要な診断ツールであり、専門家が心臓の電気信号を分析して、正常から複雑なパターンや偏差を識別することができる。 過去数十年にわたり、心電図データに基づく心拍の自動分類法を開発するための研究が数多く行われている。 近年、深層学習は様々な医学的課題に対処する際、特にシークエンス処理のモデルアーキテクチャとしてのトランスフォーマーにおいて、例外的な能力を発揮している。 トランスフォーマを用いて心電図データに存在する不整脈の分類のためのecgformerモデルを開発した。 提案手法をMIT-BIHおよびTBデータセットを用いて評価した。 心電図心室性不整脈分類の結果,提案法が有効であった。

An arrhythmia, also known as a dysrhythmia, refers to an irregular heartbeat. There are various types of arrhythmias that can originate from different areas of the heart, resulting in either a rapid, slow, or irregular heartbeat. An electrocardiogram (ECG) is a vital diagnostic tool used to detect heart irregularities and abnormalities, allowing experts to analyze the heart's electrical signals to identify intricate patterns and deviations from the norm. Over the past few decades, numerous studies have been conducted to develop automated methods for classifying heartbeats based on ECG data. In recent years, deep learning has demonstrated exceptional capabilities in tackling various medical challenges, particularly with transformers as a model architecture for sequence processing. By leveraging the transformers, we developed the ECGformer model for the classification of various arrhythmias present in electrocardiogram data. We assessed the suggested approach using the MIT-BIH and PTB datasets. ECG heartbeat arrhythmia classification results show that the proposed method is highly effective.
翻訳日:2024-01-15 08:24:45 公開日:2024-01-06
# 対向重みの摂動とメトリック特異的アテンションポーリングによる評価の強化

Enhancing Essay Scoring with Adversarial Weights Perturbation and Metric-specific AttentionPooling ( http://arxiv.org/abs/2401.05433v1 )

ライセンス: Link先を確認
Jiaxin Huang, Xinyu Zhao, Chang Che, Qunwei Lin, Bo Liu(参考訳) 本研究の目的は、機械学習、自然言語処理、教育データ分析を含むデータサイエンス技術を活用することにより、英語学習者(ELL)向けに設計された自動フィードバックツールを改善することである。 自動エッセイスコアリング(aes)研究は、文章エッセイの評価に力を入れているが、言語開発における英語学習者(ells)のニーズをしばしば見落としている。 本研究では, BERT 関連技術を用いて, AES における ELL の筆記能力を評価する。 ELLの特定のニーズに対処するため、我々は、自動フィードバックツールを改善するために最先端のニューラルネットワークモデルであるDeBERTaを提案する。 DeBERTaは、自己教師付き学習を用いた大規模テキストコーパスで事前訓練され、様々な自然言語理解タスクに適応する普遍言語表現を学習する。 このモデルには、AWP(Adversarial Weights Perturbation)と6種類のAP(Metric-specific AttentionPooling)による敵の訓練を含む、いくつかの革新的な技術が含まれている。 本研究の主な焦点は,ハイパーパラメータ,特に逆学習率がモデルの性能に与える影響を検討することである。 6AP と AWP の影響を含むハイパーパラメータチューニングプロセスの微調整により、得られたモデルは言語習熟度をより正確に評価し、ELL に適した学習タスクをサポートすることができる。 この研究は、英語の習熟度を向上し、教育旅行を円滑にすることで、ELLに多大な利益をもたらす可能性がある。

The objective of this study is to improve automated feedback tools designed for English Language Learners (ELLs) through the utilization of data science techniques encompassing machine learning, natural language processing, and educational data analytics. Automated essay scoring (AES) research has made strides in evaluating written essays, but it often overlooks the specific needs of English Language Learners (ELLs) in language development. This study explores the application of BERT-related techniques to enhance the assessment of ELLs' writing proficiency within AES. To address the specific needs of ELLs, we propose the use of DeBERTa, a state-of-the-art neural language model, for improving automated feedback tools. DeBERTa, pretrained on large text corpora using self-supervised learning, learns universal language representations adaptable to various natural language understanding tasks. The model incorporates several innovative techniques, including adversarial training through Adversarial Weights Perturbation (AWP) and Metric-specific AttentionPooling (6 kinds of AP) for each label in the competition. The primary focus of this research is to investigate the impact of hyperparameters, particularly the adversarial learning rate, on the performance of the model. By fine-tuning the hyperparameter tuning process, including the influence of 6AP and AWP, the resulting models can provide more accurate evaluations of language proficiency and support tailored learning tasks for ELLs. This work has the potential to significantly benefit ELLs by improving their English language proficiency and facilitating their educational journey.
翻訳日:2024-01-15 08:24:29 公開日:2024-01-06
# 深層ニューラルネットワークにおけるバックドアアタック検出のためのテンソル分解

TEN-GUARD: Tensor Decomposition for Backdoor Attack Detection in Deep Neural Networks ( http://arxiv.org/abs/2401.05432v1 )

ライセンス: Link先を確認
Khondoker Murad Hossain, Tim Oates(参考訳) ディープニューラルネットワークとトレーニングに使用されるデータセットが大きくなるにつれて、研究や商業プロジェクトに統合するためのデフォルトのアプローチは、事前トレーニングされたモデルをダウンロードして微調整することだ。 しかし、これらのモデルには不確実性があり、トロイの木馬やバックドアのような隠れた悪意のある振る舞いを埋め込む可能性があり、入力(トリガー)に小さな変更を加えると、モデルが誤った出力(例えば、誤分類)を発生させる可能性がある。 本稿では,2つのテンソル分解法をネットワークアクティベーションに適用したバックドア検出手法を提案する。 これには、複数のモデルを同時に分析する機能、さまざまなネットワークアーキテクチャを横断する機能、ネットワークの振る舞いを変えるのに使用されるトリガーの性質に関する仮定、計算効率の向上など、既存の検出方法と比較して多くの利点がある。 我々は、MNIST桁データセット、CIFAR-10データセット、NISTのTrojAIコンペティションの2つの難しいデータセットでトレーニングされたモデルと合わせて、検出パイプラインの詳細な説明を提供する。 これらの結果は,現在の最先端手法よりも,バックドアネットワークを高精度かつ効率的に検出できることを示す。

As deep neural networks and the datasets used to train them get larger, the default approach to integrating them into research and commercial projects is to download a pre-trained model and fine tune it. But these models can have uncertain provenance, opening up the possibility that they embed hidden malicious behavior such as trojans or backdoors, where small changes to an input (triggers) can cause the model to produce incorrect outputs (e.g., to misclassify). This paper introduces a novel approach to backdoor detection that uses two tensor decomposition methods applied to network activations. This has a number of advantages relative to existing detection methods, including the ability to analyze multiple models at the same time, working across a wide variety of network architectures, making no assumptions about the nature of triggers used to alter network behavior, and being computationally efficient. We provide a detailed description of the detection pipeline along with results on models trained on the MNIST digit dataset, CIFAR-10 dataset, and two difficult datasets from NIST's TrojAI competition. These results show that our method detects backdoored networks more accurately and efficiently than current state-of-the-art methods.
翻訳日:2024-01-15 08:24:00 公開日:2024-01-06
# TRLS:医療信号処理のためのスペクトログラムを用いた時系列表現学習フレームワーク

TRLS: A Time Series Representation Learning Framework via Spectrogram for Medical Signal Processing ( http://arxiv.org/abs/2401.05431v1 )

ライセンス: Link先を確認
Luyuan Xie, Cong Li, Xin Zhang, Shengfang Zhai, Yuejian Fang, Qingni Shen, Zhonghai Wu(参考訳) ラベルなし時系列の表現学習フレームワークが医療信号処理のために提案されている。 これまで多くの優れた進歩が見られたが、時系列で抽出された表現は依然として一般化されていない。 本稿では,より情報的な表現を得るために,スペクトログラム(TRLS)を用いた時系列(医用信号)表現学習フレームワークを提案する。 入力時間領域の医療信号をスペクトログラムに変換し、TFRNN(Time Frequency RNN)と呼ばれる時間周波数エンコーダを設計し、拡張スペクトログラムからより堅牢なマルチスケール表現をキャプチャする。 TRLSは2種類の異なるデータ拡張の入力としてスペクトログラムを採用し、正の値との類似性を最大化することで、負のサンプルを設計する問題を効果的に回避する。 医療信号分類に着目した4つの実世界の医療信号データセットの評価を行ったところ,TRLSは既存のフレームワークよりも優れていることがわかった。

Representation learning frameworks in unlabeled time series have been proposed for medical signal processing. Despite the numerous excellent progresses have been made in previous works, we observe the representation extracted for the time series still does not generalize well. In this paper, we present a Time series (medical signal) Representation Learning framework via Spectrogram (TRLS) to get more informative representations. We transform the input time-domain medical signals into spectrograms and design a time-frequency encoder named Time Frequency RNN (TFRNN) to capture more robust multi-scale representations from the augmented spectrograms. Our TRLS takes spectrogram as input with two types of different data augmentations and maximizes the similarity between positive ones, which effectively circumvents the problem of designing negative samples. Our evaluation of four real-world medical signal datasets focusing on medical signal classification shows that TRLS is superior to the existing frameworks.
翻訳日:2024-01-15 08:23:37 公開日:2024-01-06
# 気候不変機械学習

Climate-Invariant Machine Learning ( http://arxiv.org/abs/2112.08440v4 )

ライセンス: Link先を確認
Tom Beucler, Pierre Gentine, Janni Yuval, Ankitesh Gupta, Liran Peng, Jerry Lin, Sungduk Yu, Stephan Rasp, Fiaz Ahmed, Paul A. O'Gorman, J. David Neelin, Nicholas J. Lutsko, Michael Pritchard(参考訳) 気候変動を予測することは一般化の問題であり、過去、現在、そして将来の気候の物理的モデルを用いて最近の過去を外挿する。 現在の気候モデルは、モデル予測の不確実性の主要な原因であるモデルグリッドサイズよりも規模が小さいプロセスの表現を必要とする。 最近の機械学習(ML)アルゴリズムは、そのようなプロセス表現を改善することを約束するが、訓練されていない気候体制に悪影響を及ぼす傾向がある。 物理的および統計的な世界を最大限に活用するために、我々は、気候プロセスの知識をMLアルゴリズムに取り入れた「気候不変」MLと呼ばれる新しいフレームワークを提案し、3つの異なる大気モデルにおいて、幅広い気候条件と構成にわたって高いオフライン精度を維持することができることを示した。 以上の結果から,地球系プロセスのデータ駆動モデルに物理知識を明示的に組み込むことで,その一貫性,データの効率,一般化性が向上することが示唆された。

Projecting climate change is a generalization problem: we extrapolate the recent past using physical models across past, present, and future climates. Current climate models require representations of processes that occur at scales smaller than model grid size, which have been the main source of model projection uncertainty. Recent machine learning (ML) algorithms hold promise to improve such process representations, but tend to extrapolate poorly to climate regimes they were not trained on. To get the best of the physical and statistical worlds, we propose a new framework - termed "climate-invariant" ML - incorporating knowledge of climate processes into ML algorithms, and show that it can maintain high offline accuracy across a wide range of climate conditions and configurations in three distinct atmospheric models. Our results suggest that explicitly incorporating physical knowledge into data-driven models of Earth system processes can improve their consistency, data efficiency, and generalizability across climate regimes.
翻訳日:2024-01-10 23:23:44 公開日:2024-01-06
# フェデレーション信号マップにおける位置漏洩

Location Leakage in Federated Signal Maps ( http://arxiv.org/abs/2112.03452v3 )

ライセンス: Link先を確認
Evita Bakopoulou, Mengwei Yang, Jiang Zhang, Konstantinos Psounis, Athina Markopoulou(参考訳) 複数のモバイルデバイスで収集した測定値からセルラーネットワーク性能(信号マップ)を予測する問題を考える。 私たちは、オンラインフェデレーション学習フレームワーク内で問題を定式化します。 (i)フェデレーションラーニング(FL)により、ユーザーは、デバイスにトレーニングデータを保持しながら、協調的にモデルを訓練することができる。 (ii)ユーザが時間とともに動き回ると測定値が収集され、オンライン形式で地元のトレーニングに使用される。 我々は,flに参加しているターゲットユーザからの更新を監視し,dnn画像分類器のトレーニングデータを再構築するために開発された,勾配(dlg)タイプの攻撃からの深い漏洩を用いて位置を推測する,正直なサーバを考える。 我々は, DLG 攻撃が我々の設定に適用され, ローカルデータのバッチの平均位置を推定し, 粗い粒度でターゲットユーザの軌道を再構築することができることを重要視する。 本研究は,DLG攻撃者を誤解させるため,平均化のためのFLパラメータのチューニング,ローカルバッチのキュレート,異なる軌道で複数のユーザをまたがるアグリゲーションといった,フェデレート学習フレームワーク内でのメカニズムの再検討と設計によって,位置プライバシーを保護するために構築されている。 実世界のモバイルデータセットに基づく解析とシミュレーションによりアルゴリズムの性能を評価し,優れたプライバシー利用トレードオフを実現することを示す。

We consider the problem of predicting cellular network performance (signal maps) from measurements collected by several mobile devices. We formulate the problem within the online federated learning framework: (i) federated learning (FL) enables users to collaboratively train a model, while keeping their training data on their devices; (ii) measurements are collected as users move around over time and are used for local training in an online fashion. We consider an honest-but-curious server, who observes the updates from target users participating in FL and infers their location using a deep leakage from gradients (DLG) type of attack, originally developed to reconstruct training data of DNN image classifiers. We make the key observation that a DLG attack, applied to our setting, infers the average location of a batch of local data, and can thus be used to reconstruct the target users' trajectory at a coarse granularity. We build on this observation to protect location privacy, in our setting, by revisiting and designing mechanisms within the federated learning framework including: tuning the FL parameters for averaging, curating local batches so as to mislead the DLG attacker, and aggregating across multiple users with different trajectories. We evaluate the performance of our algorithms through both analysis and simulation based on real-world mobile datasets, and we show that they achieve a good privacy-utility tradeoff.
翻訳日:2024-01-10 23:22:53 公開日:2024-01-06
# プラグ・アンド・プレイ変圧器モジュールによる教師なしテストタイム適応

Unsupervised Test-Time Adaptation via Plug-and-Play Transformer Modules ( http://arxiv.org/abs/2401.04130v1 )

ライセンス: Link先を確認
Xiangyu Chang, Sk Miraj Ahmed, Basak Guler, Srikanth V. Krishnamurthy, Ananthram Swami, Samet Oymak, Amit K. Roy-Chowdhury(参考訳) LoRA、Adapter、Visual Prompt Tuning (VPT) などのPET手法は、トランスフォーマーモデル内の小さなモジュールをチューニングすることで、新しいドメインへの適応を可能にすることに成功した。 しかし、テスト期間中に遭遇するドメインの数は膨大であり、通常はラベル付けされていない。 したがって、新しいドメインへの適応は困難であり、これらのドメインごとにカスタマイズされたチューニングモジュールを生成するのも現実的ではない。 これらの課題に対処するために、PLUTO: Plug-and-pLay modUlar Test-time Domain AdaptatiOn戦略を紹介します。 私たちは多数のモジュールを事前トレーニングし、それぞれ異なるソースドメインに特化しており、実質的に ``module store'' を作成します。 ラベルなしデータの少ない対象領域を前提として,(1)関連モジュールのスパース部分集合をこのストアから選択するための教師なしテスト時間適応(TTA)手法を導入し,(2)重みを調整せずに選択したモジュールの組み合わせを重み付けする。 このプラグアンドプレイの性質により、複数の最も関連性の高いソースドメインを単一の推論コールで利用することができます。 総合的な評価は、PLUTOが代替のTTAメソッドを均一に上回り、$\leq$5モジュールを選択することは、利益のほとんどを抽出するのに十分であることを示している。 提案手法は,高速かつスケーラブルなドメイン適応のための新しいパラダイムをモチベーションとして,事前学習したトランスフォーマーに新しいドメインへの動的適応能力を持たせる。

Parameter-efficient tuning (PET) methods such as LoRA, Adapter, and Visual Prompt Tuning (VPT) have found success in enabling adaptation to new domains by tuning small modules within a transformer model. However, the number of domains encountered during test time can be very large, and the data is usually unlabeled. Thus, adaptation to new domains is challenging; it is also impractical to generate customized tuned modules for each such domain. Toward addressing these challenges, this work introduces PLUTO: a Plug-and-pLay modUlar Test-time domain adaptatiOn strategy. We pre-train a large set of modules, each specialized for different source domains, effectively creating a ``module store''. Given a target domain with few-shot unlabeled data, we introduce an unsupervised test-time adaptation (TTA) method to (1) select a sparse subset of relevant modules from this store and (2) create a weighted combination of selected modules without tuning their weights. This plug-and-play nature enables us to harness multiple most-relevant source domains in a single inference call. Comprehensive evaluations demonstrate that PLUTO uniformly outperforms alternative TTA methods and that selecting $\leq$5 modules suffice to extract most of the benefit. At a high level, our method equips pre-trained transformers with the capability to dynamically adapt to new domains, motivating a new paradigm for efficient and scalable domain adaptation.
翻訳日:2024-01-10 19:01:00 公開日:2024-01-06
# mgdcf: ニューラルコラボレーティブフィルタリングのためのマルコフグラフ拡散による距離学習

MGDCF: Distance Learning via Markov Graph Diffusion for Neural Collaborative Filtering ( http://arxiv.org/abs/2204.02338v2 )

ライセンス: Link先を確認
Jun Hu, Bryan Hooi, Shengsheng Qian, Quan Fang, Changsheng Xu(参考訳) グラフニューラルネットワーク(GNN)は、最近、歴史的なユーザ-イテムインタラクションに基づいてユーザの好みを予測するために、コラボレーティブフィルタリング(CF)モデルを構築するために使用されている。 しかしながら、GNNベースのCFモデルが従来のネットワーク表現学習(NRL)アプローチとどのように関係しているかについては、ほとんど理解されていない。 本稿では,現状のGNNベースCFモデルとコンテキスト符号化に基づく従来の1層NRLモデルとの等価性を示す。 2種類の距離をトレードオフするマルコフプロセスに基づいて、マルコフグラフ拡散協調フィルタ(MGDCF)を提案し、最先端のGNNベースのCFモデルを一般化する。 学習可能なユーザ/イテム頂点埋め込みを伝播するトレーニング可能なブラックボックスとしてGNNを検討する代わりに、GNNを、完全に接続されたレイヤでコンテキスト特徴をエンコードする従来のNRLモデルに対して、頂点の一定のコンテキスト特徴を構築することができる訓練不可能なマルコフプロセスとして扱う。 このような単純化は、GNNがCFモデルにどのような恩恵をもたらすのかをよりよく理解するのに役立ちます。 特に、GNNベースのCFタスクにおいてランキング損失が重要な役割を担っていることに気付くのに役立ちます。 提案したシンプルだが強力なランキング損失InfoBPRにより、NRLモデルはGNNが構築したコンテキスト機能なしでも良好な性能を発揮する。 mgdcfの詳細な分析を行う実験を行った。

Graph Neural Networks (GNNs) have recently been utilized to build Collaborative Filtering (CF) models to predict user preferences based on historical user-item interactions. However, there is relatively little understanding of how GNN-based CF models relate to some traditional Network Representation Learning (NRL) approaches. In this paper, we show the equivalence between some state-of-the-art GNN-based CF models and a traditional 1-layer NRL model based on context encoding. Based on a Markov process that trades off two types of distances, we present Markov Graph Diffusion Collaborative Filtering (MGDCF) to generalize some state-of-the-art GNN-based CF models. Instead of considering the GNN as a trainable black box that propagates learnable user/item vertex embeddings, we treat GNNs as an untrainable Markov process that can construct constant context features of vertices for a traditional NRL model that encodes context features with a fully-connected layer. Such simplification can help us to better understand how GNNs benefit CF models. Especially, it helps us realize that ranking losses play crucial roles in GNN-based CF tasks. With our proposed simple yet powerful ranking loss InfoBPR, the NRL model can still perform well without the context features constructed by GNNs. We conduct experiments to perform detailed analysis on MGDCF.
翻訳日:2024-01-10 01:00:22 公開日:2024-01-06
# オブジェクト検出のためのバランスドドメイン分類器に基づくドメイン不変の提案

Domain-Invariant Proposals based on a Balanced Domain Classifier for Object Detection ( http://arxiv.org/abs/2202.05941v2 )

ライセンス: Link先を確認
Zhize Wu, Xiaofeng Wang, Tong Xu, Xuebin Yang, Le Zou, Lixiang Xu and Thomas Weise(参考訳) 画像からのオブジェクト認識は、興味のあるオブジェクトを自動的に見つけ、カテゴリと位置情報を返すことを意味する。 畳み込みニューラルネットワーク~(CNN)や生成的敵ネットワークのような深層学習の研究により、特に同様の分布からトレーニングやテストデータを引き出す場合、この分野のパフォーマンスは大幅に改善されている。 しかし、分布のミスマッチ、すなわちドメインシフトは、大幅なパフォーマンス低下につながる。 本稿では,逆訓練によるドメイン分類器の学習により,ドメイン不変検出器を構築する。 画像とインスタンスレベルの特徴を整合させる以前の作業に基づいて、Faster \mbox{R-CNN}内の領域レベルにドメイン適応コンポーネントを導入することで、ドメインシフトをさらに緩和する。 逆学習を用いて,領域分類ネットワーク~(RPN)にドメイン分類ネットワークを組み込む。 RPNは、機能間で効果的に整列することで、異なるドメインの正確なリージョン提案を生成することができる。 対向学習における不安定な収束を緩和するため、バランスの取れたドメイン分類器とネットワーク学習率調整戦略を導入する。 4つの標準データセットを用いて総合的な実験を行う。 その結果、ドメインシフトシナリオにおけるオブジェクト検出手法の有効性と堅牢性を示した。

Object recognition from images means to automatically find object(s) of interest and to return their category and location information. Benefiting from research on deep learning, like convolutional neural networks~(CNNs) and generative adversarial networks, the performance in this field has been improved significantly, especially when training and test data are drawn from similar distributions. However, mismatching distributions, i.e., domain shifts, lead to a significant performance drop. In this paper, we build domain-invariant detectors by learning domain classifiers via adversarial training. Based on the previous works that align image and instance level features, we mitigate the domain shift further by introducing a domain adaptation component at the region level within Faster \mbox{R-CNN}. We embed a domain classification network in the region proposal network~(RPN) using adversarial learning. The RPN can now generate accurate region proposals in different domains by effectively aligning the features between them. To mitigate the unstable convergence during the adversarial learning, we introduce a balanced domain classifier as well as a network learning rate adjustment strategy. We conduct comprehensive experiments using four standard datasets. The results demonstrate the effectiveness and robustness of our object detection approach in domain shift scenarios.
翻訳日:2024-01-10 00:59:10 公開日:2024-01-06
# 乱流における粒子クラスタリング:深層学習による空間的・統計的特性の予測

Particle clustering in turbulence: Prediction of spatial and statistical properties with deep learning ( http://arxiv.org/abs/2210.02339v2 )

ライセンス: Link先を確認
Yan-Mong Chan, Natascha Manger, Yin Li, Chao-Chin Yang, Zhaohuan Zhu, Philip J. Armitage and Shirley Ho(参考訳) 乱流に空気力学的に結合した粒子のクラスタリングをモデル化するための深層学習の有用性について検討する。 athena++流体力学コード内のラグランジアン粒子モジュールを用いて、等方的強制流体力学乱流の周期領域内のエプスタインドラッグレジームにおける粒子のダイナミクスをシミュレートする。 この設定は、初期の惑星形成におけるミクロンとミリサイズの塵粒子の衝突成長に関連する理想的なモデルである。 シミュレーションデータは、u-net深層学習モデルを訓練し、対応する流体場を入力として、粒子密度と速度場の格子状三次元表現を予測する。 訓練されたモデルでは、クラスター粒子のフィラメント構造を高度に非線形な方法で定性的に捉える。 本研究では,密度場(放射分布関数)および速度場(粒子間の相対速度と相対放射速度)の測定値を用いてモデル忠実度を評価する。 トレーニングは空間場のみで行われるが、モデルは通常10%の誤差でこれらの統計量を予測する。 以上の結果から,乱流中の粒子クラスタリングの予測において,深層学習が直接数値シミュレーションを補完する可能性が示唆された。

We investigate the utility of deep learning for modeling the clustering of particles that are aerodynamically coupled to turbulent fluids. Using a Lagrangian particle module within the Athena++ hydrodynamics code, we simulate the dynamics of particles in the Epstein drag regime within a periodic domain of isotropic forced hydrodynamic turbulence. This setup is an idealized model relevant to the collisional growth of micron to mm-sized dust particles in early stage planet formation. The simulation data are used to train a U-Net deep learning model to predict gridded three-dimensional representations of the particle density and velocity fields, given as input the corresponding fluid fields. The trained model qualitatively captures the filamentary structure of clustered particles in a highly non-linear regime. We assess model fidelity by calculating metrics of the density field (the radial distribution function) and of the velocity field (the relative velocity and the relative radial velocity between particles). Although trained only on the spatial fields, the model predicts these statistical quantities with errors that are typically <10%. Our results suggest that, given appropriately expanded training data, deep learning could complement direct numerical simulations in predicting particle clustering within turbulent flows.
翻訳日:2024-01-10 00:52:12 公開日:2024-01-06
# トポロジカルデータ解析のための量子アルゴリズムの複雑性理論的限界

Complexity-Theoretic Limitations on Quantum Algorithms for Topological Data Analysis ( http://arxiv.org/abs/2209.14286v2 )

ライセンス: Link先を確認
Alexander Schmidhuber, Seth Lloyd(参考訳) トポロジカルデータ解析(TDA)のための量子アルゴリズムは、復調処理やデータローディング問題に免疫を保ちながら、古典的手法よりも指数関数的に有利である。 本稿では, 量子コンピュータにおいても, TDA の中心課題であるベッチ数の推定が困難であることを示す。 具体的には、ベッチ数を正確に計算する問題は#Pハードであり、ベッチ数を乗算誤差まで近似する問題はNPハードである。 さらに、どちらの問題も、TDAの量子アルゴリズムが最善である体制に制限された場合、その困難さを保っている。 量子コンピュータは#p-hardやnp-hardの問題をサブ指数時間で解くことが期待できないため、tdaの量子アルゴリズムは最悪の場合には多項式のアドバンテージしか与えないことを示す。 ロイド、ガーネロン、ザナーディが開発したtdaの独創的な量子アルゴリズムは、漸近的にほぼすべてのケースにおいて、最も知られた古典的アプローチよりも二次的なスピードアップを達成していることを示すことによって、我々の主張を支持する。 最後に、入力データが頂点と辺のリストとしてではなく、単純化の仕様として与えられる場合、指数的量子優位性を取り戻すことができると論じる。

Quantum algorithms for topological data analysis (TDA) seem to provide an exponential advantage over the best classical approach while remaining immune to dequantization procedures and the data-loading problem. In this paper, we give complexity-theoretic evidence that the central task of TDA -- estimating Betti numbers -- is intractable even for quantum computers. Specifically, we prove that the problem of computing Betti numbers exactly is #P-hard, while the problem of approximating Betti numbers up to multiplicative error is NP-hard. Moreover, both problems retain their hardness if restricted to the regime where quantum algorithms for TDA perform best. Because quantum computers are not expected to solve #P-hard or NP-hard problems in subexponential time, our results imply that quantum algorithms for TDA offer only a polynomial advantage in the worst case. We support our claim by showing that the seminal quantum algorithm for TDA developed by Lloyd, Garnerone and Zanardi achieves a quadratic speedup over the best known classical approach in asymptotically almost all cases. Finally, we argue that an exponential quantum advantage can be recovered if the input data is given as a specification of simplices rather than as a list of vertices and edges.
翻訳日:2024-01-10 00:50:52 公開日:2024-01-06
# 仮想トライオンにおける骨格的特徴の意義

Significance of Skeleton-based Features in Virtual Try-On ( http://arxiv.org/abs/2208.08076v3 )

ライセンス: Link先を確認
Debapriya Roy, Sanchayan Santra, Diganta Mukherjee, Bhabatosh Chanda(参考訳) textit{virtual try-on} (vton) というアイデアは、家の中で快適に衣服を試着する利便性をユーザに与えることで、e-retailingのメリットを享受する。 一般に、既存のVTONの手法のほとんどは、腕を折り曲げたり、曲げたり、交差させたりしてポーズをとったりすると、一貫性のない結果をもたらす。 長袖の衣装の場合、この問題は深刻になる。 それ以来、腕の交叉姿勢では、異なる衣服部品の重なりが生じる可能性がある。 既存のアプローチ、特に \textit{Thin Plate Spline (TPS) 変換を用いたワーピングベースの手法はそのようなケースに対処できない。 そこで本研究では,対象者の衣服を意味的に意味のある部品に分割し,各部位を個人の形状と独立して反動させる手法を提案する。 屈曲問題に対処するために,手作りの幾何学的特徴を人体形状と整合して使用した。 さらに,合成ネットワークとマスク予測ネットワークという,学習に基づく2つのモジュールを提案する。 これらすべては、ペアのトレーニングデータを必要とせずに、フォトリアリスティックでポーズローバストなVTONソリューションを作成しようとする。 いくつかのベンチマーク手法と比較すると、アプローチの有効性は明らかである。

The idea of \textit{Virtual Try-ON} (VTON) benefits e-retailing by giving an user the convenience of trying a clothing at the comfort of their home. In general, most of the existing VTON methods produce inconsistent results when a person posing with his arms folded i.e., bent or crossed, wants to try an outfit. The problem becomes severe in the case of long-sleeved outfits. As then, for crossed arm postures, overlap among different clothing parts might happen. The existing approaches, especially the warping-based methods employing \textit{Thin Plate Spline (TPS)} transform can not tackle such cases. To this end, we attempt a solution approach where the clothing from the source person is segmented into semantically meaningful parts and each part is warped independently to the shape of the person. To address the bending issue, we employ hand-crafted geometric features consistent with human body geometry for warping the source outfit. In addition, we propose two learning-based modules: a synthesizer network and a mask prediction network. All these together attempt to produce a photo-realistic, pose-robust VTON solution without requiring any paired training data. Comparison with some of the benchmark methods clearly establishes the effectiveness of the approach.
翻訳日:2024-01-10 00:49:56 公開日:2024-01-06
# 量子ラビモデルにおける光子出力場の急激な変化と相転移

Sudden change of the photon output field marks phase transitions in the quantum Rabi model ( http://arxiv.org/abs/2207.12156v2 )

ライセンス: Link先を確認
Ye-Hong Chen, Yuan Qiu, Adam Miranowicz, Neill Lambert, Wei Qin, Roberto Stassi, Yan Xia, Shi-Biao Zheng, Franco Nori(参考訳) 量子臨界系における量子ラビモデルによって予測される量子相転移の実験的観察は、それらに関連する実験的観測値の欠如により、通常困難である。 本稿では,3レベル原子と空洞からなる量子ラビモデルにおいて,量子相転移における動的臨界現象を同定する手法について述べる。 このような臨界現象は、原子と空洞の両方が最初に励起されないとき、2つの古典場によって駆動される系の定常出力光子の突然の変化として現れる。 この過程は高周波ポンプ場が低周波ストークス場と複数のキャビティ光子に正規位相に変換されるときに起こるが、この変換は超ラジアント相では起こり得ない。 定常出力光子の急激な変化は、平衡状態の準備を必要としないため、量子相転移を探索する実験的な手段である。

The experimental observation of quantum phase transitions predicted by the quantum Rabi model in quantum critical systems is usually challenging due to the lack of signature experimental observables associated with them. Here, we describe a method to identify the dynamical critical phenomenon in the quantum Rabi model consisting of a three-level atom and a cavity at the quantum phase transition. Such a critical phenomenon manifests itself as a sudden change of steady-state output photons in the system driven by two classical fields, when both the atom and the cavity are initially unexcited. The process occurs as the high-frequency pump field is converted into the low-frequency Stokes field and multiple cavity photons in the normal phase, while this conversion cannot occur in the superradiant phase. The sudden change of steady-state output photons is an experimentally accessible measure to probe quantum phase transitions, as it does not require preparing the equilibrium state.
翻訳日:2024-01-10 00:48:59 公開日:2024-01-06
# 帰属地図から概念適合伝播による人間理解可能な説明へ

From Attribution Maps to Human-Understandable Explanations through Concept Relevance Propagation ( http://arxiv.org/abs/2206.03208v2 )

ライセンス: Link先を確認
Reduan Achtibat, Maximilian Dreyer, Ilona Eisenbraun, Sebastian Bosse, Thomas Wiegand, Wojciech Samek, Sebastian Lapuschkin(参考訳) eXplainable Artificial Intelligence(XAI)の分野は、今日の強力だが不透明なディープラーニングモデルに透明性をもたらすことを目指している。 ローカルxaiメソッドは帰属マップの形で個々の予測を説明し、それによって重要な特徴がどこで発生したかを特定する(ただし、それらが表現した情報を提供しない)が、グローバル説明技法はモデルがエンコードするために一般的に学んだ概念を視覚化する。 したがって、どちらのタイプのメソッドも部分的な洞察しか提供せず、モデルの推論をユーザーに解釈する責任を残します。 本研究では,地域的視点とグローバルな視点を組み合わせた概念関連伝播(CRP)アプローチを導入し,個々の予測に対する「どこ」と「何」の問に答えることができる。 我々は,CRPがより人間に解釈可能な説明をもたらすことを示すとともに,概念のアトラス,概念構成分析,概念部分空間の定量的研究,およびその細粒度決定における役割について,モデルの表現と推論に関する深い洞察を提供する。

The field of eXplainable Artificial Intelligence (XAI) aims to bring transparency to today's powerful but opaque deep learning models. While local XAI methods explain individual predictions in form of attribution maps, thereby identifying where important features occur (but not providing information about what they represent), global explanation techniques visualize what concepts a model has generally learned to encode. Both types of methods thus only provide partial insights and leave the burden of interpreting the model's reasoning to the user. In this work we introduce the Concept Relevance Propagation (CRP) approach, which combines the local and global perspectives and thus allows answering both the "where" and "what" questions for individual predictions. We demonstrate the capability of our method in various settings, showcasing that CRP leads to more human interpretable explanations and provides deep insights into the model's representation and reasoning through concept atlases, concept composition analyses, and quantitative investigations of concept subspaces and their role in fine-grained decision making.
翻訳日:2024-01-10 00:47:17 公開日:2024-01-06
# 生存バンド問題

The Survival Bandit Problem ( http://arxiv.org/abs/2206.03019v4 )

ライセンス: Link先を確認
Charles Riou and Junya Honda and Masashi Sugiyama(参考訳) 我々は、S-MABと呼ばれるマルチアームバンディット問題(MAB)の新たな変種を紹介し、研究する。 どちらの問題においても、いわゆる累積報酬を最大化することが目的であるが、この新しい変種では、累積報酬が予め設定されたしきい値を下回ると手続きが中断される。 この単純なMABの拡張は、多くの実用的な応用から導かれる。 例えば、自発的な患者に対して2つの薬剤を試験する場合、患者の健康が危うくなり、深刻な副作用が発生したり、疾患症候群が治療によって散逸しない場合、実験を中断できる必要がある。 理論的には、S-MABは、プロシージャを中断するかもしれないし、中断しないかもしれないMABの最初の変種である。 我々はまず,S-MABを形式化し,その目的を,MABの後悔を自然に一般化する,いわゆる生存後悔の最小化として定義する。 そして,S-MABの目的がMABよりもかなり難しいことを示し,MABとは対照的に,政策が合理的に小さい(サブリニアな)サバイバル後悔を達成できないことを示唆する。 代わりに、我々はパレートの意味での残忍な後悔を最小限に抑え、すなわち、別の問題のために犠牲にされることなく、ある問題に対して累積的な報酬を改善できない政策を模索する。 この目的のために、生存後悔の2つの重要な要素を同定した:(mabの後悔に相当する)無傷の後悔と、その手続きが中断される確率、すなわち崩壊の確率である。 我々は、破滅の確率と、破滅の確率が下限と一致する政策に基づいて、下限を導出する。 最後に,これらの政策の2倍のトリックに基づいて,ペロットらによるオープンな問題への回答として,パレートの意味での生存後悔を最小限に抑える政策を導出する(COLT 2019)。

We introduce and study a new variant of the multi-armed bandit problem (MAB), called the survival bandit problem (S-MAB). While in both problems, the objective is to maximize the so-called cumulative reward, in this new variant, the procedure is interrupted if the cumulative reward falls below a preset threshold. This simple yet unexplored extension of the MAB follows from many practical applications. For example, when testing two medicines against each other on voluntary patients, people's health are at stake, and it is necessary to be able to interrupt experiments if serious side effects occur or if the disease syndromes are not dissipated by the treatment. From a theoretical perspective, the S-MAB is the first variant of the MAB where the procedure may or may not be interrupted. We start by formalizing the S-MAB and we define its objective as the minimization of the so-called survival regret, which naturally generalizes the regret of the MAB. Then, we show that the objective of the S-MAB is considerably more difficult than the MAB, in the sense that contrary to the MAB, no policy can achieve a reasonably small (i.e., sublinear) survival regret. Instead, we minimize the survival regret in the sense of Pareto, i.e., we seek a policy whose cumulative reward cannot be improved for some problem instance without being sacrificed for another one. For that purpose, we identify two key components in the survival regret: the regret given no ruin (which corresponds to the regret in the MAB), and the probability that the procedure is interrupted, called the probability of ruin. We derive a lower bound on the probability of ruin, as well as policies whose probability of ruin matches the lower bound. Finally, based on a doubling trick on those policies, we derive a policy which minimizes the survival regret in the sense of Pareto, giving an answer to an open problem by Perotto et al. (COLT 2019).
翻訳日:2024-01-10 00:46:57 公開日:2024-01-06
# ストリーミング映像解析のための表現リサイクル

Representation Recycling for Streaming Video Analysis ( http://arxiv.org/abs/2204.13492v4 )

ライセンス: Link先を確認
Can Ufuk Ertenli, Ramazan Gokberk Cinbis, Emre Akbas(参考訳) 本稿では,最小フレーム当たりの計算量で動画のフレームワイズ表現を推定することを目的としたStreamDEQを提案する。 従来のディープネットワークは、アドホックなソリューションがなければ、各フレームのスクラッチから特徴抽出を行う。 代わりに、連続するビデオフレーム間の時間的滑らかさをネイティブに活用できるストリーミング認識モデルの構築を目指している。 最近出現した暗黙的層モデルは、表現を浅層ネットワークの固定点として定義し、反復的手法で推定する必要があるため、そのようなモデルを構築するための便利な基盤を提供する。 我々の主な洞察は、最新の表現を各フレームの開始点として利用することで、時間軸上の推論反復を分散することである。 このスキームは、最近の推論計算を効果的にリサイクルし、必要な処理時間を大幅に削減する。 広範にわたる実験分析により,StreamDEQは数フレームの時間内にほぼ最適表現を復元し,ビデオ期間を通じて最新の表現を維持可能であることを示す。 ビデオのセマンティックセグメンテーション, ビデオオブジェクト検出, 人間のポーズ推定実験により, StreamDEQは2~4倍高速で, ベースラインでのオンパー精度を実現していることがわかった。

We present StreamDEQ, a method that aims to infer frame-wise representations on videos with minimal per-frame computation. Conventional deep networks do feature extraction from scratch at each frame in the absence of ad-hoc solutions. We instead aim to build streaming recognition models that can natively exploit temporal smoothness between consecutive video frames. We observe that the recently emerging implicit layer models provide a convenient foundation to construct such models, as they define representations as the fixed-points of shallow networks, which need to be estimated using iterative methods. Our main insight is to distribute the inference iterations over the temporal axis by using the most recent representation as a starting point at each frame. This scheme effectively recycles the recent inference computations and greatly reduces the needed processing time. Through extensive experimental analysis, we show that StreamDEQ is able to recover near-optimal representations in a few frames' time and maintain an up-to-date representation throughout the video duration. Our experiments on video semantic segmentation, video object detection, and human pose estimation in videos show that StreamDEQ achieves on-par accuracy with the baseline while being more than 2-4x faster.
翻訳日:2024-01-10 00:46:03 公開日:2024-01-06
# GitHubのコパイロットはコードの脆弱性導入時に人間と同じくらい悪いか?

Is GitHub's Copilot as Bad as Humans at Introducing Vulnerabilities in Code? ( http://arxiv.org/abs/2204.04741v5 )

ライセンス: Link先を確認
Owura Asare, Meiyappan Nagappan, N. Asokan(参考訳) ディープラーニングのいくつかの進歩は、ソフトウェア開発プロセスにうまく適用されています。 最近の関心は、コードの記述を支援するCopilotのようなツールを構築するために、ニューラルネットワークモデルを使用することだ。 本稿では,セキュリティの観点から,コパイロット生成コードの比較実験解析を行う。 この研究の目的は、Copilotが人間開発者と同じくらい悪いかどうかを判断することである。 copilotが人間の開発者と同じソフトウェア脆弱性をもたらす可能性があるかどうかを調査した。 c/c++の脆弱性のデータセットを使用することで、copilotに、人間開発者による脆弱性導入につながるシナリオの提案を推奨します。 提案は、元の脆弱性や修正が再導入されるかどうかに基づいて、2段階のプロセスで検査および分類される。 Copilotは元の脆弱性のあるコードを33%の時間で複製し、固定されたコードを25%のレートで複製しています。 copilotは他の脆弱性よりもいくつかのタイプの脆弱性を導入する可能性が高く、古い脆弱性に対応するプロンプトに応答して脆弱なコードを生成する可能性も高い。 全体として、多くのケースにおいて、これまで人間の開発者が導入した脆弱性を再現していなかったことを踏まえると、copilotは様々な脆弱性タイプで異なるパフォーマンスをしているにもかかわらず、コードに脆弱性を導入する人間の開発者ほど悪くはないと結論づけています。

Several advances in deep learning have been successfully applied to the software development process. Of recent interest is the use of neural language models to build tools, such as Copilot, that assist in writing code. In this paper we perform a comparative empirical analysis of Copilot-generated code from a security perspective. The aim of this study is to determine if Copilot is as bad as human developers. We investigate whether Copilot is just as likely to introduce the same software vulnerabilities as human developers. Using a dataset of C/C++ vulnerabilities, we prompt Copilot to generate suggestions in scenarios that led to the introduction of vulnerabilities by human developers. The suggestions are inspected and categorized in a 2-stage process based on whether the original vulnerability or fix is reintroduced. We find that Copilot replicates the original vulnerable code about 33% of the time while replicating the fixed code at a 25% rate. However this behaviour is not consistent: Copilot is more likely to introduce some types of vulnerabilities than others and is also more likely to generate vulnerable code in response to prompts that correspond to older vulnerabilities. Overall, given that in a significant number of cases it did not replicate the vulnerabilities previously introduced by human developers, we conclude that Copilot, despite performing differently across various vulnerability types, is not as bad as human developers at introducing vulnerabilities in code.
翻訳日:2024-01-10 00:45:43 公開日:2024-01-06
# 画像対画像翻訳におけるコンテンツ制約のパラダイム再考

Rethinking the Paradigm of Content Constraints in Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2211.10867v3 )

ライセンス: Link先を確認
Xiuding Cai, Yaoyao Zhu, Dong Miao, Linjie Fu, Yu Yao(参考訳) 画像から画像への変換(I2I)タスクに十分なコンテンツ制約が欠如している未ペア環境では、GANベースのアプローチは通常、崩壊する傾向にある。 現在のソリューションは、再構築ベースとシームズネットワークベースという2つのカテゴリに分けられる。 前者は、変換された画像または変換された画像が元の画像に完全に変換されるように要求する。 後者は、オリジナルイメージと生成されたイメージを特徴抽出器に供給し、出力をマッチングする。 これは十分に効率的ではなく、普遍的な特徴抽出器は簡単には利用できない。 本稿では,パッチレベルの特徴の潜在空間における表現的類似性を,生成器の \textbf{en}coder と de\textbf{co}der の同じ段階から制約することにより,コンテンツの保守をシンプルかつ効率的に行う enco を提案する。 類似度関数では、コントラスト損失の代わりに単純なmse損失を使い、現在i2iタスクで広く使われている。 設計の利点は、EnCoのトレーニングは非常に効率的であり、エンコーダの機能はデコードによりポジティブな効果をもたらし、より満足できる世代を生み出します。 さらに, 識別者によるサンプリングにおける役割を再考し, ランダムサンプリングを代替する差別的注意誘導型 (DAG) パッチサンプリング戦略を提案する。 DAGはパラメータフリーであり、計算オーバーヘッドは無視できるが、モデルの性能は大幅に改善される。 複数のデータセットに対する大規模な実験は、EnCoの有効性と利点を示し、従来の方法と比較して複数の最先端を実現する。 私たちのコードはhttps://github.com/xiudingcai/enco-pytorchで利用可能です。

In an unpaired setting, lacking sufficient content constraints for image-to-image translation (I2I) tasks, GAN-based approaches are usually prone to model collapse. Current solutions can be divided into two categories, reconstruction-based and Siamese network-based. The former requires that the transformed or transforming image can be perfectly converted back to the original image, which is sometimes too strict and limits the generative performance. The latter involves feeding the original and generated images into a feature extractor and then matching their outputs. This is not efficient enough, and a universal feature extractor is not easily available. In this paper, we propose EnCo, a simple but efficient way to maintain the content by constraining the representational similarity in the latent space of patch-level features from the same stage of the \textbf{En}coder and de\textbf{Co}der of the generator. For the similarity function, we use a simple MSE loss instead of contrastive loss, which is currently widely used in I2I tasks. Benefits from the design, EnCo training is extremely efficient, while the features from the encoder produce a more positive effect on the decoding, leading to more satisfying generations. In addition, we rethink the role played by discriminators in sampling patches and propose a discriminative attention-guided (DAG) patch sampling strategy to replace random sampling. DAG is parameter-free and only requires negligible computational overhead, while significantly improving the performance of the model. Extensive experiments on multiple datasets demonstrate the effectiveness and advantages of EnCo, and we achieve multiple state-of-the-art compared to previous methods. Our code is available at https://github.com/XiudingCai/EnCo-pytorch.
翻訳日:2024-01-10 00:36:05 公開日:2024-01-06
# 共振器調整によるニューラルネットワークのロバスト性評価

Assessing Neural Network Robustness via Adversarial Pivotal Tuning ( http://arxiv.org/abs/2211.09782v2 )

ライセンス: Link先を確認
Peter Ebert Christensen, V\'esteinn Sn{\ae}bjarnarson, Andrea Dittadi, Serge Belongie, Sagie Benaim(参考訳) イメージ分類器の堅牢性は、実世界への展開に不可欠である。 したがって、トレーニングデータからの操作や逸脱に対するこのレジリエンスを評価する能力は不可欠です。 これらの修正は伝統的に、分類器を騙すための最小限の変更で成り立っており、現代のアプローチはそれらに対してますます堅牢である。 意味のある方法で画像の要素を変更するセマンティックな操作は、この目的のために牽引力を高めている。 しかし、それらは主にスタイル、色、属性の変更に限定されている。 表現的ではあるが、これらの操作は事前訓練された生成モデルの機能を完全には利用しない。 この作業では、このギャップを埋めることを目指しています。 本稿では,事前学習した画像生成装置を用いて,画像のクラスを保ちながら,詳細かつ多様かつフォトリアリスティックな方法で画像のセマンティックな操作を行う方法を示す。 近年のGANに基づく画像インバージョン法に着想を得て,Adversarial Pivotal Tuning (APT) と呼ばれる手法を提案する。 画像が与えられたとき、aptはまずプリトレーニングされたジェネレータを使って画像を再構成するピボット潜在空間入力を見つける。 そして、事前訓練された分類器を騙すために、ジェネレータの重みを調整して小さなセマンティックな操作を生成する。 APTは生成モデルの完全な表現的編集機能を保持する。 APTは、様々な事前訓練された分類器を騙した、幅広いクラス保存セマンティックイメージ操作が可能であることを実証する。 最後に,他のベンチマークに対してロバストな分類器はAPT操作に対してロバストではないことを示し,それらを改善する方法を提案する。 コード https://captaine.github.io/apt/

The robustness of image classifiers is essential to their deployment in the real world. The ability to assess this resilience to manipulations or deviations from the training data is thus crucial. These modifications have traditionally consisted of minimal changes that still manage to fool classifiers, and modern approaches are increasingly robust to them. Semantic manipulations that modify elements of an image in meaningful ways have thus gained traction for this purpose. However, they have primarily been limited to style, color, or attribute changes. While expressive, these manipulations do not make use of the full capabilities of a pretrained generative model. In this work, we aim to bridge this gap. We show how a pretrained image generator can be used to semantically manipulate images in a detailed, diverse, and photorealistic way while still preserving the class of the original image. Inspired by recent GAN-based image inversion methods, we propose a method called Adversarial Pivotal Tuning (APT). Given an image, APT first finds a pivot latent space input that reconstructs the image using a pretrained generator. It then adjusts the generator's weights to create small yet semantic manipulations in order to fool a pretrained classifier. APT preserves the full expressive editing capabilities of the generative model. We demonstrate that APT is capable of a wide range of class-preserving semantic image manipulations that fool a variety of pretrained classifiers. Finally, we show that classifiers that are robust to other benchmarks are not robust to APT manipulations and suggest a method to improve them. Code available at: https://captaine.github.io/apt/
翻訳日:2024-01-10 00:35:23 公開日:2024-01-06
# 都市景観における異常セグメンテーションのためのエネルギー誘導による自己監督的様相推定

Self-Supervised Likelihood Estimation with Energy Guidance for Anomaly Segmentation in Urban Scenes ( http://arxiv.org/abs/2302.06815v3 )

ライセンス: Link先を確認
Yuanpeng Tu, Yuxi Li, Boshen Zhang, Liang Liu, Jiangning Zhang, Yabiao Wang, Cai Rong Zhao(参考訳) 堅牢な自動運転では、エージェントは都会の場面で予期せぬ領域(異常)を正確に識別する必要がある。 この目的のために、いくつかの重要な問題が開かれている: 適応可能なメトリクスを設計して異常を計測する方法と、異常データのトレーニングサンプルを適切に生成する方法? 異常検出における古典的な取り組みは、通常はピクセル単位の不確実性やサンプル合成に頼り、文脈情報を無視し、時に細かいアノテーションを持つ補助データを必要とする。 一方,本論文では,セグメンテーションタスクの強い文脈依存性を利用して,自己生成した異常画素の可能性を最大化して異常ヘッドを最適化する,異常セグメンテーションのためのエネルギー誘導型自己組織化フレームワークを設計する。 この目的のために,2つの推定器を設計し,その1つはタスク非依存二元推定器であり,もう1つはタスク指向結合エネルギーの残余であることを示す。 提案する推定値に基づいて,文脈依存と推定確率を活用し,異常領域のマスクアノテーションを洗練する適応型自己教師付き学習フレームワークを考案する。 提案手法は, 補助データや合成モデルがなければ, 教師付き競合相手に匹敵する性能を達成できることを実証し, 挑戦的フィッシュスケープとロード異常ベンチマークの広範な実験を行った。 コードはhttps://github.com/yuanpengtu/SLEEGで入手できる。 .

Robust autonomous driving requires agents to accurately identify unexpected areas (anomalies) in urban scenes. To this end, some critical issues remain open: how to design advisable metric to measure anomalies, and how to properly generate training samples of anomaly data? Classical effort in anomaly detection usually resorts to pixel-wise uncertainty or sample synthesis, which ignores the contextual information and sometimes requires auxiliary data with fine-grained annotations. On the contrary, in this paper, we exploit the strong context-dependent nature of the segmentation task and design an energy-guided self-supervised framework for anomaly segmentation, which optimizes an anomaly head by maximizing the likelihood of self-generated anomaly pixels. For this purpose, we design two estimators to model anomaly likelihood, one is a task-agnostic binary estimator and the other depicts the likelihood as residual of task-oriented joint energy. Based on the proposed estimators, we devise an adaptive self-supervised training framework, which exploits the contextual reliance and estimated likelihood to refine mask annotations in anomaly areas. We conduct extensive experiments on challenging Fishyscapes and Road Anomaly benchmarks, demonstrating that without any auxiliary data or synthetic models, our method can still achieve comparable performance to supervised competitors. Code is available at https://github.com/yuanpengtu/SLEEG..
翻訳日:2024-01-10 00:27:17 公開日:2024-01-06
# ddml:stataのダブル/デバイアス機械学習

ddml: Double/debiased machine learning in Stata ( http://arxiv.org/abs/2301.09397v3 )

ライセンス: Link先を確認
Achim Ahrens, Christian B. Hansen, Mark E. Schaffer, Thomas Wiemann(参考訳) 本稿では,Double/Debiased Machine Learning (DDML) のパッケージddmlを紹介する。 5つの異なる計量モデルに対する因果パラメータの推定がサポートされ、未知の機能形式や多くの外因性変数の設定において内因性変数の因果効果を柔軟に推定することができる。 ddmlは、スタタの既存の教師付き機械学習プログラムと互換性がある。 マルチマシン学習者を最終予測器に組み合わせたスタック推定とddmlを併用することを推奨する。 我々は推薦を支持するためにモンテカルロの証拠を提供する。

We introduce the package ddml for Double/Debiased Machine Learning (DDML) in Stata. Estimators of causal parameters for five different econometric models are supported, allowing for flexible estimation of causal effects of endogenous variables in settings with unknown functional forms and/or many exogenous variables. ddml is compatible with many existing supervised machine learning programs in Stata. We recommend using DDML in combination with stacking estimation which combines multiple machine learners into a final predictor. We provide Monte Carlo evidence to support our recommendation.
翻訳日:2024-01-10 00:23:02 公開日:2024-01-06
# HPE:ハイブリッド質問解析と実行によるテキストによる複雑な質問への回答

HPE:Answering Complex Questions over Text by Hybrid Question Parsing and Execution ( http://arxiv.org/abs/2305.07789v2 )

ライセンス: Link先を確認
Ye Liu, Semih Yavuz, Rui Meng, Dragomir Radev, Caiming Xiong, Yingbo Zhou(参考訳) テキスト型質問応答システムの支配的パラダイムは、自然言語質問への応答に優れているが、複雑な問題に乏しいエンドツーエンドニューラルネットワークに基づいている。 これは、自然言語の質問を論理形式に変換し、クエリエンジンで実行する構造化データソース(リレーショナルデータベース、知識グラフなど)に対する意味解析アプローチの広範な適応とは対照的である。 ニューラルネットワークとシンボリック手法の強みを組み合わせるために,テキストQAにおける質問解析と実行の枠組みを提案する。 2つの中心的な柱から成り、(1)複雑性の異なる問題を、プリミティブとして単純な質問とそれらの関係を表す記号操作からなるh表現という中間表現に解析し、(2)結果のh表現を実行するために、決定論的ルールを統合して、各分解された単純な質問に答えるために、シンボル操作をドロップインニューラルネットワークネットワークに翻訳するハイブリッド実行器を設計する。 したがって、提案されたフレームワークは、トップダウンの質問解析、そしてボトムアップの回答バックトラッキングと見なすことができる。 結果として得られるH-表現は実行プロセスを詳しくガイドし、解釈可能性の向上に加えて、プリミティブ要素の解決のためのニューラルリーダーの利点を保っている。 musique, 2wikiqa, hotpotqa, nqに関する広範な実験では,提案するパースおよびハイブリッド実行フレームワークが,教師付き,少数ショット,ゼロショットの設定で既存のアプローチを上回っており,基礎となる推論プロセスも効果的に公開している。

The dominant paradigm of textual question answering systems is based on end-to-end neural networks, which excels at answering natural language questions but falls short on complex ones. This stands in contrast to the broad adaptation of semantic parsing approaches over structured data sources (e.g., relational database, knowledge graphs), that convert natural language questions to logical forms and execute them with query engines. Towards combining the strengths of neural and symbolic methods, we propose a framework of question parsing and execution on textual QA. It comprises two central pillars: (1) We parse the question of varying complexity into an intermediate representation, named H-expression, which is composed of simple questions as the primitives and symbolic operations representing the relationships among them; (2) To execute the resulting H-expressions, we design a hybrid executor, which integrates the deterministic rules to translate the symbolic operations with a drop-in neural reader network to answer each decomposed simple question. Hence, the proposed framework can be viewed as a top-down question parsing followed by a bottom-up answer backtracking. The resulting H-expressions closely guide the execution process, offering higher precision besides better interpretability while still preserving the advantages of the neural readers for resolving its primitive elements. Our extensive experiments on MuSiQue, 2WikiQA, HotpotQA, and NQ show that the proposed parsing and hybrid execution framework outperforms existing approaches in supervised, few-shot, and zero-shot settings, while also effectively exposing its underlying reasoning process.
翻訳日:2024-01-10 00:04:04 公開日:2024-01-06
# トランスフォーマーを用いた両眼画像からの立体物体検出

Transformer-based stereo-aware 3D object detection from binocular images ( http://arxiv.org/abs/2304.11906v3 )

ライセンス: Link先を確認
Hanqing Sun, Yanwei Pang, Jiale Cao, Jin Xie, Xuelong Li(参考訳) トランスフォーマーは、モノクロ2D/3D検出やサラウンドビュー3D検出など、様々な視覚オブジェクト検出タスクにおいて有望な進歩を示している。 さらに重要なことに、トランスフォーマーモデルの注意機構と双眼鏡ステレオの画像対応はどちらも類似性に基づくものである。 しかし、既存のトランスフォーマーベースの検出器を双眼ステレオ3d物体検出に直接適用すると、収束が遅くなり、精度が低下する。 この欠陥の主な原因は、既存のトランスフォーマーがステレオ特有の画像対応情報を無視していることである。 本稿では,両眼3次元物体検出におけるトランスフォーマーのモデル設計について検討し,特にタスク固有画像対応情報の抽出と符号化に着目した。 この目的を達成するために,トランスフォーマーをベースとしたステレオ3Dオブジェクト検出器TS3Dを提案する。 TS3Dでは、画像対応情報をステレオ特徴に埋め込むために、DAPE(Disparity-Aware Positional Encoding)モジュールを提案する。 対応を正規化サブピクセルレベルの不一致として符号化し、正弦波2D位置符号化と併用してシーンの3D位置情報を提供する。 拡張されたマルチスケールステレオ特徴を抽出するために,Stereo Preserving Feature Pyramid Network (SPFPN)を提案する。 spfpnは、クロススケールステレオの特徴を取り入れながら、対応情報を保存できるように設計されている。 提案するts3dは,kittiテストセットにおける中程度の車検出平均精度を41.29%達成し,各双眼鏡画像ペアから物体を検出するのに88msを要した。 精度と推論速度の両面で、高度な競合相手と競合する。

Transformers have shown promising progress in various visual object detection tasks, including monocular 2D/3D detection and surround-view 3D detection. More importantly, the attention mechanism in the Transformer model and the image correspondence in binocular stereo are both similarity-based. However, directly applying existing Transformer-based detectors to binocular stereo 3D object detection leads to slow convergence and significant precision drops. We argue that a key cause of this defect is that existing Transformers ignore the stereo-specific image correspondence information. In this paper, we explore the model design of Transformers in binocular 3D object detection, focusing particularly on extracting and encoding the task-specific image correspondence information. To achieve this goal, we present TS3D, a Transformer-based Stereo-aware 3D object detector. In the TS3D, a Disparity-Aware Positional Encoding (DAPE) module is proposed to embed the image correspondence information into stereo features. The correspondence is encoded as normalized sub-pixel-level disparity and is used in conjunction with sinusoidal 2D positional encoding to provide the 3D location information of the scene. To extract enriched multi-scale stereo features, we propose a Stereo Preserving Feature Pyramid Network (SPFPN). The SPFPN is designed to preserve the correspondence information while fusing intra-scale and aggregating cross-scale stereo features. Our proposed TS3D achieves a 41.29% Moderate Car detection average precision on the KITTI test set and takes 88 ms to detect objects from each binocular image pair. It is competitive with advanced counterparts in terms of both precision and inference speed.
翻訳日:2024-01-09 23:58:47 公開日:2024-01-06
# GAD-NR 近傍再構成によるグラフ異常検出

GAD-NR: Graph Anomaly Detection via Neighborhood Reconstruction ( http://arxiv.org/abs/2306.01951v6 )

ライセンス: Link先を確認
Amit Roy, Juan Shu, Jia Li, Carl Yang, Olivier Elshocht, Jeroen Smeets and Pan Li(参考訳) Graph Anomaly Detection (GAD) は、グラフ内の異常ノードを識別し、ネットワークセキュリティ、不正検出、ソーシャルメディアスパム検出、その他さまざまな分野の応用を見つけるために用いられるテクニックである。 GADの一般的な方法は、グラフデータをノード表現にエンコードし、これらの表現に基づいてグラフの再構成品質を評価することによって異常を識別するグラフオートエンコーダ(GAE)である。 しかし、既存のGAEモデルは直接リンク再構成に最適化されており、グラフに接続されたノードは潜在空間にクラスタ化される。 その結果、クラスター型構造異常を検出するのに優れるが、クラスタに適合しないより複雑な構造異常に悩まされる。 この制限に対処するため,グラフ異常検出のための近傍再構成を組み込んだGAEの新しい変種であるGAD-NRを提案する。 GAD-NRは、ノード表現に基づいて、ローカル構造、自己属性、および隣接属性を含むノードの近傍全体を再構築することを目的としている。 異常ノードと正常ノード間の近傍再構成損失を比較することで、GAD-NRは任意の異常を効果的に検出できる。 6つの実世界のデータセットで実施された大規模な実験は、GAD-NRの有効性を検証し、最先端の競合相手よりも顕著な改善(AUCでは最大30%)を示す。 GAD-NRのソースコードが公開されている。 比較分析の結果,既存の手法は3種類の異常から1種類または2種類の異常を検出する場合にのみ有効であることが判明した。 対照的に、GAD-NRはデータセット全体の3種類の異常を検知し、その包括的な異常検出能力を示す。

Graph Anomaly Detection (GAD) is a technique used to identify abnormal nodes within graphs, finding applications in network security, fraud detection, social media spam detection, and various other domains. A common method for GAD is Graph Auto-Encoders (GAEs), which encode graph data into node representations and identify anomalies by assessing the reconstruction quality of the graphs based on these representations. However, existing GAE models are primarily optimized for direct link reconstruction, resulting in nodes connected in the graph being clustered in the latent space. As a result, they excel at detecting cluster-type structural anomalies but struggle with more complex structural anomalies that do not conform to clusters. To address this limitation, we propose a novel solution called GAD-NR, a new variant of GAE that incorporates neighborhood reconstruction for graph anomaly detection. GAD-NR aims to reconstruct the entire neighborhood of a node, encompassing the local structure, self-attributes, and neighbor attributes, based on the corresponding node representation. By comparing the neighborhood reconstruction loss between anomalous nodes and normal nodes, GAD-NR can effectively detect any anomalies. Extensive experimentation conducted on six real-world datasets validates the effectiveness of GAD-NR, showcasing significant improvements (by up to 30% in AUC) over state-of-the-art competitors. The source code for GAD-NR is openly available. Importantly, the comparative analysis reveals that the existing methods perform well only in detecting one or two types of anomalies out of the three types studied. In contrast, GAD-NR excels at detecting all three types of anomalies across the datasets, demonstrating its comprehensive anomaly detection capabilities.
翻訳日:2024-01-09 23:50:12 公開日:2024-01-06
# 低リソース音声翻訳のための言語間伝達学習

Cross-Lingual Transfer Learning for Low-Resource Speech Translation ( http://arxiv.org/abs/2306.00789v3 )

ライセンス: Link先を確認
Sameer Khurana, Nauman Dawalatabad, Antoine Laurent, Luis Vicente, Pablo Gimeno, Victoria Mingote, James Glass(参考訳) 本稿では,自動音声翻訳のダウンストリーム適用において,ハイソース言語から低リソース言語への言語間移動を促進させる3段階間移動学習フレームワークを提案する。 このアプローチは、既存の2段階の言語間移動学習フレームワークXLS-Rに意味的な知識蒸留ステップを統合する。 この追加ステップは、ラベルなし音声を用いた自己教師付き学習を通じて事前学習された多言語音声エンコーダに意味知識をエンコードすることを目的としている。 提案する3段階の言語間移動学習フレームワークは,高リソース言語と低リソース言語の間のXLS-Rフレームワークで観測される大きな言語間移動ギャップ(TRFGap)に対処する。 covost-2ベンチマークの広範な実験と比較を行い,特に低リソース言語における翻訳性能の大幅な向上と,trfgapの大幅な削減について検証した。

The paper presents a novel three-step transfer learning framework for enhancing cross-lingual transfer from high- to low-resource languages in the downstream application of Automatic Speech Translation. The approach integrates a semantic knowledge-distillation step into the existing two-step cross-lingual transfer learning framework XLS-R. This extra step aims to encode semantic knowledge in the multilingual speech encoder pre-trained via Self-Supervised Learning using unlabeled speech. Our proposed three-step cross-lingual transfer learning framework addresses the large cross-lingual transfer gap (TRFGap) observed in the XLS-R framework between high-resource and low-resource languages. We validate our proposal through extensive experiments and comparisons on the CoVoST-2 benchmark, showing significant improvements in translation performance, especially for low-resource languages, and a notable reduction in the TRFGap.
翻訳日:2024-01-09 23:49:42 公開日:2024-01-06
# 量子計算のシミュレーション: "it" の "bits" はいくつか?

Simulating quantum computation: how many "bits" for "it"? ( http://arxiv.org/abs/2305.17287v2 )

ライセンス: Link先を確認
Michael Zurel, Cihan Okay, Robert Raussendorf(参考訳) 確率関数 (M. Zurel et al. PRL 260404 (2020)) からの繰り返しサンプリングにより, マジック状態を用いた量子計算の古典的シミュレーション法が導入された。 この手法はwigner関数に基づくサンプリングアルゴリズムと密接に関連しており、wigner関数はサンプリングを妨げる負の値を取ることができるという重要な区別がある。 実際、ウィグナー函数の負性は量子スピードアップの前提条件として特定されている。 しかし, 古典的シミュレーションの手法では, 準確率関数のネガティビティは発生しない。 このモデルは、全ての量子計算に対して確率的である。 本稿では,シミュレーション手順が追跡しなければならない古典的データの量を分析する。 私たちはこの金額が小さいことに気付く。 具体的には、任意の数のマジック状態に対して、任意の時間に量子系を記述するビットの数は、2n^2+o(n)$である。

A recently introduced classical simulation method for universal quantum computation with magic states operates by repeated sampling from probability functions [M. Zurel et al. PRL 260404 (2020)]. This method is closely related to sampling algorithms based on Wigner functions, with the important distinction that Wigner functions can take negative values obstructing the sampling. Indeed, negativity in Wigner functions has been identified as a precondition for a quantum speed-up. However, in the present method of classical simulation, negativity of quasiprobability functions never arises. This model remains probabilistic for all quantum computations. In this paper, we analyze the amount of classical data that the simulation procedure must track. We find that this amount is small. Specifically, for any number $n$ of magic states, the number of bits that describe the quantum system at any given time is $2n^2+O(n)$.
翻訳日:2024-01-09 23:48:55 公開日:2024-01-06
# 自然言語におけるグラフ問題の解ける言語モデル

Can Language Models Solve Graph Problems in Natural Language? ( http://arxiv.org/abs/2305.10037v3 )

ライセンス: Link先を確認
Heng Wang, Shangbin Feng, Tianxing He, Zhaoxuan Tan, Xiaochuang Han, Yulia Tsvetkov(参考訳) 大規模言語モデル(LLM)は、ロボット工学の計画、マルチホップ質問応答や知識探索、構造化コモンセンス推論など、暗黙のグラフィカルな構造を持つ様々なタスクに採用されている。 LLMは、これらのタスクの最先端を構造的含意で進めてきたが、LLMがグラフや構造のテキスト記述を明示的に処理し、それらを接地された概念空間にマッピングし、構造化された操作を行うことができるかどうかはまだ未定である。 この目的のために,自然言語で設計したグラフ型問題解決の総合ベンチマークであるnlgraph(natural language graph)を提案する。 NLGraphには29,370の問題が含まれており、接続や最短経路といった単純なタスクから、最大フローやグラフニューラルネットワークのシミュレーションといった複雑な問題まで、複雑な8つのグラフ推論タスクをカバーする。 llms (gpt-3/4) をnlgraphベンチマーク上で様々なプロンプトアプローチで評価し,それを見出す。 1)言語モデルは予備的グラフ推論能力を示す。 2)高度なプロンプトとインコンテキスト学習の利点は,より複雑なグラフ問題において減少する。 3) LLMは, グラフや問題設定の急激な相関に直面すると, 当然脆弱である。 次に,自然言語グラフ問題を解決するための2つの命令に基づく手法である build-a-graph prompting と algorithmic prompting を提案する。 ビルド・ア・グラフとアルゴリズムは、複数のタスクや設定において、NLGraph上のLLMのパフォーマンスを3.07%から16.85%向上させる一方で、言語モデルを用いたセットアップにおいて最も複雑なグラフ推論タスクをどう解決するかは、オープンな研究課題である。 NLGraphベンチマークと評価コードはhttps://github.com/Arthur-Heng/NLGraphで公開されている。

Large language models (LLMs) are increasingly adopted for a variety of tasks with implicit graphical structures, such as planning in robotics, multi-hop question answering or knowledge probing, structured commonsense reasoning, and more. While LLMs have advanced the state-of-the-art on these tasks with structure implications, whether LLMs could explicitly process textual descriptions of graphs and structures, map them to grounded conceptual spaces, and perform structured operations remains underexplored. To this end, we propose NLGraph (Natural Language Graph), a comprehensive benchmark of graph-based problem solving designed in natural language. NLGraph contains 29,370 problems, covering eight graph reasoning tasks with varying complexity from simple tasks such as connectivity and shortest path up to complex problems such as maximum flow and simulating graph neural networks. We evaluate LLMs (GPT-3/4) with various prompting approaches on the NLGraph benchmark and find that 1) language models do demonstrate preliminary graph reasoning abilities, 2) the benefit of advanced prompting and in-context learning diminishes on more complex graph problems, while 3) LLMs are also (un)surprisingly brittle in the face of spurious correlations in graph and problem settings. We then propose Build-a-Graph Prompting and Algorithmic Prompting, two instruction-based approaches to enhance LLMs in solving natural language graph problems. Build-a-Graph and Algorithmic prompting improve the performance of LLMs on NLGraph by 3.07% to 16.85% across multiple tasks and settings, while how to solve the most complicated graph reasoning tasks in our setup with language models remains an open research question. The NLGraph benchmark and evaluation code are available at https://github.com/Arthur-Heng/NLGraph.
翻訳日:2024-01-09 23:47:17 公開日:2024-01-06
# 入力制約型mpcの直接最適化アルゴリズム

A direct optimization algorithm for input-constrained MPC ( http://arxiv.org/abs/2306.15079v5 )

ライセンス: Link先を確認
Liang Wu, Richard D Braatz(参考訳) モデル予測制御(model prediction control, mpc)アルゴリズムを本番組込みプラットフォームで実行する上での課題は,最悪の計算複雑性の証明書を提供することである。 本稿では、入力制約付きMPCに対する \textit{direct} 最適化アルゴリズムを初めて提案する: 繰り返しの回数は、問題次元$n$、正確な値 $\left\lceil\frac{\log(\frac{2n}{\epsilon})}{-2\log(\frac{\sqrt{2n}}{\sqrt{2n}+\sqrt{2}-1})}\right\rceil + 1$, ここで$\epsilon$は与えられた停止精度を示す。

A challenge of running a model predictive control (MPC) algorithm in a production-embedded platform is to provide the certificate of worst-case computation complexity, that is, its maximum execution time needs to always be smaller than the sampling time. This article proposes for the first time a \textit{direct} optimization algorithm for input-constrained MPC: the number of iterations is data-independent and dependent on the problem dimension $n$, with exact value $\left\lceil\frac{\log(\frac{2n}{\epsilon})}{-2\log(\frac{\sqrt{2n}}{\sqrt{2n}+\sqrt{2}-1})}\right\rceil + 1$, where $\epsilon$ denotes a given stopping accuracy.
翻訳日:2024-01-09 23:36:44 公開日:2024-01-06
# 時間依存コックスモデルにおける構造化学習

Structured Learning in Time-dependent Cox Models ( http://arxiv.org/abs/2306.12528v2 )

ライセンス: Link先を確認
Guanbo Wang, Yi Lian, Archer Y. Yang, Robert W. Platt, Rui Wang, Sylvie Perreault, Marc Dorais, and Mireille E. Schnitzer(参考訳) 時間依存係数と共変量を持つcoxモデルは生存分析に広く使われている。 高次元設定では、変数選択にスパース正規化技術が使用されるが、時間依存のCoxモデルに対する既存の手法では、特定の空間パターン(すなわち共変量構造)を強制する柔軟性がない。 本稿では,時間依存型 Cox モデルにおける変数選択のための柔軟なフレームワークを提案する。 本手法は, 相互作用選択, 時間的, 空間的, 木的, 有向非巡回グラフ構造を含む任意のグループ構造に適応することができる。 誤報率の低い精度で正確な推定を行う。 複雑な共変量構造を持つモデルを効率的に解くためのネットワークフローアルゴリズムを実装したソックスパッケージを開発した。 soxはグループ構造を指定するためのユーザフレンドリーなインターフェースを提供し、高速な計算を提供する。 心房細動患者における全死因死亡の予測因子の同定に関するケーススタディを含む事例を通して,本手法の具体的選択規則による実用的応用を実証する。

Cox models with time-dependent coefficients and covariates are widely used in survival analysis. In high-dimensional settings, sparse regularization techniques are employed for variable selection, but existing methods for time-dependent Cox models lack flexibility in enforcing specific sparsity patterns (i.e., covariate structures). We propose a flexible framework for variable selection in time-dependent Cox models, accommodating complex selection rules. Our method can adapt to arbitrary grouping structures, including interaction selection, temporal, spatial, tree, and directed acyclic graph structures. It achieves accurate estimation with low false alarm rates. We develop the sox package, implementing a network flow algorithm for efficiently solving models with complex covariate structures. sox offers a user-friendly interface for specifying grouping structures and delivers fast computation. Through examples, including a case study on identifying predictors of time to all-cause death in atrial fibrillation patients, we demonstrate the practical application of our method with specific selection rules.
翻訳日:2024-01-09 23:35:51 公開日:2024-01-06
# 超伝導ケラーパラメトリック発振器における量子干渉の観測と操作

Observation and manipulation of quantum interference in a superconducting Kerr parametric oscillator ( http://arxiv.org/abs/2306.12299v4 )

ライセンス: Link先を確認
Daisuke Iyama, Takahiko Kamiya, Shiori Fujii, Hiroto Mukai, Yu Zhou, Toshiaki Nagase, Akiyoshi Tomonaga, Rui Wang, Jiao-Jiao Xue, Shohei Watabe, Sangil Kwon, and Jaw-Shen Tsai(参考訳) 量子トンネルは超伝導回路を「量子」にする現象である。 近年,Kerrパラメトリック発振器の位相空間における量子トンネルを量子情報処理の資源として利用することへの関心が高まっている。 本稿では、ウィグナートモグラフィによる平面超伝導回路のトンネルによる量子干渉の直接観測について報告する。 この量子干渉の全ての本質的性質、例えばフォック状態からキャット状態へのマッピング、ポンプのデチューニングによる時間的振動、そしてその特徴的なラビ振動とラムジー縞を実験的に解明する。 最後に,観測された量子干渉の操作としてゲート操作を行う。 本研究は,超伝導Kerrパラメトリック発振器の量子特性と量子情報技術への応用に関する基礎研究である。

Quantum tunneling is the phenomenon that makes superconducting circuits "quantum". Recently, there has been a renewed interest in using quantum tunneling in phase space of a Kerr parametric oscillator as a resource for quantum information processing. Here, we report a direct observation of quantum interference induced by such tunneling in a planar superconducting circuit through Wigner tomography. We experimentally elucidate all essential properties of this quantum interference, such as mapping from Fock states to cat states, a temporal oscillation due to the pump detuning, as well as its characteristic Rabi oscillations and Ramsey fringes. Finally, we perform gate operations as manipulations of the observed quantum interference. Our findings lay the groundwork for further studies on quantum properties of superconducting Kerr parametric oscillators and their use in quantum information technologies.
翻訳日:2024-01-09 23:35:33 公開日:2024-01-06
# 強化学習におけるモデルミスセグメンテーションについて

On the Model-Misspecification in Reinforcement Learning ( http://arxiv.org/abs/2306.10694v2 )

ライセンス: Link先を確認
Yunfan Li and Lin Yang(参考訳) 強化学習(rl)の成功は、複雑な基底モデルを扱う際の効果的な関数近似に依存する。 既存のサンプル効率のRLアルゴリズムは、ポリシベース、バリューベース、モデルベースという3つのアプローチを主に採用している。 しかし、モデル誤特定(基底と最適関数の差)に直面した場合、政策関数近似が局所的に境界付けられた大きな誤特定誤差下にある場合でも、政策に基づくアプローチは頑健であることが示され、関数クラスは特定の状態や行動において$\omega(1)$近似誤差を示すが、政策誘発状態の分布では平均的に小さい。 しかし、値ベースとモデルベースのアプローチ、特に一般関数近似によって、類似のロバスト性が達成できるかどうかは、まだ疑問の余地がある。 本稿では,このギャップを埋めるために,rlにおけるモデル誤特定に対処するための統一的な理論的枠組みを提案する。 注意深いアルゴリズム設計と洗練された解析により,一般関数近似を用いた値ベースおよびモデルベース手法が,局所的不特定化誤差境界下での頑健性を実現することを実証する。 特に、$\widetilde{O}\left(\text{poly}(d H)(\sqrt{K} + K\zeta) \right)$、$d$は関数クラスの複雑さを表し、$H$はエピソードの長さであり、$K$はエピソードの総数であり、$\zeta$は誤特定エラーの局所境界を表す。 さらに,$\zeta$の事前知識を必要とせず,同様の後悔の順序を実現できるアルゴリズムフレームワークを提案する。

The success of reinforcement learning (RL) crucially depends on effective function approximation when dealing with complex ground-truth models. Existing sample-efficient RL algorithms primarily employ three approaches to function approximation: policy-based, value-based, and model-based methods. However, in the face of model misspecification (a disparity between the ground-truth and optimal function approximators), it is shown that policy-based approaches can be robust even when the policy function approximation is under a large locally-bounded misspecification error, with which the function class may exhibit a $\Omega(1)$ approximation error in specific states and actions, but remains small on average within a policy-induced state distribution. Yet it remains an open question whether similar robustness can be achieved with value-based and model-based approaches, especially with general function approximation. To bridge this gap, in this paper we present a unified theoretical framework for addressing model misspecification in RL. We demonstrate that, through meticulous algorithm design and sophisticated analysis, value-based and model-based methods employing general function approximation can achieve robustness under local misspecification error bounds. In particular, they can attain a regret bound of $\widetilde{O}\left(\text{poly}(d H)(\sqrt{K} + K\zeta) \right)$, where $d$ represents the complexity of the function class, $H$ is the episode length, $K$ is the total number of episodes, and $\zeta$ denotes the local bound for misspecification error. Furthermore, we propose an algorithmic framework that can achieve the same order of regret bound without prior knowledge of $\zeta$, thereby enhancing its practical applicability.
翻訳日:2024-01-09 23:34:54 公開日:2024-01-06
# 偏微分プライベート・パーソナライズドレコメンデーションの高精度測定のためのランダム化アルゴリズム

Randomized algorithms for precise measurement of differentially-private, personalized recommendations ( http://arxiv.org/abs/2308.03735v3 )

ライセンス: Link先を確認
Allegra Laro, Yanqing Chen, Hao He, Babak Aghazadeh(参考訳) パーソナライズドレコメンデーションは、今日のインターネットエコシステムの重要な部分を形成し、アーティストやクリエーターが興味のあるユーザーにリーチすることを支援し、ユーザーが新しく魅力的なコンテンツを見つけるのを助ける。 しかし、今日の多くのユーザーは、歴史的に不注意な個人データの扱いとデータのプライバシーのために、推奨をパーソナライズするプラットフォームに懐疑的です。 現在、パーソナライズドレコメンデーションに依存している企業は、プライバシ優先のシステムの多くをオーバーホールしなければならない、新たなパラダイムに移行している。 本稿では,個人毎の個人別測定を容易にするためのアルゴリズムを提案する。 広告をサンプルアプリケーションとして検討し,提案したプライバシー保護アルゴリズムがユーザエクスペリエンス,広告主価値,プラットフォーム収益に関連する重要な指標にどのように影響するかを,非個人的かつ非個人的かつパーソナライズされた実装の極端な部分と比較して定量化する。

Personalized recommendations form an important part of today's internet ecosystem, helping artists and creators to reach interested users, and helping users to discover new and engaging content. However, many users today are skeptical of platforms that personalize recommendations, in part due to historically careless treatment of personal data and data privacy. Now, businesses that rely on personalized recommendations are entering a new paradigm, where many of their systems must be overhauled to be privacy-first. In this article, we propose an algorithm for personalized recommendations that facilitates both precise and differentially-private measurement. We consider advertising as an example application, and conduct offline experiments to quantify how the proposed privacy-preserving algorithm affects key metrics related to user experience, advertiser value, and platform revenue compared to the extremes of both (private) non-personalized and non-private, personalized implementations.
翻訳日:2024-01-09 23:25:52 公開日:2024-01-06
# 無線ネットワークにおける階層的フェデレーション学習--タックルバンド幅スカシティとシステム不均一性

Hierarchical Federated Learning in Wireless Networks: Pruning Tackles Bandwidth Scarcity and System Heterogeneity ( http://arxiv.org/abs/2308.01562v2 )

ライセンス: Link先を確認
Md Ferdous Pervej, Richeng Jin, Huaiyu Dai(参考訳) 実用的な無線ネットワークは、エンドユーザが中央サーバと直接通信しない多くの層を持つが、ユーザのデバイスは計算能力とバッテリ能力に制限があり、サービスベースステーション(BS)は固定帯域幅を持つ。 これらの実用的制約とシステムモデルにより、モデルプルーニングを活用し、ヘテロジニアスネットワーク(HetNets)におけるプルーニング可能な階層型学習(PHFL)を提案する。 まず、モデルプルーニングとクライアントと関連するBS間の無線通信の影響を明確に示す収束率の上限を導出する。 そして、厳密な遅延とエネルギー制約の下での収束の制御可能な項を最小化するために、モデルプルーニング比、中央処理ユニット(CPU)周波数および送信電力を協調的に最適化する。 しかし、元の問題は凸ではないため、連続凸近似(SCA)を行い、緩和凸問題のパラメータを共同最適化する。 提案するPHFLアルゴリズムの有効性を,実験精度,壁面時計時間,エネルギー消費量,帯域幅要求量の観点から検証した。

While a practical wireless network has many tiers where end users do not directly communicate with the central server, the users' devices have limited computation and battery powers, and the serving base station (BS) has a fixed bandwidth. Owing to these practical constraints and system models, this paper leverages model pruning and proposes a pruning-enabled hierarchical federated learning (PHFL) in heterogeneous networks (HetNets). We first derive an upper bound of the convergence rate that clearly demonstrates the impact of the model pruning and wireless communications between the clients and the associated BS. Then we jointly optimize the model pruning ratio, central processing unit (CPU) frequency and transmission power of the clients in order to minimize the controllable terms of the convergence bound under strict delay and energy constraints. However, since the original problem is not convex, we perform successive convex approximation (SCA) and jointly optimize the parameters for the relaxed convex problem. Through extensive simulation, we validate the effectiveness of our proposed PHFL algorithm in terms of test accuracy, wall clock time, energy consumption and bandwidth requirement.
翻訳日:2024-01-09 23:25:30 公開日:2024-01-06
# AttrSeg:Attribute Decomposition-Aggregationによるオープン語彙セマンティックセマンティックセグメンテーション

AttrSeg: Open-Vocabulary Semantic Segmentation via Attribute Decomposition-Aggregation ( http://arxiv.org/abs/2309.00096v2 )

ライセンス: Link先を確認
Chaofan Ma, Yuhuan Yang, Chen Ju, Fei Zhang, Ya Zhang, Yanfeng Wang(参考訳) オープンボキャブラリセマンティックセグメンテーションは、推論時に新しいオブジェクトカテゴリをセグメンテーションする必要がある難しいタスクである。 近年の研究では、このタスクを扱うために視覚言語による事前訓練が検討されているが、実践的なシナリオでは非現実的な仮定、すなわち低品質のテキストカテゴリー名に悩まされている。 例えば、このパラダイムは、新しいテキストカテゴリが正確かつ完全に提供され、事前学習中にレキシコンに存在すると仮定する。 しかし、短い名前や不完全な名前のあいまいさ、事前訓練された語彙に存在しない新しい単語、ユーザにとって難しいカテゴリーに遭遇する場合に例外が発生することが多い。 これらの課題に対処するために、新しい概念を理解するための人間の認知に触発された新しい属性分解集約フレームワークであるAttrSegを提案する。 具体的には、分解段階において、クラス名を様々な属性記述に分離し、複数の観点から意味的コンテキストを補完する。 2つの属性構築戦略が設計されており、共通のカテゴリに大規模言語モデルを使用し、人間が発明したカテゴリに手動でラベル付けする。 集約段階において,多様な属性を統合的なグローバル記述にグループ化し,対象対象を他の対象と区別する識別的分類器を形成する。 階層的なアグリゲーションアーキテクチャは、より正確に設計されたクラスタリングモジュールを活用することで、マルチレベルアグリゲーションを実現するためにさらに提案されている。 最終的な結果は、集約属性と画像埋め込みの類似性を計算することで得られる。 有効性を評価するため,属性記述を伴う3種類のデータセットを注釈化し,広範囲な実験とアブレーション研究を行った。 その結果,属性分解凝集の優れた性能を示した。

Open-vocabulary semantic segmentation is a challenging task that requires segmenting novel object categories at inference time. Recent studies have explored vision-language pre-training to handle this task, but suffer from unrealistic assumptions in practical scenarios, i.e., low-quality textual category names. For example, this paradigm assumes that new textual categories will be accurately and completely provided, and exist in lexicons during pre-training. However, exceptions often happen when encountering ambiguity for brief or incomplete names, new words that are not present in the pre-trained lexicons, and difficult-to-describe categories for users. To address these issues, this work proposes a novel attribute decomposition-aggregation framework, AttrSeg, inspired by human cognition in understanding new concepts. Specifically, in the decomposition stage, we decouple class names into diverse attribute descriptions to complement semantic contexts from multiple perspectives. Two attribute construction strategies are designed: using large language models for common categories, and involving manually labeling for human-invented categories. In the aggregation stage, we group diverse attributes into an integrated global description, to form a discriminative classifier that distinguishes the target object from others. One hierarchical aggregation architecture is further proposed to achieve multi-level aggregations, leveraging the meticulously designed clustering module. The final results are obtained by computing the similarity between aggregated attributes and images embeddings. To evaluate the effectiveness, we annotate three types of datasets with attribute descriptions, and conduct extensive experiments and ablation studies. The results show the superior performance of attribute decomposition-aggregation.
翻訳日:2024-01-09 23:15:36 公開日:2024-01-06
# サイドオブザーバを用いた確率グラフ帯域学習

Stochastic Graph Bandit Learning with Side-Observations ( http://arxiv.org/abs/2308.15107v2 )

ライセンス: Link先を確認
Xueping Gong and Jiheng Zhang(参考訳) 本稿では,一般関数空間とグラフフィードバックを用いた確率的文脈的バンディットについて検討する。 本稿では,基礎となるグラフ構造と報酬ギャップに適応してこの問題に対処するアルゴリズムを提案する。 私たちの知る限りでは、この確率的な設定でギャップ依存の上界を提供するのはアルゴリズムが初めてで、 [35] に残された研究のギャップを橋渡しします。 提案手法は,[31,33,35]と比較して, 後悔の上限を改良し, グラフィカル量の知識を必要としない。 後悔の上限という観点から計算効率と効果を実証するために数値実験を行った。 これらの結果は,確率的文脈帯域の領域をグラフフィードバックで前進させる上でのアルゴリズムの重要性を強調し,様々な領域における実践的応用への道を開いた。

In this paper, we investigate the stochastic contextual bandit with general function space and graph feedback. We propose an algorithm that addresses this problem by adapting to both the underlying graph structures and reward gaps. To the best of our knowledge, our algorithm is the first to provide a gap-dependent upper bound in this stochastic setting, bridging the research gap left by the work in [35]. In comparison to [31,33,35], our method offers improved regret upper bounds and does not require knowledge of graphical quantities. We conduct numerical experiments to demonstrate the computational efficiency and effectiveness of our approach in terms of regret upper bounds. These findings highlight the significance of our algorithm in advancing the field of stochastic contextual bandits with graph feedback, opening up avenues for practical applications in various domains.
翻訳日:2024-01-09 23:15:07 公開日:2024-01-06
# SOGDet:Semantic-Occupancy Guided Multi-view 3D Object Detection

SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection ( http://arxiv.org/abs/2308.13794v3 )

ライセンス: Link先を確認
Qiu Zhou, Jinming Cao, Hanchao Leng, Yifang Yin, Yu Kun and Roger Zimmermann(参考訳) 自動運転の分野では、3D環境の正確で包括的な認識が不可欠である。 Bird's Eye View (BEV) ベースの手法は、多視点画像を入力として使用する3Dオブジェクト検出のための有望なソリューションとして登場した。 しかし、既存の3Dオブジェクト検出手法は、歩道や植生などの環境の物理的文脈を無視することが多く、結果として準最適性能が得られる。 本稿では,sogdet(semantic-occupancy guided multi-view 3d object detection)と呼ばれる3次元意味空間枝を利用して3次元物体検出の精度を向上させる手法を提案する。 特に、意味的占有によってモデル化された物理的文脈は、検出器がより総合的な視点でシーンを認識するのに役立つ。 私たちのSOGDetは柔軟で、既存のほとんどのBEVベースのメソッドとシームレスに統合できます。 本手法の有効性を評価するため,いくつかの最先端ベースラインに適用し,排他的nuScenesデータセット上で広範囲な実験を行う。 以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。 これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。 コードは、https://github.com/zhouqiu/SOGDet.comで入手できる。

In the field of autonomous driving, accurate and comprehensive perception of the 3D environment is crucial. Bird's Eye View (BEV) based methods have emerged as a promising solution for 3D object detection using multi-view images as input. However, existing 3D object detection methods often ignore the physical context in the environment, such as sidewalk and vegetation, resulting in sub-optimal performance. In this paper, we propose a novel approach called SOGDet (Semantic-Occupancy Guided Multi-view 3D Object Detection), that leverages a 3D semantic-occupancy branch to improve the accuracy of 3D object detection. In particular, the physical context modeled by semantic occupancy helps the detector to perceive the scenes in a more holistic view. Our SOGDet is flexible to use and can be seamlessly integrated with most existing BEV-based methods. To evaluate its effectiveness, we apply this approach to several state-of-the-art baselines and conduct extensive experiments on the exclusive nuScenes dataset. Our results show that SOGDet consistently enhance the performance of three baseline methods in terms of nuScenes Detection Score (NDS) and mean Average Precision (mAP). This indicates that the combination of 3D object detection and 3D semantic occupancy leads to a more comprehensive perception of the 3D environment, thereby aiding build more robust autonomous driving systems. The codes are available at: https://github.com/zhouqiu/SOGDet.
翻訳日:2024-01-09 23:14:02 公開日:2024-01-06
# 非エルミートハミルトニアンに対する新しい対称性理論

A new symmetry theory for non-Hermitian Hamiltonians ( http://arxiv.org/abs/2308.13619v3 )

ライセンス: Link先を確認
Mustapha Maamache and Nour El Houda Absi(参考訳) 記号 {\eta} で表される擬PT対称性理論は、H の随伴である H^{{\dag}} が H^{{\dag}}=PTHPT として表される PT 対称性の違反にもかかわらず、非エルミートハミルトニアンが真のスペクトルを持つことができる条件を探求する。 この理論は、ヒルベルト空間に作用する新しい対称性作用素 {\eta}=pt{\eta} を導入する。 擬 pt 対称性条件は、ハミルトニアンが {\eta} 作用素に可換であることを必要とし、実固有値に繋がる。 我々は、非エルミート調和振動子の結合に対する結果の一般的な意味について論じる。

The {\eta} pseudo PT symmetry theory, denoted by the symbol {\eta}, explores the conditions under which non-Hermitian Hamiltonians can possess real spectra despite the violation of PT symmetry, that is the adjoint of H, denoted H^{{\dag}} is expressed as H^{{\dag}}=PTHPT. This theory introduces a new symmetry operator, {\eta}=PT{\eta}, which acts on the Hilbert space. The {\eta} pseudo PT symmetry condition requires the Hamiltonian to commute with the {\eta} operator, leading to real eigenvalues. We discuss some general implications of our results for the coupled non hermitian harmonic oscillator.
翻訳日:2024-01-09 23:13:34 公開日:2024-01-06
# コパイロットのユーザ中心セキュリティ評価

A User-centered Security Evaluation of Copilot ( http://arxiv.org/abs/2308.06587v4 )

ライセンス: Link先を確認
Owura Asare, Meiyappan Nagappan, N. Asokan(参考訳) 人工知能によって駆動されるコード生成ツールは、ディープラーニングと自然言語処理の進歩により、最近人気が高まっている。 これらのツールの普及は、コードの記述を容易にすることで開発者の生産性を向上させることができるため、二重刃の剣である可能性がある。 本稿では,コードセキュリティに関する強みと弱みをよりよく理解するために,githubのcopilotをユーザ中心で評価する。 我々は、潜在的に脆弱なソリューションを持つプログラミング問題(Copilotアシストなしで)を参加者が解決するユーザスタディを実施します。 ユーザ調査の主な目標は,copilotの使用が参加者のセキュリティパフォーマンスに与える影響を決定することだ。 参加者のセット(n=25)では、難しい問題に取り組む際に、Copilotへのアクセスがよりセキュアなソリューションであることがわかった。 より簡単な問題として、Copilotアクセスがソリューションのセキュリティに与える影響は見つからない。 また、特定の種類の脆弱性に対するCopilotの使用による不当な影響も観測しません。 結果から,Copilotには潜在的なセキュリティ上のメリットがあることが示唆されるが,セキュリティ要件に関する技術的に複雑な問題に対するコード生成ツールの使用の影響について,さらなる研究が保証されている。

Code generation tools driven by artificial intelligence have recently become more popular due to advancements in deep learning and natural language processing that have increased their capabilities. The proliferation of these tools may be a double-edged sword because while they can increase developer productivity by making it easier to write code, research has shown that they can also generate insecure code. In this paper, we perform a user-centered evaluation GitHub's Copilot to better understand its strengths and weaknesses with respect to code security. We conduct a user study where participants solve programming problems (with and without Copilot assistance) that have potentially vulnerable solutions. The main goal of the user study is to determine how the use of Copilot affects participants' security performance. In our set of participants (n=25), we find that access to Copilot accompanies a more secure solution when tackling harder problems. For the easier problem, we observe no effect of Copilot access on the security of solutions. We also observe no disproportionate impact of Copilot use on particular kinds of vulnerabilities. Our results indicate that there are potential security benefits to using Copilot, but more research is warranted on the effects of the use of code generation tools on technically complex problems with security requirements.
翻訳日:2024-01-09 23:10:20 公開日:2024-01-06
# usm-scd:大規模基礎モデルに基づく多言語話者変化検出

USM-SCD: Multilingual Speaker Change Detection Based on Large Pretrained Foundation Models ( http://arxiv.org/abs/2309.08023v3 )

ライセンス: Link先を確認
Guanlong Zhao, Yongqiang Wang, Jason Pelecanos, Yu Zhang, Hank Liao, Yiling Huang, Han Lu, Quan Wang(参考訳) 本稿では,話者交代を同時検出し,96言語でasrを行う多言語話者変化検出モデル(usm-scd)を提案する。 このモデルは、大量の教師付きおよび教師なしデータに基づいて訓練された音声基礎モデルから適応し、下流タスクのための大規模汎用基礎モデルからの微調整の有用性を示す。 この多言語話者変化検出モデルの性能を一連のアブレーション研究により解析する。 その結果,USM-SCDモデルでは,96言語のデータからなるテストセットに対して,平均話者変化検出F1スコアの75%以上を達成可能であることがわかった。 アメリカ英語では、USM-SCDモデルは、様々な公用および内部テストセットで85.8%の話者変化検出F1スコアを達成することができ、以前のモノリンガルベースラインモデルよりも21%高い。 また、最良のモデル性能を達成するためには、トレーニング可能なモデルパラメータの4分の1を微調整する必要があることも示しています。 USM-SCDモデルは、強力なパブリックなASRベースラインと比較して最先端のASR品質を示しており、両方のタスクを無視できる計算コストで処理するのに適している。

We introduce a multilingual speaker change detection model (USM-SCD) that can simultaneously detect speaker turns and perform ASR for 96 languages. This model is adapted from a speech foundation model trained on a large quantity of supervised and unsupervised data, demonstrating the utility of fine-tuning from a large generic foundation model for a downstream task. We analyze the performance of this multilingual speaker change detection model through a series of ablation studies. We show that the USM-SCD model can achieve more than 75% average speaker change detection F1 score across a test set that consists of data from 96 languages. On American English, the USM-SCD model can achieve an 85.8% speaker change detection F1 score across various public and internal test sets, beating the previous monolingual baseline model by 21% relative. We also show that we only need to fine-tune one-quarter of the trainable model parameters to achieve the best model performance. The USM-SCD model exhibits state-of-the-art ASR quality compared with a strong public ASR baseline, making it suitable to handle both tasks with negligible additional computational cost.
翻訳日:2024-01-09 22:59:42 公開日:2024-01-06
# 長期広告記憶可能性:記憶可能な広告の理解と生成

Long-Term Ad Memorability: Understanding and Generating Memorable Ads ( http://arxiv.org/abs/2309.00378v2 )

ライセンス: Link先を確認
Harini S I, Somesh Singh, Yaman K Singla, Aanisha Bhattacharyya, Veeky Baths, Changyou Chen, Rajiv Ratn Shah, Balaji Krishnamurthy(参考訳) マーケターは広告に何十億ドルも費やすが、どう終わるのか? 購入時に、顧客が広告を見たブランドを認識できなければ、広告に費やされたお金は本質的に無駄になる。 マーケティングの重要性にもかかわらず、これまでML文学における広告の記憶可能性に関する研究は行われていない。 ほとんどの研究は、オブジェクトやアクションビデオのような特定のコンテンツタイプの短期リコール(5分)で行われている。 一方、広告業界は長期的な記憶力だけを気にしており、広告はほとんど常に多目的であり、異なるモダリティを通して物語を描いている。 このモチベーションにより、276のブランドをカバーする1749の参加者と2205の広告からなる、最初の大規模記憶可能性データセットLAMDBAをリリースする。 さまざまな参加者のサブポピュレーションや広告タイプに対する統計的テストを実行すると、広告を記憶可能なものにするための興味深い洞察がたくさん見つかる。 例えば、速く動くシーンを持つコマーシャルを使うブランドは、遅いシーン(p=8e-10)よりも記憶に残るものが多く、広告ブロッカーを使うブランドは広告を覚えないブランド(p=5e-3)よりも少ない。 次に、特定のオーディエンスに対するマーケティング資料の記憶可能性をシミュレートするために、LLMの現実的知識と視覚的知識を活用して記憶可能性を予測する新しいモデルHenryを提案する。 我々はHenryを文学における顕著な記憶可能性データセット(画像とビデオの両方)すべてでテストし、それらすべてで最先端のパフォーマンスを実現しています。 Henry氏は、目に見えないデータセットで0ショットでより良い結果を示す強力な一般化を示している。 次に,Henry-Assigned Memorabilityスコアを用いた400万広告からなる大規模広告データセットであるUltraLAMBDAを,記憶可能な広告生成タスクとして提案する。 記憶力のあるコンテンツを生成するためのヘンリーの調整は、記憶力スコアを25%以上向上させる。

Marketers spend billions of dollars on advertisements but to what end? At the time of purchase, if customers cannot recognize the brand for which they saw an ad, the money spent on the ad is essentially wasted. Despite its importance in marketing, until now, there has been no study on the memorability of ads in the ML literature. Most studies have been conducted on short-term recall (<5 mins) on specific content types like object and action videos. On the other hand, the advertising industry only cares about long-term memorability, and ads are almost always highly multimodal, depicting a story through its different modalities. With this motivation, we release the first large-scale memorability dataset, LAMDBA, consisting of 1749 participants and 2205 ads covering 276 brands. Running statistical tests over different participant subpopulations and ad types, we find many interesting insights into what makes an ad memorable. For e.g., we find that brands that use commercials with fast-moving scenes are more memorable than those with slower scenes (p=8e-10) and that people who use ad-blockers remember fewer ads than those who don't (p=5e-3). Next, to simulate the memorability of marketing materials for a particular audience, we present a novel model, Henry, trained to leverage real-world knowledge of LLMs and visual knowledge to predict the memorability. We test Henry on all the prominent memorability datasets in literature (both images and videos) and achieve state-of-the-art performance across all of them. Henry shows strong generalization showing better results in 0-shot on unseen datasets. Next, we propose the task of memorable ad generation and release a large-scale ad dataset, UltraLAMBDA, consisting of 4 million ads with their Henry-assigned memorability scores. We show that aligning Henry to generate memorable content improves memorability scores by more than 25%.
翻訳日:2024-01-09 22:57:55 公開日:2024-01-06
# 残差変換器:トランスフォーマ層のための重み共有型残差低ランク学習

ResidualTransformer: Residual Low-Rank Learning with Weight-Sharing for Transformer Layers ( http://arxiv.org/abs/2310.02489v2 )

ライセンス: Link先を確認
Yiming Wang, Jinyu Li(参考訳) 常時オンのデバイスのメモリ制約は、これらのデバイスに音声処理モデルをデプロイする際の大きな懸念の1つである。 十分な量のデータをトレーニングした大規模モデルの方が一般的にはパフォーマンスがよいが、デバイスメモリに適合させるのは難しい課題だ。 本稿では,トランスフォーマーエンコーダ層にまたがるモデルの重みをパラメータ化し,特別な重み構成と構造を仮定することにより,モデルサイズを低減することを目的とする。 より具体的には、ResNetと最近のLoRAの研究にインスパイアされたResidual Transformerというアプローチを提案し、Transformer層の各重み行列が構成される。 1)隣接層との共有フルランクコンポーネント、及び 2) 独自の低ランクなコンポーネント自体。 低ランクの行列は、少量のモデルサイズの増加しか説明できない。 さらに,低ランク行列のモデリング能力を向上させるために対角重量行列を追加する。 10k時間音声認識と音声翻訳タスクの実験により、トランスコーダのサイズを約3倍小さくし、性能を低下させることができた。

Memory constraint of always-on devices is one of the major concerns when deploying speech processing models on these devices. While larger models trained with sufficiently large amount of data generally perform better, making them fit in the device memory is a demanding challenge. In this paper, we aim to reduce model size by reparameterizing model weights across Transformer encoder layers and assuming a special weight composition and structure. More specifically, inspired by ResNet and the more recent LoRA work, we propose an approach named ResidualTransformer, where each weight matrix in a Transformer layer comprises 1) a shared full-rank component with its adjacent layers, and 2) a unique low-rank component to itself. The low-rank matrices only account for a small amount of model size increase. In addition, we add diagonal weight matrices to improve modeling capacity of the low-rank matrices. Experiments of our 10k-hour speech recognition and speech translation tasks show that the Transformer encoder size can be reduced by ~3X with very slight performance degradation.
翻訳日:2024-01-09 22:47:31 公開日:2024-01-06
# S$^3$-TTA: バイオメディカルイメージセグメンテーションにおけるテスト時間拡張のためのスケールスタイルの選択

S$^3$-TTA: Scale-Style Selection for Test-Time Augmentation in Biomedical Image Segmentation ( http://arxiv.org/abs/2310.16783v2 )

ライセンス: Link先を確認
Kangxian Xie, Siyu Huang, Sebastian Cajas Ordone, Hanspeter Pfister, Donglai Wei(参考訳) ディープラーニングモデルは、バイオメディカルイメージセグメンテーションで成功している。 実世界のデプロイを一般化するために、テスト時間拡張(TTA)メソッドは、テストイメージをトレーニングドメインに近いさまざまなバージョンに変換するためにしばしば使用される。 残念ながら、インスタンススケールとイメージスタイルの多様さのため、多くの拡張テストイメージは望ましくない結果をもたらし、全体的なパフォーマンスが低下する。 本研究は,変換整合度基準に基づいて,各テスト画像に対して適切な画像スケールとスタイルを選択する新しいTTAフレームワークであるS$^3$-TTAを提案する。 さらに、S$^3$-TTAは、タスク指向の強化を保証するために、エンドツーエンドの強化強化共同トレーニングパイプラインを構築する。 S$^3$-TTAは、細胞と肺のセグメンテーションのための公開ベンチマークにおいて、テストフェーズで入力データを増やすことで、それぞれ3.4%と1.3%の改善を示す。

Deep-learning models have been successful in biomedical image segmentation. To generalize for real-world deployment, test-time augmentation (TTA) methods are often used to transform the test image into different versions that are hopefully closer to the training domain. Unfortunately, due to the vast diversity of instance scale and image styles, many augmented test images produce undesirable results, thus lowering the overall performance. This work proposes a new TTA framework, S$^3$-TTA, which selects the suitable image scale and style for each test image based on a transformation consistency metric. In addition, S$^3$-TTA constructs an end-to-end augmentation-segmentation joint-training pipeline to ensure a task-oriented augmentation. On public benchmarks for cell and lung segmentation, S$^3$-TTA demonstrates improvements over the prior art by 3.4% and 1.3%, respectively, by simply augmenting the input data in testing phase.
翻訳日:2024-01-09 22:36:03 公開日:2024-01-06
# 教師なしパーソナライズドレキシコンによる大規模言語モデルにおけるパーソナリティ特性の評価

Tailoring Personality Traits in Large Language Models via Unsupervisedly-Built Personalized Lexicons ( http://arxiv.org/abs/2310.16582v2 )

ライセンス: Link先を確認
Tianlong Li, Shihan Dou, Changze Lv, Wenhao Liu, Jianhan Xu, Muling Wu, Zixuan Ling, Xiaoqing Zheng and Xuanjing Huang(参考訳) パーソナリティは人間の表現パターンを形成する上で重要な役割を担っているため、大きな言語モデル(LLM)のパーソナリティを調節することは、LLMのユーザエクスペリエンスを高める上で大きな可能性を秘めている。 以前の方法は、特定のコーパスに微調整のLLMを頼りにするか、LLMから特定の個性を引き出すために手作業によるプロンプトが必要であった。 しかし、前者のアプローチは非効率でコストがかかるが、後者は微粒なレベルで人格特性を正確に操作することはできない。 以上の課題に対処するため,LLMの復号段階において,Unsupervisedly-Built Personalized Lexicons (UBPL) をプラガブルな方法で使用し,その性格特性を操作した。 UBPLは、状況判断テストデータセット(SJTs4LLM)からの教師なしアプローチによって構築された辞書である。 UBPLを用いて予測単語の確率ベクトルをLLMの復号フェーズで調整することで,LLMの個性表現に影響を与える。 LLMのパーソナリティをきめ細かな操作のために,本手法の顕著な有効性とプラガビリティを示す実験を行った。

Personality plays a pivotal role in shaping human expression patterns, thus regulating the personality of large language models (LLMs) holds significant potential in enhancing the user experience of LLMs. Previous methods either relied on fine-tuning LLMs on specific corpora or necessitated manually crafted prompts to elicit specific personalities from LLMs. However, the former approach is inefficient and costly, while the latter cannot precisely manipulate personality traits at a fine-grained level. To address the above challenges, we have employed a novel Unsupervisedly-Built Personalized Lexicons (UBPL) in a pluggable manner during the decoding phase of LLMs to manipulate their personality traits. UBPL is a lexicon built through an unsupervised approach from a situational judgment test dataset (SJTs4LLM). Users can utilize UBPL to adjust the probability vectors of predicted words in the decoding phase of LLMs, thus influencing the personality expression of LLMs. Extensive experimentation demonstrates the remarkable effectiveness and pluggability of our method for fine-grained manipulation of LLM's personality.
翻訳日:2024-01-09 22:35:28 公開日:2024-01-06
# 安全なコントロール戦略を確保するには? 都市交通自律運転のためのSRLを目指して

How to ensure a safe control strategy? Towards a SRL for urban transit autonomous operation ( http://arxiv.org/abs/2311.14457v2 )

ライセンス: Link先を確認
Zicong Zhao(参考訳) 深層強化学習は、都市交通自律運転における決定能力の遅さを徐々に示してきた。 しかし、強化学習は学習や実行時の安全性を保証できないため、強化学習の実践的応用における大きな障害の1つである。 この欠点を考えると、安全クリティカルな自律操作領域に適用された強化学習は、過速操作を回避する安全な制御命令列を生成することなく困難である。 そこで本稿では,都市交通自律運転列車の安全インテリジェント制御のためのSSA-DRLフレームワークを提案する。 提案するフレームワークは,線形時間論理,強化学習,モンテカルロ木探索と組み合わせて,ポストプロットシールド,探索木モジュール,DRLフレームワーク,アクターの4つのモジュールで構成される。 さらに、フレームワークの出力は速度制約を満たし、スケジュール制約を満たし、操作プロセスを最適化することができる。 最後に、都市交通自律運転における意思決定のためのSSA-DRLフレームワークを16の異なる区間で評価し、その効果をアブレーション実験および予定運転計画との比較により示す。

Deep reinforcement learning has gradually shown its latent decision-making ability in urban rail transit autonomous operation. However, since reinforcement learning can not neither guarantee safety during learning nor execution, this is still one of the major obstacles to the practical application of reinforcement learning. Given this drawback, reinforcement learning applied in the safety-critical autonomous operation domain remains challenging without generating a safe control command sequence that avoids overspeed operations. Therefore, a SSA-DRL framework is proposed in this paper for safe intelligent control of urban rail transit autonomous operation trains. The proposed framework is combined with linear temporal logic, reinforcement learning and Monte Carlo tree search and consists of four mainly module: a post-posed shielding, a searching tree module, a DRL framework and an additional actor. Furthermore, the output of the framework can meet speed constraint, schedule constraint and optimize the operation process. Finally, the proposed SSA-DRL framework for decision-making in urban rail transit autonomous operation is evaluated in sixteen different sections, and its effectiveness is demonstrated through an ablation experiment and comparison with the scheduled operation plan.
翻訳日:2024-01-09 22:27:28 公開日:2024-01-06
# カットオフのない簡易dirac相互作用作用素の自己随伴性

Self-adjointness of a simplified Dirac interaction operator without any cutoffs ( http://arxiv.org/abs/2311.12870v3 )

ライセンス: Link先を確認
Mads J. Damgaard(参考訳) ディラック相互作用作用素の簡略化版として、$\hat h_\mathrm{i} \propto \int d\mathbf{k}d\mathbf{p}(\hat a(\mathbf{k}) + \hat a^\dagger(-\mathbf{k})) \hat b^\dagger(\mathbf{p} + \mathbf{k}) \hat b(\mathbf{p})/\sqrt{|\mathbf{k}|}$ がヒルベルト空間において密な領域上の自己随伴であることを示す。 これを示すために使用するテクニックは、より広い範囲の演算子にも拡張できる可能性がある。 したがって、この手法は将来より数学的に明確に定義されたQFTの理論につながる可能性がある。

We show that a simplified version of the Dirac interaction operator given by $\hat H_\mathrm{I} \propto \int d\mathbf{k}d\mathbf{p}(\hat a(\mathbf{k}) + \hat a^\dagger(-\mathbf{k})) \hat b^\dagger(\mathbf{p} + \mathbf{k}) \hat b(\mathbf{p})/\sqrt{|\mathbf{k}|}$ is self-adjoint on a certain domain that is dense in the Hilbert space, even without any cutoffs. The technique that we use for showing this can potentially be extended to a much wider range of operators as well. This technique might therefore potentially lead to more mathematically well-defined theories of QFT in the future.
翻訳日:2024-01-09 22:26:51 公開日:2024-01-06
# 化学合成における反応条件勧告のための検索増強剤

Retrieval-Augmented Generative Agent for Reaction Condition Recommendation in Chemical Synthesis ( http://arxiv.org/abs/2311.10776v3 )

ライセンス: Link先を確認
Kexin Chen, Junyou Li, Kunyi Wang, Yuyang Du, Jiahui Yu, Jiamin Lu, Lanqing Li, Jiezhong Qiu, Jianzhang Pan, Yi Huang, Qun Fang, Pheng Ann Heng, Guangyong Chen(参考訳) 近年の人工知能(AI)研究は,化学社会における化学自動反応の未来を示唆している。 本研究では, 化学における反応条件レコメンデーション(RCR)タスクを, 検索強化生成(RAG)技術を用いて自動化するトランスフォーメーションAIエージェントを提案する。 専門家の化学者による探索・分析戦略をエミュレートすることで、エージェントは大規模言語モデル(LLM)を用いて分子データベースを問合せし、オンライン文献から重要なデータを抽出する。 さらに、AIエージェントは、RCRタスク用に開発された新しい反応指紋を備える。 RAG技術のおかげで、我々のエージェントは、更新されたオンラインデータベースを知識ソースとして使用し、トレーニングデータ内の固定された知識に制限された従来のAIを著しく上回ります。 結果として生じるシステムは、化学者の作業量を著しく削減し、より根本的で創造的な科学的問題に集中することができる。 この大きな進歩は、より近い計算技術と化学研究をもたらし、化学発見におけるAIの全能力を活用するための大きな飛躍となった。

Recent artificial intelligence (AI) research plots a promising future of automatic chemical reactions within the chemistry society. This study presents a transformative AI agent that automates the reaction condition recommendation (RCR) task in chemistry using retrieval-augmented generation (RAG) technology. By emulating expert chemists search and analysis strategies, the agent employs large language models (LLMs) to interrogate molecular databases and distill critical data from online literature. Further, the AI agent is equipped with our novel reaction fingerprint developed for the RCR task. Thanks to the RAG technology, our agent uses updated online databases as knowledge sources, significantly outperforming conventional AIs confined to the fixed knowledge within its training data. The resulting system can significantly reduce chemists workload, allowing them to focus on more fundamental and creative scientific problems. This significant advancement brings closer computational techniques and chemical research, marking a considerable leap toward harnessing AI's full capabilities in chemical discovery.
翻訳日:2024-01-09 22:25:22 公開日:2024-01-06
# テキスト分類のための言語モデルにおける概念レベルでのスプリアス相関の検討

Explore Spurious Correlations at the Concept Level in Language Models for Text Classification ( http://arxiv.org/abs/2311.08648v2 )

ライセンス: Link先を確認
Yuhang Zhou, Paiheng Xu, Xiaoyu Liu, Bang An, Wei Ai, Furong Huang(参考訳) 言語モデル(LM)は多くのNLPタスクで顕著な成功を収め、微調整と文脈内学習(ICL)の両方の手法を用いている。 言語モデルは例外的な性能を示すが、トレーニングデータやICLの例において不均衡なラベル分布から生じる急激な相関によって頑健性に直面する。 これまでの研究は主に単語、フレーズ、構文の特徴に焦点を合わせてきたが、概念レベルを無視することはしばしば、概念ラベルの欠如や、入力テキストにおける概念内容の特定が困難であったためである。 本稿では2つの主な貢献を紹介する。 まず、chatgptを用いてテキストに概念ラベルを割り当て、微調整やテストデータでのiclにおけるモデルの概念バイアスを評価する。 LMは、トレーニングやプロンプトにおいて概念とラベルの間に急激な相関に遭遇する場合、予測のショートカットを利用する。 次に,chatgptが生成する反事実データを用いてラベル分布のバランスをとり,スプリアス相関を緩和するデータバランス手法を提案する。 従来のトークン除去アプローチを超越した手法の有効性は,広範なテストによって検証される。

Language models (LMs) have achieved notable success in numerous NLP tasks, employing both fine-tuning and in-context learning (ICL) methods. While language models demonstrate exceptional performance, they face robustness challenges due to spurious correlations arising from imbalanced label distributions in training data or ICL exemplars. Previous research has primarily concentrated on word, phrase, and syntax features, neglecting the concept level, often due to the absence of concept labels and difficulty in identifying conceptual content in input texts. This paper introduces two main contributions. First, we employ ChatGPT to assign concept labels to texts, assessing concept bias in models during fine-tuning or ICL on test data. We find that LMs, when encountering spurious correlations between a concept and a label in training or prompts, resort to shortcuts for predictions. Second, we introduce a data rebalancing technique that incorporates ChatGPT-generated counterfactual data, thereby balancing label distribution and mitigating spurious correlations. Our method's efficacy, surpassing traditional token removal approaches, is validated through extensive testing.
翻訳日:2024-01-09 22:24:36 公開日:2024-01-06
# 体積医用画像の解剖学的構造改善のための暗黙的形状モデリング

Implicit Shape Modeling for Anatomical Structure Refinement of Volumetric Medical Images ( http://arxiv.org/abs/2312.06164v2 )

ライセンス: Link先を確認
Minghui Zhang, Hanxiao Zhang, Xin You, Guang-Zhong Yang, Yun Gu(参考訳) 容積データの形状モデリングは医用画像解析とコンピュータ支援介入に不可欠である。 実際には、画像解像度の制限や、制約として使用する十分な詳細な形状事前の欠如により、自動形状再構成が常に満足できる結果を達成することはできない。 本稿では,暗黙的ニューラルネットワークに基づく3次元形状モデリングとセグメンテーション改良のための統一フレームワークを提案する。 トレーニング中に同じカテゴリ内の異なるインスタンスから予め共有可能な形状を学習するために、暗黙的な形状モデリングのための物理情報変換(PICCT)を構築するために、まずボリュームデータの物理的詳細を使用する。 形状表現の改善のために、署名距離関数(SDF)に基づく暗黙的な形状制約がインスタンスと潜在テンプレートの両方に使用される。 推論のために、Convolutional Neural Networks (CNN) が生成する3次元形状を、遅延コードによる深い暗黙的テンプレートによって洗練するために、テンプレートインタラクションモジュール(TIM)を提案する。 肝,膵,肺セグメンテーションを含むバリデーションデータセットの実験結果は,形状改善と再建におけるアプローチの優位性を示している。 提案法で得られたシャマー距離/アースムーバー距離は,肝臓データセットでは0.232/0.087,膵臓データセットでは0.128/0.069,肺葉データセットでは0.417/0.100である。

Shape modeling of volumetric data is essential for medical image analysis and computer-aided intervention. In practice, automated shape reconstruction cannot always achieve satisfactory results due to limited image resolution and a lack of sufficiently detailed shape priors used as constraints. In this paper, a unified framework is proposed for 3D shape modelling and segmentation refinement based on implicit neural networks. To learn a sharable shape prior from different instances within the same category during training, physical details of volumetric data are firstly used to construct Physical-Informed Continuous Coordinate Transform (PICCT) for implicit shape modeling. For improved shape representation, implicit shape constraints based on Signed Distance Function (SDF) are used for both instances and latent templates. For inference, a Template Interaction Module (TIM) is proposed to refine 3D shapes produced by Convolutional Neural Networks (CNNs) via deforming deep implicit templates with latent codes. Experimental results on validation datasets involving liver, pancreas and lung segmentation demonstrate the superiority of our approach in shape refinement and reconstruction. The Chamfer Distance/Earth Mover's Distance achieved by the proposed method are 0.232/0.087 for the Liver dataset, 0.128/0.069 for the Pancreas dataset, and 0.417/0.100 for the Lung Lobe dataset, respectively.
翻訳日:2024-01-09 22:14:15 公開日:2024-01-06
# フェイクニュースが2024年の選挙前予想結果に与える影響の分析

Analyzing the Impact of Fake News on the Anticipated Outcome of the 2024 Election Ahead of Time ( http://arxiv.org/abs/2312.03750v2 )

ライセンス: Link先を確認
Shaina Raza, Mizanur Rahman, Shardul Ghuge(参考訳) フェイクニュースに関する認識と研究の高まりにもかかわらず、北米の政治演説の中で人種的スラリーや偏見を特にターゲットとするデータセットは依然として大きな必要性がある。 これは今後の北米選挙の文脈において特に重要である。 本研究では,これらの誤情報の重要側面を照らす包括的データセットを提案する。 このフェイクニュースデータセットを開発するために、私たちは北米の政治談話に関する4万件のニュース記事のコーパスを作成しました。 このデータセットの一部(4000)は、高度な言語モデルと人間の検証方法を組み合わせて慎重に注釈付けされた。 これら2つのデータセットを研究コミュニティに公開し,注釈付きデータのベンチマークを実施し,その有用性を実証した。 データとともに最高のパフォーマンスの言語モデルをリリースします。 研究者や開発者は、このデータセットを利用して、進行中のイニシアチブに貢献することを推奨しています。

Despite increasing awareness and research around fake news, there is still a significant need for datasets that specifically target racial slurs and biases within North American political speeches. This is particulary important in the context of upcoming North American elections. This study introduces a comprehensive dataset that illuminates these critical aspects of misinformation. To develop this fake news dataset, we scraped and built a corpus of 40,000 news articles about political discourses in North America. A portion of this dataset (4000) was then carefully annotated, using a blend of advanced language models and human verification methods. We have made both these datasets openly available to the research community and have conducted benchmarking on the annotated data to demonstrate its utility. We release the best-performing language model along with data. We encourage researchers and developers to make use of this dataset and contribute to this ongoing initiative.
翻訳日:2024-01-09 22:12:57 公開日:2024-01-06
# ベイズニューラルネットワークはウェポンシステムを改善するか?

Do Bayesian Neural Networks Improve Weapon System Predictive Maintenance? ( http://arxiv.org/abs/2312.10494v2 )

ライセンス: Link先を確認
Michael Potter, Miru Jun(参考訳) 我々は,ニューラルネットワークのベイズ推定プロセスを実装し,インターバルセンセードデータと時間変化共変量を持つ信頼性の高い兵器システムの故障時期をモデル化する。 提案手法であるlaplacennを,auc(auc)精度リコール(pr)auc下の受信者動作特性(roc)領域,信頼性曲線可視化などの標準分類指標を用いて,合成データと実データについて分析・ベンチマークを行った。

We implement a Bayesian inference process for Neural Networks to model the time to failure of highly reliable weapon systems with interval-censored data and time-varying covariates. We analyze and benchmark our approach, LaplaceNN, on synthetic and real datasets with standard classification metrics such as Receiver Operating Characteristic (ROC) Area Under Curve (AUC) Precision-Recall (PR) AUC, and reliability curve visualizations.
翻訳日:2024-01-09 22:00:40 公開日:2024-01-06
# LLMind: 複雑なタスク実行のためのLLMによるAIとIoTのオーケストレーション

LLMind: Orchestrating AI and IoT with LLMs for Complex Task Execution ( http://arxiv.org/abs/2312.09007v2 )

ライセンス: Link先を確認
Hongwei Cui and Yuyang Du and Qun Yang and Yulin Shao and Soung Chang Liew(参考訳) 本稿では,大規模言語モデル(LLM)を中央オーケストレータとして利用するAIフレームワークであるLLMindを紹介する。 このフレームワークはLLMとドメイン固有のAIモジュールを統合し、複雑なタスクの実行においてIoTデバイスが効果的に協力できるようにする。 LLMは、ユーザフレンドリーなソーシャルメディアプラットフォームを通じて、人間と自然な会話を行い、複雑なタスクを実行する計画を立てている。 特に、複数のドメイン固有のAIモジュールとIoTデバイスのコラボレーションを含む複雑なタスクの実行は、コントロールスクリプトを通じて実現される。 LLMは有限状態機械(FSM)に基づく言語コード変換アプローチを用いて制御スクリプトを生成する。 フレームワークにはセマンティック分析と応答最適化技術も組み込まれ、スピードと効率性を高めている。 最終的にこのフレームワークは、IoTデバイスコントロールの革新とユーザエクスペリエンスの強化だけでなく、ユーザとマシンのインタラクションの継続を通じて進化し、より高度なものとなる、インテリジェントで統合されたIoTデバイスエコシステムを育むように設計されている。

In this paper, we introduce LLMind, an AI framework that utilizes large language models (LLMs) as a central orchestrator. The framework integrates LLMs with domain-specific AI modules, enabling IoT devices to collaborate effectively in executing complex tasks. The LLM engages in natural conversations with human users via a user-friendly social media platform to come up with a plan to execute complex tasks. In particular, the execution of a complex task, which may involve the collaborations of multiple domain-specific AI modules and IoT devices, is realized through a control script. The LLM generates the control script using a Language-Code transformation approach based on finite-state machines (FSMs). The framework also incorporates semantic analysis and response optimization techniques to enhance speed and effectiveness. Ultimately, this framework is designed not only to innovate IoT device control and enrich user experiences but also to foster an intelligent and integrated IoT device ecosystem that evolves and becomes more sophisticated through continuing user and machine interactions.
翻訳日:2024-01-09 21:58:09 公開日:2024-01-06
# NAC-TCN:感情理解のための因果拡散近傍注意を伴う時間的畳み込みネットワーク

NAC-TCN: Temporal Convolutional Networks with Causal Dilated Neighborhood Attention for Emotion Understanding ( http://arxiv.org/abs/2312.07507v2 )

ライセンス: Link先を確認
Alexander Mehta and William Yang(参考訳) ビデオからの感情認識のタスクにおいて、重要な改善は、単一のフレームではなく、時間とともに感情に焦点を当てることである。 gru, lstms, self-attention, transformers, and temporal convolutional networks (tcns) など,このタスクに対処するためのアーキテクチャが数多く存在する。 しかし、これらの手法は高いメモリ使用量、大量の操作、あるいは低い勾配に悩まされる。 本稿では,注意と時間的畳み込みネットワークの利点を取り入れつつ,因果関係が理解され,結果として計算コストとメモリコストが低減する畳み込みtcn(nac-tcn)と呼ばれる手法を提案する。 これを実現するために、Dilated Neighborhood Attentionの因果バージョンを導入し、畳み込みを組み込んだ。 我々のモデルは、標準感情認識データセットのパラメータを少なくしながら、TCN、TCL、LSTM、GRUに匹敵する、より優れた、あるいは最先端のパフォーマンスを実現する。 他のプロジェクトで簡単に再現できるようにコードをオンラインで公開しています。

In the task of emotion recognition from videos, a key improvement has been to focus on emotions over time rather than a single frame. There are many architectures to address this task such as GRUs, LSTMs, Self-Attention, Transformers, and Temporal Convolutional Networks (TCNs). However, these methods suffer from high memory usage, large amounts of operations, or poor gradients. We propose a method known as Neighborhood Attention with Convolutions TCN (NAC-TCN) which incorporates the benefits of attention and Temporal Convolutional Networks while ensuring that causal relationships are understood which results in a reduction in computation and memory cost. We accomplish this by introducing a causal version of Dilated Neighborhood Attention while incorporating it with convolutions. Our model achieves comparable, better, or state-of-the-art performance over TCNs, TCAN, LSTMs, and GRUs while requiring fewer parameters on standard emotion recognition datasets. We publish our code online for easy reproducibility and use in other projects.
翻訳日:2024-01-09 21:57:34 公開日:2024-01-06
# スパシフィケーションと量子化による効率的な非同期フェデレーション学習

Efficient Asynchronous Federated Learning with Sparsification and Quantization ( http://arxiv.org/abs/2312.15186v2 )

ライセンス: Link先を確認
Juncheng Jia, Ji Liu, Chendi Zhou, Hao Tian, Mianxiong Dong, Dejing Dou(参考訳) データは複数のエッジデバイスに分散されているが、フェデレーション学習(fl)は、生データを転送せずに機械学習モデルを協調的にトレーニングするためにますます注目を集めている。 flは一般的に、モデルトレーニングのプロセス全体を通してパラメータサーバと多数のエッジデバイスを利用するが、複数のデバイスは各ラウンド毎に選択される。 しかし、ストラグラーデバイスはトレーニングプロセスを遅くしたり、トレーニング中にシステムをクラッシュさせることもある。 一方、他のアイドルエッジデバイスは未使用のままである。 デバイスとサーバ間の帯域幅が比較的低いため、中間データの通信はボトルネックとなる。 本稿では,Sparsification and Quantization,すなわちTEASQ-Fedを用いた時間効率の非同期フェデレーション学習を提案する。 TEASQ-Fedは、タスクに積極的に適用することで、エッジデバイスを完全に活用して、トレーニングプロセスに非同期に参加することができる。 制御パラメータを利用して適切な数の並列エッジデバイスを選択し、同時にトレーニングタスクを実行する。 さらに,キャッシング機構とモデルスタレネスに対する重み付け平均化を導入し,精度の向上を図る。 さらに,中間データを圧縮してトレーニングを高速化するためのスパーシフィケーション・量子化手法を提案する。 実験の結果、TEASQ-Fedは精度を最大16.67%向上し、モデルトレーニングの収束を加速する(最大2倍高速)。

While data is distributed in multiple edge devices, Federated Learning (FL) is attracting more and more attention to collaboratively train a machine learning model without transferring raw data. FL generally exploits a parameter server and a large number of edge devices during the whole process of the model training, while several devices are selected in each round. However, straggler devices may slow down the training process or even make the system crash during training. Meanwhile, other idle edge devices remain unused. As the bandwidth between the devices and the server is relatively low, the communication of intermediate data becomes a bottleneck. In this paper, we propose Time-Efficient Asynchronous federated learning with Sparsification and Quantization, i.e., TEASQ-Fed. TEASQ-Fed can fully exploit edge devices to asynchronously participate in the training process by actively applying for tasks. We utilize control parameters to choose an appropriate number of parallel edge devices, which simultaneously execute the training tasks. In addition, we introduce a caching mechanism and weighted averaging with respect to model staleness to further improve the accuracy. Furthermore, we propose a sparsification and quantitation approach to compress the intermediate data to accelerate the training. The experimental results reveal that TEASQ-Fed improves the accuracy (up to 16.67% higher) while accelerating the convergence of model training (up to twice faster).
翻訳日:2024-01-09 21:48:50 公開日:2024-01-06
# オペレーション研究における量子最適化アルゴリズム:方法,応用,含意

Quantum Optimization Algorithms in Operations Research: Methods, Applications, and Implications ( http://arxiv.org/abs/2312.13636v2 )

ライセンス: Link先を確認
Florian Klug(参考訳) 量子最適化アルゴリズム(QOAs)は、意思決定における最適化手法の適用を根本的に変える可能性がある。 ある種の最適化問題に対して、QOAは現在の最先端のソリューションよりも実行時のパフォーマンス上の大きな利点をもたらすと広く信じられている。 工業化段階に入る量子コンピュータの最近の進歩により、量子ベースの最適化アルゴリズムはより重要になっている。 最近のQOA分野における出版物の増加は、学術と産業の両方においてトピックの重要性が増していることを示している。 本研究の目的は次のとおりである。(1) まず, 意思決定のための量子ベース最適化アルゴリズムの主な技術について考察する。 2) adiabatic と gate-based optimization の2つの基本クラスを記述・比較し,その可能性と限界について論じる。 (3) 今後、QOAによる意思決定に大きく影響することが期待される主要な業務研究応用分野についても検討する。 (4) 最後に, 運用研究の観点からのqoaの今後の利用から生じる現在の意味について考察する。

Quantum optimization algorithms (QOAs) have the potential to fundamentally transform the application of optimization methods in decision making. For certain classes of optimization problems, it is widely believed that QOA enables significant run-time performance benefits over current state-of-the art solutions. With the latest progress on building quantum computers entering the industrialization stage, quantum-based optimization algorithms have become more relevant. The recent extreme increase in the number of publications in the field of QOA demonstrates the growing importance of the topic in both the academia and the industry. The objectives of this paper are as follows: (1) First, we provide insight into the main techniques of quantum-based optimization algorithms for decision making. (2) We describe and compare the two basic classes of adiabatic and gate-based optimization algorithms and argue their potentials and limitations. (3) Herein, we also investigate the key operations research application areas that are expected to be considerably impacted by the use of QOA in decision making in the future. (4) Finally, current implications arising from the future use of QOA from an operations research perspective are discussed.
翻訳日:2024-01-09 21:46:09 公開日:2024-01-06
# 行動項目駆動による長文の要約

Action-Item-Driven Summarization of Long Meeting Transcripts ( http://arxiv.org/abs/2312.17581v2 )

ライセンス: Link先を確認
Logan Golia, Jugal Kalita(参考訳) オンライン会議の普及の増加は、所定の会議の概要を自動的に生成できるモデルの実用性を大幅に向上させた。 本稿では,ミーティングサマリーの生成を自動化する新しい,効果的なアプローチを提案する。 この問題に対する現在のアプローチは、ミーティングを単に長い対話として考えることで、一般的かつ基本的な要約を生み出している。 しかし,本アルゴリズムでは,会議書に含まれるアクション項目によって駆動される抽象的な会議要約を生成することができる。 これは、要約を逐次生成し、ミーティングの各セクションを並列にアクションイテム抽出アルゴリズムを用いて行う。 これらのセクションのサマリーはすべて結合され、コヒーレントかつアクション・テーマ駆動のサマリを作成するためにまとめられる。 さらに,長文をトピックベースのセクションに分割することで,アルゴリズムの時間効率を向上させるとともに,長期依存を忘れる大規模言語モデル(LLM)の問題を解決するための3つの新しい手法を提案する。 我々のパイプラインは、AMIコーパス全体で64.98のBERTSスコアを達成した。これは、細調整されたBART(Bidirectional and Auto-Regressive Transformers)モデルによって生成された現在の最先端結果から約4.98%の増加である。

The increased prevalence of online meetings has significantly enhanced the practicality of a model that can automatically generate the summary of a given meeting. This paper introduces a novel and effective approach to automate the generation of meeting summaries. Current approaches to this problem generate general and basic summaries, considering the meeting simply as a long dialogue. However, our novel algorithms can generate abstractive meeting summaries that are driven by the action items contained in the meeting transcript. This is done by recursively generating summaries and employing our action-item extraction algorithm for each section of the meeting in parallel. All of these sectional summaries are then combined and summarized together to create a coherent and action-item-driven summary. In addition, this paper introduces three novel methods for dividing up long transcripts into topic-based sections to improve the time efficiency of our algorithm, as well as to resolve the issue of large language models (LLMs) forgetting long-term dependencies. Our pipeline achieved a BERTScore of 64.98 across the AMI corpus, which is an approximately 4.98% increase from the current state-of-the-art result produced by a fine-tuned BART (Bidirectional and Auto-Regressive Transformers) model.
翻訳日:2024-01-09 21:36:34 公開日:2024-01-06
# ダイヤモンド中の^<15}$nv中心を有するエミュレートされた核スピンジャイロスコープ

Emulated nuclear spin gyroscope with $^{15}$NV centers in diamond ( http://arxiv.org/abs/2401.01333v3 )

ライセンス: Link先を確認
Guoqing Wang, Minh-Thi Nguyen, Dane W. deQuilettes, Eden Price, Zhiyao Hu, Danielle A. Braje, Paola Cappellaro(参考訳) 固体プラットフォームの核スピンは、長いコヒーレンス時間のために回転センサーを構築することを約束している。 これらのプラットフォームの中で、窒素空室センターは環境操作条件でかなりの注目を集めている。 しかし、NVジャイロスコープの現在の性能は、大きなスピンアンサンブルで操作する際のコヒーレンス低下によって制限されている。 これらの系のコヒーレンスを保護するには、コヒーレンス崩壊機構の体系的研究が必要である。 ここでは,nv中心の窒素-15核スピンをジャイロスコープの構築に利用し,そのエネルギー構造が単純で,窒素14核スピンに比べて核四重極項が消滅する利点があるが,コヒーレンス保護の課題が異なる。 我々は、異なるNV電子スピン多様体における核スピンのコヒーレンス崩壊機構を体系的に明らかにし、さらに、NV電子スピンのみを制御することに基づく堅牢なコヒーレンス保護プロトコルを開発し、15倍の劣化時間改善を実現する。 改良されたコヒーレンス保護により,設計した回転率パターンを計測し,磁気感度の向上を示すエミュレートジャイロスコープを実証した。

Nuclear spins in solid-state platforms are promising for building rotation sensors due to their long coherence times. Among these platforms, nitrogen-vacancy centers have attracted considerable attention with ambient operating conditions. However, the current performance of NV gyroscopes remains limited by the degraded coherence when operating with large spin ensembles. Protecting the coherence of these systems requires a systematic study of the coherence decay mechanism. Here we present the use of nitrogen-15 nuclear spins of NV centers in building gyroscopes, benefiting from its simpler energy structure and vanishing nuclear quadrupole term compared with nitrogen-14 nuclear spins, though suffering from different challenges in coherence protection. We systematically reveal the coherence decay mechanism of the nuclear spin in different NV electronic spin manifolds and further develop a robust coherence protection protocol based on controlling the NV electronic spin only, achieving a 15-fold dephasing time improvement. With the developed coherence protection, we demonstrate an emulated gyroscope by measuring a designed rotation rate pattern, showing an order-of-magnitude sensitivity improvement.
翻訳日:2024-01-09 21:24:10 公開日:2024-01-06
# cheetah: アフリカ517言語のための自然言語生成

Cheetah: Natural Language Generation for 517 African Languages ( http://arxiv.org/abs/2401.01053v2 )

ライセンス: Link先を確認
Ife Adebara, AbdelRahim Elmadany, Muhammad Abdul-Mageed(参考訳) 低リソースのアフリカ言語は自然言語生成(NLG)を含む自然言語処理(NLP)タスクに固有の課題をもたらす。 本稿ではアフリカ語のための多言語NLG言語モデルであるCheetahを開発する。 Cheetahは517のアフリカ語と言語品種をサポートし、NLGリソースの不足に対処し、言語多様性を育むためのソリューションを提供する。 7世代のダウンストリームタスクを包括的評価することにより,cheetahの有効性を実証する。 7つのタスクのうち5つで、cheetahは他のモデルを大きく上回り、幅広いアフリカの言語でコヒーレントで文脈に合ったテキストを生成するという顕著な性能を示している。 さらに,cheetahの言語能力について深く掘り下げるために,詳細な人間評価を行う。 チーターの導入は言語多様性にとって大きな利点がある。 事前訓練されたモデルを活用して特定の言語に適応することにより、アフリカのコミュニティに実用的なNLGアプリケーションの開発を促進する。 本研究は,低リソース環境でのNLP研究の進展に寄与し,急速に拡大するデジタルランドスケープにおけるアフリカ言語へのアクセシビリティと包摂性の向上に寄与する。 研究のためのモデルを公開します。

Low-resource African languages pose unique challenges for natural language processing (NLP) tasks, including natural language generation (NLG). In this paper, we develop Cheetah, a massively multilingual NLG language model for African languages. Cheetah supports 517 African languages and language varieties, allowing us to address the scarcity of NLG resources and provide a solution to foster linguistic diversity. We demonstrate the effectiveness of Cheetah through comprehensive evaluations across seven generation downstream tasks. In five of the seven tasks, Cheetah significantly outperforms other models, showcasing its remarkable performance for generating coherent and contextually appropriate text in a wide range of African languages. We additionally conduct a detailed human evaluation to delve deeper into the linguistic capabilities of Cheetah. The introduction of Cheetah has far-reaching benefits for linguistic diversity. By leveraging pretrained models and adapting them to specific languages, our approach facilitates the development of practical NLG applications for African communities. The findings of this study contribute to advancing NLP research in low-resource settings, enabling greater accessibility and inclusion for African languages in a rapidly expanding digital landscape. We publicly release our models for research.
翻訳日:2024-01-09 21:22:16 公開日:2024-01-06
# SecFormer: 大規模言語モデルの高速かつ正確なプライバシ保護推論を目指す

SecFormer: Towards Fast and Accurate Privacy-Preserving Inference for Large Language Models ( http://arxiv.org/abs/2401.00793v2 )

ライセンス: Link先を確認
Jinglong Luo, Yehong Zhang, Jiaqi Zhang, Xin Mu, Hui Wang, Yue Yu, Zenglin Xu(参考訳) クラウドプラットフォームにホストされる大規模言語モデルを使用して推論サービスを提供することで、特に投資計画や銀行口座の詳細といった機密データに関して、プライバシの懸念が高まっている。 セキュアなマルチパーティコンピューティング(smpc)は、推論データとモデルパラメータのプライバシを保護するための有望なソリューションとして現れる。 しかし、大きな言語モデル、特に Transformer アーキテクチャに基づくモデルに対する SMPC のプライバシ保存推論(PPI)への応用は、性能の大幅な低下や低下につながることが多い。 これは主に、smpcには適しておらず、効果的に回避や最適化が難しいトランスフォーマーアーキテクチャにおける多数の非線形操作に起因する。 そこで我々は,Transformerモデルの高速かつ正確なPPIを実現するために,SecFormerという高度な最適化フレームワークを導入する。 モデル設計最適化を実装することにより、モデル性能を犠牲にすることなく、PPIの高速指数演算と最大演算をうまく除去する。 さらに,GeLUやLayerNorm,SoftmaxなどのPPI内の複素非線形関数を扱うために,分割多項式,フーリエ級数,Goldschmidt法を利用する効率的なSMPCプロトコル群を開発した。 我々の広範な実験によると、SecFormerはMPCFormerのパフォーマンスより優れており、BERT$_{\text{BASE}}$とBERT$_{\text{LARGE}}$に対して5.6\%$と24.2\%$がそれぞれ改善されている。 効率の面では、 secformer は bert$_{\text{base}}$ と bert$_{\text{large}}$ で puma よりも 3.56 と 3.58 倍高速であり、その効果と速度を示している。

With the growing use of large language models hosted on cloud platforms to offer inference services, privacy concerns are escalating, especially concerning sensitive data like investment plans and bank account details. Secure Multi-Party Computing (SMPC) emerges as a promising solution to protect the privacy of inference data and model parameters. However, the application of SMPC in Privacy-Preserving Inference (PPI) for large language models, particularly those based on the Transformer architecture, often leads to considerable slowdowns or declines in performance. This is largely due to the multitude of nonlinear operations in the Transformer architecture, which are not well-suited to SMPC and difficult to circumvent or optimize effectively. To address this concern, we introduce an advanced optimization framework called SecFormer, to achieve fast and accurate PPI for Transformer models. By implementing model design optimization, we successfully eliminate the high-cost exponential and maximum operations in PPI without sacrificing model performance. Additionally, we have developed a suite of efficient SMPC protocols that utilize segmented polynomials, Fourier series and Goldschmidt's method to handle other complex nonlinear functions within PPI, such as GeLU, LayerNorm, and Softmax. Our extensive experiments reveal that SecFormer outperforms MPCFormer in performance, showing improvements of $5.6\%$ and $24.2\%$ for BERT$_{\text{BASE}}$ and BERT$_{\text{LARGE}}$, respectively. In terms of efficiency, SecFormer is 3.56 and 3.58 times faster than Puma for BERT$_{\text{BASE}}$ and BERT$_{\text{LARGE}}$, demonstrating its effectiveness and speed.
翻訳日:2024-01-09 21:21:32 公開日:2024-01-06
# ジェネラリスト埋め込みモデルは特殊埋め込みモデルよりも短文脈臨床意味検索に優れている

Generalist embedding models are better at short-context clinical semantic search than specialized embedding models ( http://arxiv.org/abs/2401.01943v2 )

ライセンス: Link先を確認
Jean-Baptiste Excoffier, Tom Roehr, Alexei Figueroa, Jens-Michalis Papaioannou, Keno Bressem, Matthieu Ortala(参考訳) 医療領域における様々なタスクに対して,LLM(Large Language Models)に基づくツールやソリューションの利用が増加傾向にある。 この極めて批判的かつ敏感な領域でのそれらの使用は、特に入力の変動と生成された出力の信頼性に対するロバスト性に関する重要な疑問を提起している。 本研究は、icd-10-cmのコード記述に基づくテキストデータセットを構築し、米国の病院で広く使用されており、多くの臨床用語を含む。 次に,既存の埋め込みモデルであるジェネラリストや臨床領域の専門知識をセマンティック検索タスクでベンチマークし,リフレッシュされたテキストと元の記述とを正しく一致させることを目標とした。 以上の結果から,臨床モデルよりもジェネラリストモデルの方が優れた結果が得られ,既存の臨床特化モデルの方が入力の小さな変化に敏感であることが示唆された。 専門的なモデルの強調された問題は、十分なデータで訓練されていないことと、特に信頼できるグローバル言語理解を持つのに十分な多様性を持たないデータセットが、医学文書の正確な処理に依然として必要であるという事実にあるかもしれない。

The increasing use of tools and solutions based on Large Language Models (LLMs) for various tasks in the medical domain has become a prominent trend. Their use in this highly critical and sensitive domain has thus raised important questions about their robustness, especially in response to variations in input, and the reliability of the generated outputs. This study addresses these questions by constructing a textual dataset based on the ICD-10-CM code descriptions, widely used in US hospitals and containing many clinical terms, and their easily reproducible rephrasing. We then benchmarked existing embedding models, either generalist or specialized in the clinical domain, in a semantic search task where the goal was to correctly match the rephrased text to the original description. Our results showed that generalist models performed better than clinical models, suggesting that existing clinical specialized models are more sensitive to small changes in input that confuse them. The highlighted problem of specialized models may be due to the fact that they have not been trained on sufficient data, and in particular on datasets that are not diverse enough to have a reliable global language understanding, which is still necessary for accurate handling of medical documents.
翻訳日:2024-01-09 21:13:12 公開日:2024-01-06
# 生成AI時代のIoT - ビジョンと課題

IoT in the Era of Generative AI: Vision and Challenges ( http://arxiv.org/abs/2401.01923v2 )

ライセンス: Link先を確認
Xin Wang, Zhongwei Wan, Arvin Hekmati, Mingyu Zong, Samiul Alam, Mi Zhang, Bhaskar Krishnamachari(参考訳) センサー、ネットワーク、コンピューティング機能を備えたスマートフォン、ウェアラブル、スマートスピーカー、家庭用ロボットといったIoT(Internet of Things)は、私たちの日常生活にシームレスに織り込まれています。 GPT、LLaMA、DALL-E、Stable Difussionによって実証されたジェネレーティブAIの最近の進歩は、IoTを次のレベルに押し上げるという大きな約束を持っている。 この記事では、Generative AIがIoTにもたらすメリットに関するビジョンと見解を共有し、IoT関連領域におけるGenerative AIの最も重要な応用について論じます。 IoTにおける生成AIの活用は、非常に難しい課題です。 我々は、ジェネレーティブAIモデルの高リソース要求、プロンプトエンジニアリング、オンデバイス推論、オフロード、オンデバイスファインチューニング、フェデレーションラーニング、セキュリティ、開発ツールやベンチマークなど、いくつかの重要な課題を特定し、現在のギャップを議論するとともに、ジェネレーティブAIをIoTに活用するための有望な機会について論じる。 この記事では、ジェネレーティブAIの時代におけるIoTに関する新たな研究を刺激できることを願っています。

Equipped with sensing, networking, and computing capabilities, Internet of Things (IoT) such as smartphones, wearables, smart speakers, and household robots have been seamlessly weaved into our daily lives. Recent advancements in Generative AI exemplified by GPT, LLaMA, DALL-E, and Stable Difussion hold immense promise to push IoT to the next level. In this article, we share our vision and views on the benefits that Generative AI brings to IoT, and discuss some of the most important applications of Generative AI in IoT-related domains. Fully harnessing Generative AI in IoT is a complex challenge. We identify some of the most critical challenges including high resource demands of the Generative AI models, prompt engineering, on-device inference, offloading, on-device fine-tuning, federated learning, security, as well as development tools and benchmarks, and discuss current gaps as well as promising opportunities on enabling Generative AI for IoT. We hope this article can inspire new research on IoT in the era of Generative AI.
翻訳日:2024-01-09 21:12:52 公開日:2024-01-06
# 心理学的応用におけるLCMのフロンティアを探る : 総合的なレビュー

Exploring the Frontiers of LLMs in Psychological Applications: A Comprehensive Review ( http://arxiv.org/abs/2401.01519v2 )

ライセンス: Link先を確認
Luoma Ke (1), Song Tong (1), Peng Cheng (2), Kaiping Peng (1) ((1) Department of Psychology, Tsinghua University, (2) School of Social Science, Tsinghua University)(参考訳) 本稿では,心理学応用における大規模言語モデル(LLM)のフロンティアについて考察する。 心理学はいくつかの理論的変化を経験しており、現在の人工知能(AI)と機械学習(特にLLM)の使用は、新しい研究方向を開くことを約束している。 本稿では,ChatGPT などの LLM が心理的研究をどのように変革しているかを詳細に調査する。 認知・行動学、臨床・カウンセリング、教育・発達学、社会的・文化的心理学など、心理学の様々な分野におけるLLMの影響について論じ、人間の認知と行動の側面をシミュレートする可能性を強調する。 論文は、これらのモデルが人間のようなテキスト生成を模倣する能力に精通し、文学レビュー、仮説生成、実験デザイン、実験対象、データ分析、学術著作、心理学におけるピアレビューのための革新的なツールを提供する。 LLMは心理学における研究方法論の進歩に不可欠であるが、その技術的・倫理的課題にも注意が必要である。 データプライバシ、心理学研究におけるllmの使用の倫理的意味、およびこれらのモデルの制限のより深い理解の必要性といった問題があります。 研究者は、倫理基準に固執し、これらの技術をセンシティブな領域に展開する可能性を考慮して、心理的研究にLCMを責任を持って使用するべきである。 この記事では、心理学におけるLLMの現状を概観し、潜在的なメリットと課題を探求する。 これは、研究者がLSMの利点を責任を持って活用し、関連するリスクに対処するための行動である。

This paper explores the frontiers of large language models (LLMs) in psychology applications. Psychology has undergone several theoretical changes, and the current use of Artificial Intelligence (AI) and Machine Learning, particularly LLMs, promises to open up new research directions. We provide a detailed exploration of how LLMs like ChatGPT are transforming psychological research. It discusses the impact of LLMs across various branches of psychology, including cognitive and behavioral, clinical and counseling, educational and developmental, and social and cultural psychology, highlighting their potential to simulate aspects of human cognition and behavior. The paper delves into the capabilities of these models to emulate human-like text generation, offering innovative tools for literature review, hypothesis generation, experimental design, experimental subjects, data analysis, academic writing, and peer review in psychology. While LLMs are essential in advancing research methodologies in psychology, the paper also cautions about their technical and ethical challenges. There are issues like data privacy, the ethical implications of using LLMs in psychological research, and the need for a deeper understanding of these models' limitations. Researchers should responsibly use LLMs in psychological studies, adhering to ethical standards and considering the potential consequences of deploying these technologies in sensitive areas. Overall, the article provides a comprehensive overview of the current state of LLMs in psychology, exploring potential benefits and challenges. It serves as a call to action for researchers to leverage LLMs' advantages responsibly while addressing associated risks.
翻訳日:2024-01-09 21:09:54 公開日:2024-01-06
# 転送可能な学習画像圧縮耐性逆摂動

Transferable Learned Image Compression-Resistant Adversarial Perturbations ( http://arxiv.org/abs/2401.03115v1 )

ライセンス: Link先を確認
Yang Sui, Zhuohang Li, Ding Ding, Xiang Pan, Xiaozhong Xu, Shan Liu, Zhenzhong Chen(参考訳) 敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。 既存の逆摂動は主に従来の画像圧縮法(jpeg)によって非圧縮画像や圧縮画像に適用されているが、限定的な研究によりdnnベースの画像圧縮の文脈における画像分類モデルの頑健性が研究されている。 高度な画像圧縮の急速な進化に伴い、DNNベースの学習画像圧縮は、従来の圧縮よりも優れたパフォーマンスのため、クラウドベースの顔認識や自律運転など、多くのセキュリティクリティカルなアプリケーションで画像を送信するための有望なアプローチとして登場した。 そのため,学習画像圧縮処理後の分類システムのロバスト性について十分に検討する必要がある。 この研究のギャップを埋めるために,我々は,学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした,新たなパイプラインの敵意攻撃を探求する。 さらに,様々な品質レベルおよび学習画像圧縮モデルのアーキテクチャにおける摂動の伝達性を高めるため,転送可能な摂動の高速生成を可能にするサリエンシースコアに基づくサンプリング手法を提案する。 一般的な攻撃手法を用いた大規模な実験は,異なる学習画像圧縮モデルで処理した画像に対する攻撃において,提案手法の伝達性の向上を示す。

Adversarial attacks can readily disrupt the image classification system, revealing the vulnerability of DNN-based recognition tasks. While existing adversarial perturbations are primarily applied to uncompressed images or compressed images by the traditional image compression method, i.e., JPEG, limited studies have investigated the robustness of models for image classification in the context of DNN-based image compression. With the rapid evolution of advanced image compression, DNN-based learned image compression has emerged as the promising approach for transmitting images in many security-critical applications, such as cloud-based face recognition and autonomous driving, due to its superior performance over traditional compression. Therefore, there is a pressing need to fully investigate the robustness of a classification system post-processed by learned image compression. To bridge this research gap, we explore the adversarial attack on a new pipeline that targets image classification models that utilize learned image compressors as pre-processing modules. Furthermore, to enhance the transferability of perturbations across various quality levels and architectures of learned image compression models, we introduce a saliency score-based sampling method to enable the fast generation of transferable perturbation. Extensive experiments with popular attack methods demonstrate the enhanced transferability of our proposed method when attacking images that have been post-processed with different learned image compression models.
翻訳日:2024-01-09 20:38:44 公開日:2024-01-06
# GLISP:グラフの構造的特性の爆発的展開によるスケーラブルなGNN学習システム

GLISP: A Scalable GNN Learning System by Exploiting Inherent Structural Properties of Graphs ( http://arxiv.org/abs/2401.03114v1 )

ライセンス: Link先を確認
Zhongshu Zhu, Bin Jing, Xiaopei Wan, Zhizhen Liu, Lei Liang, Jun zhou(参考訳) グラフデータモデリングの強力なツールとして、グラフニューラルネットワーク(GNN)は、学術と産業の両方で注目を集めている。 それでも、巨大なデータサイズと複雑なトポロジ構造のため、GNNを産業規模のグラフにデプロイすることは極めて困難である。 本稿では,産業規模グラフのためのサンプリングベースGNN学習システムであるGLISPを提案する。 電力法分布やデータ局所性などのグラフの固有の構造特性を活用することで、GLISPはグラフ学習プロセスの異なる段階で発生するスケーラビリティとパフォーマンスの問題に対処する。 GLISPは、グラフパーティショナ、グラフサンプリングサービス、グラフ推論エンジンの3つのコアコンポーネントで構成されている。 グラフパーティショナは、提案された頂点カットグラフ分割アルゴリズムをアドバンスとして、サンプリングベースのgnnシステムで必須となるパワーローグラフのバランス付きパーティショニングを生成する。 グラフサンプリングサービスはロードバランシング設計を採用しており、高次頂点の1つのホップサンプリング要求を複数のサーバで処理することができる。 メモリ効率の良いデータ構造とともに、効率性とスケーラビリティが効果的に向上する。 グラフ推論エンジンは、$K$層GNNを$K$スライスに分割し、再利用のためのデータ局所性を考慮したハイブリッドキャッシュシステムにおいて、各スライスによって生成された頂点埋め込みをキャッシュする。 大規模な実験によると、GLISPはトレーニングタスクと推論タスクのために既存のGNNシステムのスピードアップを最大6.53\times$と70.77\times$で達成し、限られたリソースを持つ100億以上の頂点と400億のエッジを持つグラフにスケールできる。

As a powerful tool for modeling graph data, Graph Neural Networks (GNNs) have received increasing attention in both academia and industry. Nevertheless, it is notoriously difficult to deploy GNNs on industrial scale graphs, due to their huge data size and complex topological structures. In this paper, we propose GLISP, a sampling based GNN learning system for industrial scale graphs. By exploiting the inherent structural properties of graphs, such as power law distribution and data locality, GLISP addresses the scalability and performance issues that arise at different stages of the graph learning process. GLISP consists of three core components: graph partitioner, graph sampling service and graph inference engine. The graph partitioner adopts the proposed vertex-cut graph partitioning algorithm AdaDNE to produce balanced partitioning for power law graphs, which is essential for sampling based GNN systems. The graph sampling service employs a load balancing design that allows the one hop sampling request of high degree vertices to be handled by multiple servers. In conjunction with the memory efficient data structure, the efficiency and scalability are effectively improved. The graph inference engine splits the $K$-layer GNN into $K$ slices and caches the vertex embeddings produced by each slice in the data locality aware hybrid caching system for reuse, thus completely eliminating redundant computation caused by the data dependency of graph. Extensive experiments show that GLISP achieves up to $6.53\times$ and $70.77\times$ speedups over existing GNN systems for training and inference tasks, respectively, and can scale to the graph with over 10 billion vertices and 40 billion edges with limited resources.
翻訳日:2024-01-09 20:37:57 公開日:2024-01-06
# 単イオン異方性スピン鎖におけるエルゴーディティからスターク多体局在へ

From ergodicity to Stark many-body localization in spin chains with single-ion anisotropy ( http://arxiv.org/abs/2401.03111v1 )

ライセンス: Link先を確認
M. G. Sousa, Rafael F. P. Costa, G. D. de Moraes Neto, and E. Vernek(参考訳) エルゴディシティと熱化の原理は統計力学の基礎であり、多体系は進化するにつれて局所的な情報を失うことを仮定している。 しかしながら、これらの原理は、多体局在と呼ばれる現象で観察されるように、熱化ダイナミクスが局所情報の保存に繋がるときに破壊される。 量子スピン鎖は閉相互作用量子多体系の力学を探索するための基礎的なプラットフォームを提供する。 本研究では,非一様磁場と単イオン異方性を考慮したマゼンダー・ゴッシュ模型におけるスピンチェーンの動力学について検討する。 厳密な数値対角化を用いて、ほぼ一定の勾配の磁場が熱化を抑制する現象としてスターク多体局在 (smbl) があり、以前は$s=1/2$チェーンで観測されていた。 さらに, 単イオン異方性の存在だけでは, システム内の熱化を防げることがわかった。 興味深いことに、磁場と異方性の大きさが等しい場合、それらは非局在化を好む。 このシナリオでは、単一イオン異方性によるsmblの潜在的な障害にもかかわらず、局在化のための別のメカニズムを導入する。 我々の解釈は、退化固有状態間の局所的なエネルギー的制約と共鳴を考慮すると、SMBLに関する洞察を提供するだけでなく、障害のある自由局所化$S\geq 1/2$系の豊かな現象論に関する将来の実験的研究の道を開く。

The principles of ergodicity and thermalization constitute the foundation of statistical mechanics, positing that a many-body system progressively loses its local information as it evolves. Nevertheless, these principles can be disrupted when thermalization dynamics lead to the conservation of local information, as observed in the phenomenon known as many-body localization. Quantum spin chains provide a fundamental platform for exploring the dynamics of closed interacting quantum many-body systems. This study explores the dynamics of a spin chain with $S\geq 1/2$ within the Majumdar-Ghosh model, incorporating a non-uniform magnetic field and single-ion anisotropy. Through the use of exact numerical diagonalization, we unveil that a nearly constant-gradient magnetic field suppress thermalization, a phenomenon termed Stark many-body localization (SMBL), previously observed in $S=1/2$ chains. Furthermore, our findings reveal that the sole presence of single-ion anisotropy is sufficient to prevent thermalization in the system. Interestingly, when the magnitudes of the magnetic field and anisotropy are comparable, they compete, favoring delocalization. Despite the potential hindrance of SMBL by single-ion anisotropy in this scenario, it introduces an alternative mechanism for localization. Our interpretation, considering local energetic constraints and resonances between degenerate eigenstates, not only provides insights into SMBL but also opens avenues for future experimental investigations into the enriched phenomenology of disordered free localized $S\geq 1/2$ systems.
翻訳日:2024-01-09 20:37:26 公開日:2024-01-06
# Dress-Me-Up: 自己監督型3Dガーメント再ターゲットのためのデータセットと方法

Dress-Me-Up: A Dataset & Method for Self-Supervised 3D Garment Retargeting ( http://arxiv.org/abs/2401.03108v1 )

ライセンス: Link先を確認
Shanthika Naik, Kunwar Singh, Astitva Srivastava, Dhawal Sirikonda, Amit Raj, Varun Jampani, Avinash Sharma(参考訳) 任意の形状とポーズの3D人間のアバターに、非パラメータ化された3D衣服を再ターゲティングするための新しい自己組織化フレームワークを提案する。 既存の自己監督型3Dリターゲティング手法はパラメトリック服と標準服のみをサポートしており、これはパラメトリックボディ(例えばSMPL)上でのみ描画できる。 本研究は,非パラメトリックな衣服と身体を容易にするために,衣服と人体の対応を整合させて,2つのメッシュ間の粗いアライメントを得る新しい方法を提案する。 我々は自己教師付き環境で粗いアライメントの神経リファインメントを行う。 さらに,ラプラシアン細部積分法を応用して,入力衣服の固有細部を保存する。 3次元非パラメトリックな衣服再ターゲティングフレームワークを評価するために,現実的な雑音と位相変形を伴う255個の現実世界の衣服のデータセットを提案する。 このデータセットには、15人の異なる被験者が5つのユニークなポーズで着る4,4ドルのユニークな衣服が含まれている。 提案した非パラメトリックな3次元衣料再ターゲティングデータセットのベースラインとして,既存の最先端手法に比べて,非パラメトリックな衣服や人間のアバターに優れたリターゲティング品質を示す。

We propose a novel self-supervised framework for retargeting non-parameterized 3D garments onto 3D human avatars of arbitrary shapes and poses, enabling 3D virtual try-on (VTON). Existing self-supervised 3D retargeting methods only support parametric and canonical garments, which can only be draped over parametric body, e.g. SMPL. To facilitate the non-parametric garments and body, we propose a novel method that introduces Isomap Embedding based correspondences matching between the garment and the human body to get a coarse alignment between the two meshes. We perform neural refinement of the coarse alignment in a self-supervised setting. Further, we leverage a Laplacian detail integration method for preserving the inherent details of the input garment. For evaluating our 3D non-parametric garment retargeting framework, we propose a dataset of 255 real-world garments with realistic noise and topological deformations. The dataset contains $44$ unique garments worn by 15 different subjects in 5 distinctive poses, captured using a multi-view RGBD capture setup. We show superior retargeting quality on non-parametric garments and human avatars over existing state-of-the-art methods, acting as the first-ever baseline on the proposed dataset for non-parametric 3D garment retargeting.
翻訳日:2024-01-09 20:36:56 公開日:2024-01-06
# マルチモーダル大言語モデルにおける視覚的エキスパートによる情報損失の解消

Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models ( http://arxiv.org/abs/2401.03105v1 )

ライセンス: Link先を確認
Xin He and Longhui Wei and Lingxi Xie and Qi Tian(参考訳) MLLM(Multimodal Large Language Models)は急激な成長を遂げており、ここ数ヶ月で注目すべき貢献が数多く得られている。 一般的なトレンドは、さまざまな命令追従データセットを収集するデータ駆動手法の採用である。 しかし、CLIPのようなエンコーダが入力から視覚情報を抽出するために使用されるように、これらのアプローチでは、特に視覚知覚能力の制限に関連して、一般的な課題が続いている。 これらのエンコーダは数十億のイメージテキストペアで事前トレーニングされているが、テキストによるキャプションは画像に描かれたコンテンツの一部しかキャプチャしないため、情報損失のジレンマに苦しめられている。 そこで本研究では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。 具体的には,マルチタスクエンコーダとビジュアルツールを既存のMLLMのトレーニングと推論パイプラインに組み込むことによって,視覚入力のより包括的で正確な要約を実現する手法を提案する。 広汎な実験は、視覚専門家の統合によって達成された視覚的知覚の向上を示すMLLMの進歩の有効性を評価してきた。

Multimodal Large Language Models (MLLMs) are experiencing rapid growth, yielding a plethora of noteworthy contributions in recent months. The prevailing trend involves adopting data-driven methodologies, wherein diverse instruction-following datasets are collected. However, a prevailing challenge persists in these approaches, specifically in relation to the limited visual perception ability, as CLIP-like encoders employed for extracting visual information from inputs. Though these encoders are pre-trained on billions of image-text pairs, they still grapple with the information loss dilemma, given that textual captions only partially capture the contents depicted in images. To address this limitation, this paper proposes to improve the visual perception ability of MLLMs through a mixture-of-experts knowledge enhancement mechanism. Specifically, we introduce a novel method that incorporates multi-task encoders and visual tools into the existing MLLMs training and inference pipeline, aiming to provide a more comprehensive and accurate summarization of visual inputs. Extensive experiments have evaluated its effectiveness of advancing MLLMs, showcasing improved visual perception achieved through the integration of visual experts.
翻訳日:2024-01-09 20:36:32 公開日:2024-01-06
# いつ成長するか? ディープニューラルネットワークにおける層成長のためのリスクアウェアポリシー

When To Grow? A Fitting Risk-Aware Policy for Layer Growing in Deep Neural Networks ( http://arxiv.org/abs/2401.03104v1 )

ライセンス: Link先を確認
Haihang Wu, Wei Wang, Tamasha Malepathirana, Damith Senanayake, Denny Oetomo, Saman Halgamuge(参考訳) 神経成長は、小さなニューラルネットワークを大きなネットワークに成長させるプロセスであり、ディープニューラルネットワークのトレーニングを加速するために利用されてきた。 神経成長の重要な側面は、最適な成長タイミングを決定することである。 しかし、体系的に研究する研究は少ない。 本研究により, 神経成長は, 成長タイミングの選択方針の影響を受け, 正則化効果を示すことが明らかとなった。 この正規化効果はモデルの過剰フィットリスクを軽減させるが、モデルが不適合になった場合、注目すべき精度低下につながる可能性がある。 しかし、現在のアプローチでは、神経成長による正規化効果の考慮が欠如しているため、この問題に対処していない。 これらの知見に感化されて,リスクの過小評価レベルから得られる成長タイミングを自動的に調整し,両リスクに対処するアンダー/オーバーフィット型成長タイミングポリシーを提案する。 cifar-10/100とimagenetデータセットを用いた包括的実験により、提案手法は、既存の手法と比較して過適合に苦しむモデルにおいて、過適合になりやすいモデルにおいて、最大1.3%の精度向上を達成できることが示された。

Neural growth is the process of growing a small neural network to a large network and has been utilized to accelerate the training of deep neural networks. One crucial aspect of neural growth is determining the optimal growth timing. However, few studies investigate this systematically. Our study reveals that neural growth inherently exhibits a regularization effect, whose intensity is influenced by the chosen policy for growth timing. While this regularization effect may mitigate the overfitting risk of the model, it may lead to a notable accuracy drop when the model underfits. Yet, current approaches have not addressed this issue due to their lack of consideration of the regularization effect from neural growth. Motivated by these findings, we propose an under/over fitting risk-aware growth timing policy, which automatically adjusts the growth timing informed by the level of potential under/overfitting risks to address both risks. Comprehensive experiments conducted using CIFAR-10/100 and ImageNet datasets show that the proposed policy achieves accuracy improvements of up to 1.3% in models prone to underfitting while achieving similar accuracies in models suffering from overfitting compared to the existing methods.
翻訳日:2024-01-09 20:36:12 公開日:2024-01-06
# fairness-aware reweighting法によるfair分類のための適応ブースティング

Adaptive Boosting with Fairness-aware Reweighting Technique for Fair Classification ( http://arxiv.org/abs/2401.03097v1 )

ライセンス: Link先を確認
Xiaobin Song, Zeyuan Liu, Benben Jiang(参考訳) AdaBoostに基づく機械学習手法は、医療、法律、ファイナンスを含む多くのミッションクリティカルなアプリケーションにおいて、様々な分類問題に広く適用されてきた。 しかし、データ駆動型分類モデルの不公平性と識別に関する懸念が高まっており、adaboostを含む古典的アルゴリズムでは避けられない。 公平な分類を達成するために、AdaBoostの解釈可能なフェアネス改善型である新しいフェアアダBoost (FAB) アプローチを提案する。 主に二分分類問題を調査し,3つの指標(精度,偽陽性率,偽陰性率)の公平性に着目した。 ベース分類器の公平性を考慮した再重み付け手法を用いることで,予測性能の犠牲のないAdaBoostの利点を維持しつつ,公平な分類を実現することができる。 さらに、フェアネス精度トレードオフの好みを示すために、FABにハイパーパラメータが導入された。 誤差率と不公平性を定量化する目標損失関数の上界は、AdaBoostのために設計された公正性改善手法の厳密な理論的支援を提供するFABに対して理論的に導かれる。 提案手法の有効性は, 3つの実世界のデータセット(成人, コンパス, およびhsls)で実証された。 結果は理論分析と一致し、そのことを示す。 (i)FABはAdaBoostと比較して少ない精度で分類公正性を著しく改善し、 (II)FABは、等化オッズ法、指数勾配法、異種誤処理法を含む最先端の公正分類法を公平かつ正確なトレードオフの観点から上回る。

Machine learning methods based on AdaBoost have been widely applied to various classification problems across many mission-critical applications including healthcare, law and finance. However, there is a growing concern about the unfairness and discrimination of data-driven classification models, which is inevitable for classical algorithms including AdaBoost. In order to achieve fair classification, a novel fair AdaBoost (FAB) approach is proposed that is an interpretable fairness-improving variant of AdaBoost. We mainly investigate binary classification problems and focus on the fairness of three different indicators (i.e., accuracy, false positive rate and false negative rate). By utilizing a fairness-aware reweighting technique for base classifiers, the proposed FAB approach can achieve fair classification while maintaining the advantage of AdaBoost with negligible sacrifice of predictive performance. In addition, a hyperparameter is introduced in FAB to show preferences for the fairness-accuracy trade-off. An upper bound for the target loss function that quantifies error rate and unfairness is theoretically derived for FAB, which provides a strict theoretical support for the fairness-improving methods designed for AdaBoost. The effectiveness of the proposed method is demonstrated on three real-world datasets (i.e., Adult, COMPAS and HSLS) with respect to the three fairness indicators. The results are accordant with theoretic analyses, and show that (i) FAB significantly improves classification fairness at a small cost of accuracy compared with AdaBoost; and (ii) FAB outperforms state-of-the-art fair classification methods including equalized odds method, exponentiated gradient method, and disparate mistreatment method in terms of the fairness-accuracy trade-off.
翻訳日:2024-01-09 20:35:51 公開日:2024-01-06
# CaMML:大規模モデルのためのコンテキスト対応マルチモーダル学習システム

CaMML: Context-Aware Multimodal Learner for Large Models ( http://arxiv.org/abs/2401.03149v1 )

ライセンス: Link先を確認
Yixin Chen, Shuai Zhang, Boran Han, Tong He, Bo Li(参考訳) 本研究では,大規模マルチモーダルモデル(LMM)をチューニングするためのコンテキスト認識型マルチモーダル学習器(CaMML)を提案する。 軽量モジュールであるCaMMLは、マルチモーダルなコンテキストサンプルを大規模モデルにシームレスに統合することにより、類似したドメイン固有の最新の情報から知識を導き出し、基盤となる推論を行う。 重要なことは、CaMMLは高度にスケーラブルであり、階層設計のため、長いマルチモーダルコンテキストの例を効率的に扱うことができる。 CaMMLに基づく2つのマルチモーダルモデルであるCaMML-7BとCaMML-13Bを開発した。 注目すべきなのは、CaMML-13Bは、広く認識されている10以上のマルチモーダルベンチマークデータセット上で、外部リソースを統合することなく、顕著なマージンでLLaVA-1.5 (13B)を超える最先端のパフォーマンスを達成することだ。 さらに,CaMMLの内部動作を調べるための広範囲なアブレーション研究を行い,実世界の課題に対処するための質的分析を行った。

In this work, we introduce Context-Aware MultiModal Learner (CaMML), for tuning large multimodal models (LMMs). CaMML, a lightweight module, is crafted to seamlessly integrate multimodal contextual samples into large models, thereby empowering the model to derive knowledge from analogous, domain-specific, up-to-date information and make grounded inferences. Importantly, CaMML is highly scalable and can efficiently handle lengthy multimodal context examples owing to its hierarchical design. Based on CaMML, we have developed two multimodal models, CaMML-7B and CaMML-13B, that have shown exceptional performance across an array of benchmark datasets for multimodal tasks. Remarkably, CaMML-13B achieves the state-of-the-art performance on over ten widely recognized multimodal benchmark datasets, surpassing LLaVA-1.5 (13B) with a noticeable margin, without integration of any external resources. Moreover, we have conducted extensive ablative studies to inspect the inner workings of CaMML and performed qualitative analyses to showcase its effectiveness in handling real-world challenging cases.
翻訳日:2024-01-09 20:25:32 公開日:2024-01-06
# 3次元産業異常検出のための自己教師付き特徴適応

Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection ( http://arxiv.org/abs/2401.03145v1 )

ライセンス: Link先を確認
Yuanpeng Tu, Boshen Zhang, Liang Liu, Yuxi Li, Chenhai Xu, Jiangning Zhang, Yabiao Wang, Chengjie Wang, Cai Rong Zhao(参考訳) 産業異常検出は一般に、通常のトレーニングサンプルのみで欠陥を見つけることを目的とした教師なしのタスクとして扱われる。 近年,多くの2次元異常検出手法が提案され,有望な結果が得られたが,入力として2次元RGBデータのみを用いることで,知覚不能な幾何学的表面異常を識別するには不十分である。 そこで本研究では,マルチモーダル異常検出に焦点をあてる。 具体的には,大規模ビジュアルデータセット,すなわちimagenet上で事前トレーニングされたモデルを用いて特徴データベースを構築する初期マルチモーダルアプローチについて検討する。 そして、これらの事前訓練されたモデルを直接使用するのが最適ではなく、微妙な欠陥を検出したり、異常な特徴を通常のモデルと間違えたりすることを実証的に発見します。 This may be attributed to the domain gap between target industrial data and source data.Towards this problem, we propose a Local-to-global Self-supervised Feature Adaptation (LSFA) method to finetune the adaptors and learn task-oriented representation toward anomaly detection.Both intra-modal adaptation and cross-modal alignment are optimized from a local-to-global perspective in LSFA to ensure the representation quality and consistency in the inference stage.Extensive experiments demonstrate that our method not only brings a significant performance boost to feature embedding based approaches, but also outperforms previous State-of-The-Art (SoTA) methods prominently on both MVTec-3D AD and Eyecandies datasets, e.g., LSFA achieves 97.1% I-AUROC on MVTec-3D, surpass previous SoTA by +3.4%.

Industrial anomaly detection is generally addressed as an unsupervised task that aims at locating defects with only normal training samples. Recently, numerous 2D anomaly detection methods have been proposed and have achieved promising results, however, using only the 2D RGB data as input is not sufficient to identify imperceptible geometric surface anomalies. Hence, in this work, we focus on multi-modal anomaly detection. Specifically, we investigate early multi-modal approaches that attempted to utilize models pre-trained on large-scale visual datasets, i.e., ImageNet, to construct feature databases. And we empirically find that directly using these pre-trained models is not optimal, it can either fail to detect subtle defects or mistake abnormal features as normal ones. This may be attributed to the domain gap between target industrial data and source data.Towards this problem, we propose a Local-to-global Self-supervised Feature Adaptation (LSFA) method to finetune the adaptors and learn task-oriented representation toward anomaly detection.Both intra-modal adaptation and cross-modal alignment are optimized from a local-to-global perspective in LSFA to ensure the representation quality and consistency in the inference stage.Extensive experiments demonstrate that our method not only brings a significant performance boost to feature embedding based approaches, but also outperforms previous State-of-The-Art (SoTA) methods prominently on both MVTec-3D AD and Eyecandies datasets, e.g., LSFA achieves 97.1% I-AUROC on MVTec-3D, surpass previous SoTA by +3.4%.
翻訳日:2024-01-09 20:25:11 公開日:2024-01-06
# マルチレベルテキスト記述によるパーソナライズされたパーソンズ問題の統合

Integrating Personalized Parsons Problems with Multi-Level Textual Explanations to Scaffold Code Writing ( http://arxiv.org/abs/2401.03144v1 )

ライセンス: Link先を確認
Xinying Hou, Barbara J. Ericson, Xu Wang(参考訳) 初心者のプログラマは、基本的なコードを書く方法を学ぶ必要があるが、独立してコーディングする場合、しばしば困難に直面する。 苦難学生を支援するため,我々は最近パーソナライズされたパーソンズ問題をポップアップ・スキャフォールディングとして導入した。 学生たちは、ChatGPTのようなLarge Language Model (LLM)ツールから得られる回答など、正しい回答を単に受け取るよりも、より魅力的で、学習に役立つことに気付きました。 しかし、パーソンズの問題を足場として使う欠点は、学生が正しい解の理性を完全に理解せずにコードブロックを戻すことができることである。 その結果、このような足場による学習の利点が損なわれる。 私たちのゴールは、パーソンズ問題をコード説明を通じて理解を改善して足場として使うという利点を強化することです。 本ポスターでは,パーソンズ問題に多段階のテキスト説明を組み込んだ設計を提案する。 この設計は将来の技術評価と教室の実験に使用される。 これらの実験は、教師の利益を改善するためにパーソンズ問題にテキストによる説明を加えることの有効性を探求する。

Novice programmers need to learn how to write basic code but often face difficulties when coding independently. To assist struggling students, we have recently implemented personalized Parsons problems as a pop-up scaffolding. Students found them to be more engaging and helpful for learning compared to simply receiving the correct answer, such as the response they might get from Large Language Model (LLM) tools like ChatGPT. However, a drawback of using Parsons problems as scaffolding is that students may be able to put the code blocks back in place without fully understanding the rationale of the correct solution. As a result, the learning benefits of such scaffolding are compromised. Our goal is to enhance the advantages of using personalized Parsons problems as scaffolding by improving their comprehension through code explanations. In this poster, we propose designs that incorporate multiple levels of textual explanations in the Parsons problems. This design will be used for future technical evaluation and classroom experiments. These experiments will explore the effectiveness of adding textual explanations to Parsons problems to improve instructional benefits.
翻訳日:2024-01-09 20:24:46 公開日:2024-01-06
# ビジュアルオブジェクトトラッキングのための明示的なビジュアルプロンプト

Explicit Visual Prompts for Visual Object Tracking ( http://arxiv.org/abs/2401.03142v1 )

ライセンス: Link先を確認
Liangtao Shi, Bineng Zhong, Qihua Liang, Ning Li, Shengping Zhang, Xianxian Li(参考訳) 時空間情報を効果的に活用するには,視覚追跡の目標外観変化の把握が不可欠である。 しかし、多くのディープラーニングベースのトラッカーは、主に複雑な外観モデルやテンプレート更新戦略の設計に重点を置いているが、連続するフレーム間のコンテキストの活用に欠けており、従って \textit{when-and-how-to-update} ジレンマを伴っている。 これらの問題に対処するため,視覚追跡のための新しい明示的な視覚プロンプトフレームワーク,「textbf{EVPTrack}」を提案する。 具体的には,テンプレート更新に焦点を合わせることなく,連続フレーム間の情報伝達に時空間トークンを利用する。 その結果、 \textit{when-to-update} の課題を軽減するだけでなく、更新戦略に関連するハイパーパラメータを回避することができる。 次に、時空間トークンを用いて、現在のフレームでの推論を容易にする明示的な視覚的プロンプトを生成する。 プロンプトは、追加処理なしで、画像トークンと共にトランスフォーマエンコーダに供給される。 その結果、モデルの効率性は \textit{how-to-update} を避けることで向上した。 さらに,マルチスケール情報を明示的な視覚的プロンプトとみなし,EVPTrackの目標スケール変更処理能力を高めるためのマルチスケールテンプレート機能を提供する。 6つのベンチマーク(LaSOT, LaSOT\rm $_{ext}$, GOT-10k, UAV123, TrackingNet, TNL2K)の大規模な実験結果。 ) 時空間情報とマルチスケール情報の両方を効果的に活用することにより,evptrackがリアルタイム速度で競争性能を発揮できることを検証する。 コードとモデルはhttps://github.com/gxnu-zhonglab/evptrackで入手できる。

How to effectively exploit spatio-temporal information is crucial to capture target appearance changes in visual tracking. However, most deep learning-based trackers mainly focus on designing a complicated appearance model or template updating strategy, while lacking the exploitation of context between consecutive frames and thus entailing the \textit{when-and-how-to-update} dilemma. To address these issues, we propose a novel explicit visual prompts framework for visual tracking, dubbed \textbf{EVPTrack}. Specifically, we utilize spatio-temporal tokens to propagate information between consecutive frames without focusing on updating templates. As a result, we cannot only alleviate the challenge of \textit{when-to-update}, but also avoid the hyper-parameters associated with updating strategies. Then, we utilize the spatio-temporal tokens to generate explicit visual prompts that facilitate inference in the current frame. The prompts are fed into a transformer encoder together with the image tokens without additional processing. Consequently, the efficiency of our model is improved by avoiding \textit{how-to-update}. In addition, we consider multi-scale information as explicit visual prompts, providing multiscale template features to enhance the EVPTrack's ability to handle target scale changes. Extensive experimental results on six benchmarks (i.e., LaSOT, LaSOT\rm $_{ext}$, GOT-10k, UAV123, TrackingNet, and TNL2K.) validate that our EVPTrack can achieve competitive performance at a real-time speed by effectively exploiting both spatio-temporal and multi-scale information. Code and models are available at https://github.com/GXNU-ZhongLab/EVPTrack.
翻訳日:2024-01-09 20:24:27 公開日:2024-01-06
# スイッチング機構による拡散モデルの公正サンプリング

Fair Sampling in Diffusion Models through Switching Mechanism ( http://arxiv.org/abs/2401.03140v1 )

ライセンス: Link先を確認
Yujin Choi, Jinseong Park, Hoki Kim, Jaewook Lee, Saeroom Park(参考訳) 拡散モデルは、基礎となる確率分布をよく近似することにより、生成タスクにおいてその効果を示す。 しかしながら、拡散モデルでは、公平性の観点からトレーニングデータから固有のバイアスが増幅されることが知られている。 拡散モデルのサンプリング過程は条件付きガイダンスで制御できるが、従来の研究は定量的公正性を達成するための経験的ガイダンスを見つけようと試みてきた。 この制限に対処するために,拡散モデルのためのfairness-aware sampling methodである \textit{attribute switching} 機構を提案する。 追加のトレーニングなしでは、提案したサンプリングは、分類器に頼ることなく、生成されたデータ中のセンシティブな属性を難読化することができる。 提案手法の有効性を数学的に証明し,実験的に実証する。 (i)公平なデータの生成及び (ii) 生成されたデータの有効性を保存すること。

Diffusion models have shown their effectiveness in generation tasks by well-approximating the underlying probability distribution. However, diffusion models are known to suffer from an amplified inherent bias from the training data in terms of fairness. While the sampling process of diffusion models can be controlled by conditional guidance, previous works have attempted to find empirical guidance to achieve quantitative fairness. To address this limitation, we propose a fairness-aware sampling method called \textit{attribute switching} mechanism for diffusion models. Without additional training, the proposed sampling can obfuscate sensitive attributes in generated data without relying on classifiers. We mathematically prove and experimentally demonstrate the effectiveness of the proposed method on two key aspects: (i) the generation of fair data and (ii) the preservation of the utility of the generated data.
翻訳日:2024-01-09 20:23:57 公開日:2024-01-06
# teltrans:多面グラフモデリングによる輸送評価と予測へのマルチタイプ通信データの適用

TelTrans: Applying Multi-Type Telecom Data to Transportation Evaluation and Prediction via Multifaceted Graph Modeling ( http://arxiv.org/abs/2401.03138v1 )

ライセンス: Link先を確認
ChungYi Lin, Shen-Lung Tung, Hung-Ting Su, Winston H. Hsu(参考訳) 位置情報検出装置による交通予測の限界に対処するため,移動パターンを捉えるためにセルトラフィックを広範囲に網羅する新たなデータソースである地理セルトラフィック(GCT)フローを提示する。 我々の広範な分析は、輸送の可能性を検証する。 車両関連GCTフロー予測に着目し,多変量,時空間,空間面を統合し,精度を向上させるグラフニューラルネットワークを提案する。 実験により,特に長期予測において,モデルがベースラインよりも優れていることが明らかとなった。 また,交通システムへのGCTフロー統合の可能性を強調した。

To address the limitations of traffic prediction from location-bound detectors, we present Geographical Cellular Traffic (GCT) flow, a novel data source that leverages the extensive coverage of cellular traffic to capture mobility patterns. Our extensive analysis validates its potential for transportation. Focusing on vehicle-related GCT flow prediction, we propose a graph neural network that integrates multivariate, temporal, and spatial facets for improved accuracy. Experiments reveal our model's superiority over baselines, especially in long-term predictions. We also highlight the potential for GCT flow integration into transportation systems.
翻訳日:2024-01-09 20:23:44 公開日:2024-01-06
# SPQR:強化学習のためのスパイクランダムモデルによるQアンサンブル独立制御

SPQR: Controlling Q-ensemble Independence with Spiked Random Model for Reinforcement Learning ( http://arxiv.org/abs/2401.03137v1 )

ライセンス: Link先を確認
Dohyeok Lee, Seungyub Han, Taehyun Cho, Jungwoo Lee(参考訳) 過剰推定バイアスの緩和は、より複雑なタスクや、分散データを含むオフラインデータセットのパフォーマンスを達成するために、深層強化学習にとって重要な課題である。 過大評価バイアスを克服するため,複数のQ-関数の多様性を活用するために,Q-ラーニングのためのアンサンブル手法が検討されている。 ネットワーク初期化がQ-関数の多様性を促進する主要なアプローチであるため、ヒューリスティックに設計された多様性注入法が文献で研究されている。 しかし、これまでの研究では、理論的観点からのアンサンブルに対する保証された独立へのアプローチは試みられていない。 ランダム行列理論に基づくQアンサンブル独立のための新たな正規化損失を導入することにより、強化学習のためのスパイクドウィッシュアートQアンブル独立正規化(SPQR)を提案する。 具体的には,Qアンサンブル独立性に対する難解な仮説テスト基準を,Qアンサンブルのスペクトル分布とWignerの半円分布とのトラクタブルなKL分散に修正する。 我々は複数のオンラインおよびオフラインアンサンブルQ-ラーニングアルゴリズムにSPQRを実装している。 実験では、SPQRはオンラインとオフラインのRLベンチマークの両方でベースラインアルゴリズムより優れている。

Alleviating overestimation bias is a critical challenge for deep reinforcement learning to achieve successful performance on more complex tasks or offline datasets containing out-of-distribution data. In order to overcome overestimation bias, ensemble methods for Q-learning have been investigated to exploit the diversity of multiple Q-functions. Since network initialization has been the predominant approach to promote diversity in Q-functions, heuristically designed diversity injection methods have been studied in the literature. However, previous studies have not attempted to approach guaranteed independence over an ensemble from a theoretical perspective. By introducing a novel regularization loss for Q-ensemble independence based on random matrix theory, we propose spiked Wishart Q-ensemble independence regularization (SPQR) for reinforcement learning. Specifically, we modify the intractable hypothesis testing criterion for the Q-ensemble independence into a tractable KL divergence between the spectral distribution of the Q-ensemble and the target Wigner's semicircle distribution. We implement SPQR in several online and offline ensemble Q-learning algorithms. In the experiments, SPQR outperforms the baseline algorithms in both online and offline RL benchmarks.
翻訳日:2024-01-09 20:23:34 公開日:2024-01-06
# TimeGraphs: グラフベースの時間推論

TimeGraphs: Graph-based Temporal Reasoning ( http://arxiv.org/abs/2401.03134v1 )

ライセンス: Link先を確認
Paridhi Maheshwari, Hongyu Ren, Yanan Wang, Rok Sosic, Jure Leskovec(参考訳) 多くの現実世界のシステムは時間的、動的挙動を示し、複雑なエージェント相互作用の時系列として捉えられる。 時間的推論を行うために、現在の手法は主に単純なシーケンスベースモデルを通して時間的ダイナミクスを符号化する。 しかし、一般にこれらのモデルは、力学が均一に分布していないため、入力中のリッチダイナミクスの全スペクトルを効率的に捉えることができない。 特に、重要な変更や新しい情報がなくても、関連する情報は抽出され、個々の時間ステップを処理するために計算パワーが無駄になる可能性がある。 本稿では,動的相互作用を階層的時間グラフとして特徴付ける新しいアプローチであるTimeGraphsを提案する。 提案手法は,コンパクトなグラフベース表現を用いて相互作用をモデル化する。 自己教師付きメソッドを採用すると、TimeGraphsは時間入力からマルチレベルイベント階層を構築し、不均一に分散されたダイナミクスを効率的に推論する。 この構築プロセスはスケーラブルで、ストリーミングデータに対応できるようにインクリメンタルです。 我々は,サッカーシミュレータ,抵抗ゲーム,MOMA人間活動データセットなど,複雑でダイナミックなエージェントインタラクションを持つ複数のデータセット上でTimeGraphsを評価する。 その結果,時間的推論タスクにおけるTimeGraphsの堅牢性と効率性の両立が示された。 提案手法は最先端の性能を取得し,現在の手法よりもイベント予測および認識タスクにおいて最大12.2%の性能向上をもたらす。 実験ではさらに,ゼロショット一般化,データスパーシティ時のロバスト性,ストリーミングデータフローへの適応性など,幅広い機能を示す。

Many real-world systems exhibit temporal, dynamic behaviors, which are captured as time series of complex agent interactions. To perform temporal reasoning, current methods primarily encode temporal dynamics through simple sequence-based models. However, in general these models fail to efficiently capture the full spectrum of rich dynamics in the input, since the dynamics is not uniformly distributed. In particular, relevant information might be harder to extract and computing power is wasted for processing all individual timesteps, even if they contain no significant changes or no new information. Here we propose TimeGraphs, a novel approach that characterizes dynamic interactions as a hierarchical temporal graph, diverging from traditional sequential representations. Our approach models the interactions using a compact graph-based representation, enabling adaptive reasoning across diverse time scales. Adopting a self-supervised method, TimeGraphs constructs a multi-level event hierarchy from a temporal input, which is then used to efficiently reason about the unevenly distributed dynamics. This construction process is scalable and incremental to accommodate streaming data. We evaluate TimeGraphs on multiple datasets with complex, dynamic agent interactions, including a football simulator, the Resistance game, and the MOMA human activity dataset. The results demonstrate both robustness and efficiency of TimeGraphs on a range of temporal reasoning tasks. Our approach obtains state-of-the-art performance and leads to a performance increase of up to 12.2% on event prediction and recognition tasks over current approaches. Our experiments further demonstrate a wide array of capabilities including zero-shot generalization, robustness in case of data sparsity, and adaptability to streaming data flow.
翻訳日:2024-01-09 20:23:12 公開日:2024-01-06
# 3次元MRIによるアルツハイマー病診断のための視覚変換器とBi-LSTM

Vision Transformers and Bi-LSTM for Alzheimer's Disease Diagnosis from 3D MRI ( http://arxiv.org/abs/2401.03132v1 )

ライセンス: Link先を確認
Taymaz Akan, Sait Alp, Mohammad A. N Bhuiyanb(参考訳) アルツハイマー病は時間とともに悪化し、記憶、思考、行動に影響を及ぼす脳疾患である。 アルツハイマー病(AD)は早期に診断され、症状の進行を遅らせ、生活の質を向上させることができる。 本研究では、視覚変換器(ViT)とバイLSTMを用いて、アルツハイマー病の診断のためのMRI画像の処理を提案する。 vitを使ってmriから特徴を抽出し、特徴列にマップしました。 次に,Bi-LSTMシークエンス・モデリングを用いて,関連する特徴間の相互依存性を維持する。 さらに、アルツハイマー病神経画像イニシアチブ(ADNI)のデータを用いて、AD患者のバイナリ分類のためのモデルの有効性を評価した。 最後に,本手法を文献中の他の深層学習モデルに対して評価した。 提案手法は,ADの診断のための精度,精度,Fスコア,リコールの点で良好に機能する。

Alzheimer's is a brain disease that gets worse over time and affects memory, thinking, and behavior. Alzheimer's disease (AD) can be treated and managed if it is diagnosed early, which can slow the progression of symptoms and improve quality of life. In this study, we suggested using the Visual Transformer (ViT) and bi-LSTM to process MRI images for diagnosing Alzheimer's disease. We used ViT to extract features from the MRI and then map them to a feature sequence. Then, we used Bi-LSTM sequence modeling to keep the interdependencies between related features. In addition, we evaluated the performance of the proposed model for the binary classification of AD patients using data from the Alzheimer's Disease Neuroimaging Initiative (ADNI). Finally, we evaluated our method against other deep learning models in the literature. The proposed method performs well in terms of accuracy, precision, F-score, and recall for the diagnosis of AD.
翻訳日:2024-01-09 20:22:48 公開日:2024-01-06
# 物理誘導型地球物理モニタリング用生成aiツールキット

A Physics-guided Generative AI Toolkit for Geophysical Monitoring ( http://arxiv.org/abs/2401.03131v1 )

ライセンス: Link先を確認
Junhuan Yang, Hanchen Wang, Yi Sheng, Youzuo Lin, Lei Yang(参考訳) フルウェーブフォーム・インバージョン(FWI)は地下探査において重要な役割を担っている。 地震波を利用して地下の速度マップを撮影する。 機械学習(ML)技術が進化するにつれて、FWIタスクにMLを用いたデータ駆動アプローチが出現し、従来の物理ベースの手法と比較して精度の向上と計算コストの削減を実現している。 しかし、地球科学における共通の課題である、未所有のデータは、MLの有効性を著しく制限する。 この問題は、環境の複雑さによって地球科学に不可欠なステップであるモデル刈り込みの間にさらに悪化する。 そこで我々は,高忠実度速度マップを生成するために,物理原理に基づく拡散モデルを用いたEdGeoツールキットを提案する。 このツールキットは、音響波動方程式を用いて対応する地震波形データを生成し、プルーニングMLモデルの微調整を容易にする。 以上の結果から,ssimスコアの有意な改善と,各種プルーニング比におけるmaeおよびmseの低下が確認された。 特に、edgeoが生成したデータを使って微調整されたmlモデルは、特に特権的でない特徴の表現において、他の既存の方法よりも優れた速度マップを提供する。

Full-waveform inversion (FWI) plays a vital role in geoscience to explore the subsurface. It utilizes the seismic wave to image the subsurface velocity map. As the machine learning (ML) technique evolves, the data-driven approaches using ML for FWI tasks have emerged, offering enhanced accuracy and reduced computational cost compared to traditional physics-based methods. However, a common challenge in geoscience, the unprivileged data, severely limits ML effectiveness. The issue becomes even worse during model pruning, a step essential in geoscience due to environmental complexities. To tackle this, we introduce the EdGeo toolkit, which employs a diffusion-based model guided by physics principles to generate high-fidelity velocity maps. The toolkit uses the acoustic wave equation to generate corresponding seismic waveform data, facilitating the fine-tuning of pruned ML models. Our results demonstrate significant improvements in SSIM scores and reduction in both MAE and MSE across various pruning ratios. Notably, the ML model fine-tuned using data generated by EdGeo yields superior quality of velocity maps, especially in representing unprivileged features, outperforming other existing methods.
翻訳日:2024-01-09 20:22:32 公開日:2024-01-06
# 適応型大言語モデルの継続事前学習における留意点の検討

Examining Forgetting in Continual Pre-training of Aligned Large Language Models ( http://arxiv.org/abs/2401.03129v1 )

ライセンス: Link先を確認
Chen-An Li, Hung-Yi Lee(参考訳) 近年のLarge Language Models (LLMs) の進歩は, 様々なタスクにおいて顕著な能力を示した。 多くの分野におけるLLMの強力な応用を考えると、LLMの開発は急増している。 llmの開発では、予め微調整されたモデルでの継続的な事前トレーニングが一般的である。 しかし、これは大惨事に繋がる可能性がある。 本研究は,既存の微調整LDMにおける連続事前学習中に発生する忘れ現象について考察する。 連続事前学習が出力形式,知識,信頼性など,様々な次元にわたる微調整 LLM に与える影響を評価する。 実験結果は、連続的な事前訓練、特に反復問題における破滅的な忘れに対処する非自明な課題を浮き彫りにした。

Recent advances in Large Language Models (LLMs) have exhibited remarkable proficiency across various tasks. Given the potent applications of LLMs in numerous fields, there has been a surge in LLM development. In developing LLMs, a common practice involves continual pre-training on previously fine-tuned models. However, this can lead to catastrophic forgetting. In our work, we investigate the phenomenon of forgetting that occurs during continual pre-training on an existing fine-tuned LLM. We evaluate the impact of continuous pre-training on the fine-tuned LLM across various dimensions, including output format, knowledge, and reliability. Experiment results highlight the non-trivial challenge of addressing catastrophic forgetting during continual pre-training, especially the repetition issue.
翻訳日:2024-01-09 20:22:15 公開日:2024-01-06
# SAR認識ネットワーク記述のためのマニフォールド型シェープ

Manifold-based Shapley for SAR Recognization Network Explanation ( http://arxiv.org/abs/2401.03128v1 )

ライセンス: Link先を確認
Xuran Hu, Mingzhe Zhu, Yuanjing Liu, Zhenpeng Feng and LJubisa Stankovic(参考訳) 説明可能な人工知能(XAI)は、ディープニューラルネットワークの透明性と信頼性を高める上で、特に合成開口レーダー(SAR)のようなリスクの高い高コストシナリオにおいて、大きな重要性を持っている。 Shapleyは、堅牢な数学的基礎を持つゲームベースの説明技法である。 しかし、Shapleyはモデルの特徴が独立であると仮定し、Shapleyの説明は高次元モデルでは無効である。 本研究では,高次元特徴を低次元多様体の特徴に射影し,(1)従来のシャップが遭遇した誤った説明の問題に対処することを目的としたFusion-Shapを得る手法を提案する。

Explainable artificial intelligence (XAI) holds immense significance in enhancing the deep neural network's transparency and credibility, particularly in some risky and high-cost scenarios, like synthetic aperture radar (SAR). Shapley is a game-based explanation technique with robust mathematical foundations. However, Shapley assumes that model's features are independent, rendering Shapley explanation invalid for high dimensional models. This study introduces a manifold-based Shapley method by projecting high-dimensional features into low-dimensional manifold features and subsequently obtaining Fusion-Shap, which aims at (1) addressing the issue of erroneous explanations encountered by traditional Shap; (2) resolving the challenge of interpretability that traditional Shap faces in complex scenarios.
翻訳日:2024-01-09 20:22:03 公開日:2024-01-06
# 深部ニューラルネットワークを用いた多変量回帰モデルの最小距離推定器

A least distance estimator for a multivariate regression model using deep neural networks ( http://arxiv.org/abs/2401.03123v1 )

ライセンス: Link先を確認
Jungmin Shin, Seung Jun Shin, Sungwan Bang(参考訳) 本稿では,多変量回帰問題に対するディープニューラルネットワーク(dnn)に基づく最小距離推定器(ld)を提案する。 dnn構造の柔軟性により、線形および非線形条件平均関数も容易にモデル化でき、出力層に余分なノードを追加するだけで多変量回帰モデルを実現することができる。 提案手法は, 最小二乗損失よりも応答間の依存性構造を捕捉し, 外れ値に対して頑健である。 さらに,高次元データ解析において重要な変数選択のための$L_1$型ペナル化を考える。 すなわち,変数選択とモデル推定を同時に行う(A)GDNN-LD推定器をDNN構造の重みパラメータに適応型グループLassoペナルティを適用して提案する。 本研究では,最小距離損失に基づく非スムース目的関数の最適化を容易にする2次平滑化近似法を提案する。 シミュレーション研究と実データ解析により,提案手法の有望な性能を示す。

We propose a deep neural network (DNN) based least distance (LD) estimator (DNN-LD) for a multivariate regression problem, addressing the limitations of the conventional methods. Due to the flexibility of a DNN structure, both linear and nonlinear conditional mean functions can be easily modeled, and a multivariate regression model can be realized by simply adding extra nodes at the output layer. The proposed method is more efficient in capturing the dependency structure among responses than the least squares loss, and robust to outliers. In addition, we consider $L_1$-type penalization for variable selection, crucial in analyzing high-dimensional data. Namely, we propose what we call (A)GDNN-LD estimator that enjoys variable selection and model estimation simultaneously, by applying the (adaptive) group Lasso penalty to weight parameters in the DNN structure. For the computation, we propose a quadratic smoothing approximation method to facilitate optimizing the non-smooth objective function based on the least distance loss. The simulation studies and a real data analysis demonstrate the promising performance of the proposed method.
翻訳日:2024-01-09 20:21:48 公開日:2024-01-06
# 地域拡散確率モデルによるSAR脱種

SAR Despeckling via Regional Denoising Diffusion Probabilistic Model ( http://arxiv.org/abs/2401.03122v1 )

ライセンス: Link先を確認
Xuran Hu, Ziqiang Xu, Zhihan Chen, Zhengpeng Feng, Mingzhe Zhu and LJubisa Stankovic(参考訳) スペックルノイズは合成開口レーダ(SAR)画像の品質を維持する上で大きな課題となるため、SAR除去技術が注目を集めている。 固定スケールSAR画像の切り離しにおけるディープラーニングの著しい進歩にもかかわらず、これらの手法はいまだに大規模なSAR画像を扱うのに苦労している。 そこで本研究では, 生成モデルに基づく領域分割拡散確率モデル (R-DDPM) を新たに導入する。 R-DDPMは、単一のトレーニングセッションで達成される、さまざまなスケールにわたるSARイメージの汎用的非特定を可能にする。 さらに、領域誘導逆サンプリングの利用により、融合したSAR画像のアーティファクトを効果的に回避することができる。 提案するsentinel-1データを用いたr-ddpm実験は,既存の手法よりも優れた性能を示す。

Speckle noise poses a significant challenge in maintaining the quality of synthetic aperture radar (SAR) images, so SAR despeckling techniques have drawn increasing attention. Despite the tremendous advancements of deep learning in fixed-scale SAR image despeckling, these methods still struggle to deal with large-scale SAR images. To address this problem, this paper introduces a novel despeckling approach termed Region Denoising Diffusion Probabilistic Model (R-DDPM) based on generative models. R-DDPM enables versatile despeckling of SAR images across various scales, accomplished within a single training session. Moreover, The artifacts in the fused SAR images can be avoided effectively with the utilization of region-guided inverse sampling. Experiments of our proposed R-DDPM on Sentinel-1 data demonstrates superior performance to existing methods.
翻訳日:2024-01-09 20:21:30 公開日:2024-01-06
# ddos攻撃検出の進歩:ディープ残差ニューラルネットワークと合成オーバーサンプリングを用いた相乗的アプローチ

Advancing DDoS Attack Detection: A Synergistic Approach Using Deep Residual Neural Networks and Synthetic Oversampling ( http://arxiv.org/abs/2401.03116v1 )

ライセンス: Link先を確認
Ali Alfatemi, Mohamed Rahouti, Ruhul Amin, Sarah ALJamal, Kaiqi Xiong, Yufeng Xin(参考訳) distributed denial of service(ddos)攻撃は、オンラインシステムの安定性と信頼性に大きな脅威をもたらす。 このような攻撃を効果的かつ早期に検出することは、ネットワークの完全性を保護する上で重要である。 本稿では,合成オーバーサンプリング技術と組み合わされた深層残留ニューラルネットワーク(resnets)の機能を活用することで,ddos攻撃検出の強化手法を提案する。 多くのサイバーセキュリティデータセットで固有のクラス不均衡のため、従来の手法は偽陰性に苦しむことが多く、微妙なDDoSパターンを良心として誤分類する。 CICIDSデータセットにSMOTE(Synthetic Minority Over-Sampling Technique)を適用することで、良性および悪意のあるデータポイントの表現のバランスを保ち、攻撃を示す複雑なパターンをよりよく識別することが可能になる。 この特定のタスクに適した、深い残留ネットワークは、さらに検出プロセスを洗練します。 実世界のデータセットを用いた実験結果から,従来の手法よりもはるかに優れた99.98%の精度が得られた。 この研究は、高度なデータ拡張技術とディープラーニングモデルを組み合わせてサイバーセキュリティの防御を強化する可能性を強調している。

Distributed Denial of Service (DDoS) attacks pose a significant threat to the stability and reliability of online systems. Effective and early detection of such attacks is pivotal for safeguarding the integrity of networks. In this work, we introduce an enhanced approach for DDoS attack detection by leveraging the capabilities of Deep Residual Neural Networks (ResNets) coupled with synthetic oversampling techniques. Because of the inherent class imbalance in many cyber-security datasets, conventional methods often struggle with false negatives, misclassifying subtle DDoS patterns as benign. By applying the Synthetic Minority Over-sampling Technique (SMOTE) to the CICIDS dataset, we balance the representation of benign and malicious data points, enabling the model to better discern intricate patterns indicative of an attack. Our deep residual network, tailored for this specific task, further refines the detection process. Experimental results on a real-world dataset demonstrate that our approach achieves an accuracy of 99.98%, significantly outperforming traditional methods. This work underscores the potential of combining advanced data augmentation techniques with deep learning models to bolster cyber-security defenses.
翻訳日:2024-01-09 20:21:17 公開日:2024-01-06
# ドメイン一般化のためのサイレント特徴の保存

Preserving Silent Features for Domain Generalization ( http://arxiv.org/abs/2401.03170v1 )

ライセンス: Link先を確認
Chujie Zhao, Tianren Zhang, Feng Chen(参考訳) ドメイン一般化(dg)は、いくつかの既知のトレーニングドメインでトレーニングされたモデルの一般化能力を改善することを目的としている。 前回の研究では、自己教師付きコントラストプレトレーニングが下流タスクにおけるモデルのロバスト性を改善することが示されている。 しかし,本論文では,自己教師付きモデルでは,DG設定において同じデータセット上で事前訓練された教師付きモデルよりも,より優れた一般化性能が得られていない。 これは, 教師付き微調整において, 教師付きコントラスト学習によって抽出される, より豊かなクラス内差別的特徴が抑制されるという事実が原因と考えられる。 これらのサイレント機能は、テストドメインでより一般化可能な機能を含んでいる可能性が高い。 本研究では,この特徴抑制現象をモデル化・解析し,ある条件下でサイレント特徴の保持が期待されるテスト領域のリスクを低減できることを理論的に証明する。 そこで我々は,STEP(Silent Feature Preservation)と呼ばれるシンプルな手法を提案し,教師付き微調整過程における無声特徴の抑制を緩和し,自己教師付きコントラスト学習事前学習モデルの一般化性能を向上させる。 実験結果から,STEPは標準DGベンチマークにおいて,分布変化の著しい最先端性能を示すことが示された。

Domain generalization (DG) aims to improve the generalization ability of the model trained on several known training domains over unseen test domains. Previous work has shown that self-supervised contrastive pre-training improves the robustness of the model on downstream tasks. However, in this paper, we find that self-supervised models do not exhibit better generalization performance than supervised models pre-trained on the same dataset in the DG setting. We argue that this is owing to the fact that the richer intra-class discriminative features extracted by self-supervised contrastive learning, which we term silent features, are suppressed during supervised fine-tuning. These silent features are likely to contain features that are more generalizable on the test domain. In this work, we model and analyze this feature suppression phenomenon and theoretically prove that preserving silent features can achieve lower expected test domain risk under certain conditions. In light of this, we propose a simple yet effective method termed STEP (Silent Feature Preservation) to improve the generalization performance of the self-supervised contrastive learning pre-trained model by alleviating the suppression of silent features during the supervised fine-tuning process. Experimental results show that STEP exhibits state-of-the-art performance on standard DG benchmarks with significant distribution shifts.
翻訳日:2024-01-09 20:16:22 公開日:2024-01-06
# PosDiffNet:摂動を伴う広い視野における点雲登録のための位置神経拡散

PosDiffNet: Positional Neural Diffusion for Point Cloud Registration in a Large Field of View with Perturbations ( http://arxiv.org/abs/2401.03167v1 )

ライセンス: Link先を確認
Rui She, Sijie Wang, Qiyu Kang, Kai Zhao, Yang Song, Wee Peng Tay, Tianyu Geng, Xingchao Jian(参考訳) ポイントクラウド登録は、幅広いアプリケーションを持つ3dコンピュータビジョンにおいて重要な技術である。 しかし、特にダイナミックな物体、環境騒音、その他の摂動のある広い視野において、この課題は困難である。 この課題に対処するため,我々はPosDiffNetと呼ばれるモデルを提案する。 提案手法は,ウィンドウレベル,パッチレベル,ポイントレベル対応に基づく階層的登録を行う。 我々はベルトラミフローに基づくグラフニューラル偏微分方程式(PDE)を利用して、点雲の高次元的特徴と位置埋め込みを得る。 位置埋め込みをニューラル常微分方程式(ODE)に基づいてトランスフォーマーモジュールに組み込んで、点内のパッチを効率的に表現する。 点群間のアライメントを容易にするために,高特徴類似度スコアから導出した多レベル対応を用いる。 その後、SVDベースのアルゴリズムのような登録手法を用いて、対応する点対を用いて変換を予測する。 我々はPosDiffNetを複数の3Dポイントクラウドデータセット上で評価し、摂動を伴う広い視野でのポイントクラウド登録において、最先端(SOTA)性能を達成することを検証する。 実験の実装コードはhttps://github.com/AI-IT-AVs/PosDiffNetで公開されている。

Point cloud registration is a crucial technique in 3D computer vision with a wide range of applications. However, this task can be challenging, particularly in large fields of view with dynamic objects, environmental noise, or other perturbations. To address this challenge, we propose a model called PosDiffNet. Our approach performs hierarchical registration based on window-level, patch-level, and point-level correspondence. We leverage a graph neural partial differential equation (PDE) based on Beltrami flow to obtain high-dimensional features and position embeddings for point clouds. We incorporate position embeddings into a Transformer module based on a neural ordinary differential equation (ODE) to efficiently represent patches within points. We employ the multi-level correspondence derived from the high feature similarity scores to facilitate alignment between point clouds. Subsequently, we use registration methods such as SVD-based algorithms to predict the transformation using corresponding point pairs. We evaluate PosDiffNet on several 3D point cloud datasets, verifying that it achieves state-of-the-art (SOTA) performance for point cloud registration in large fields of view with perturbations. The implementation code of experiments is available at https://github.com/AI-IT-AVs/PosDiffNet.
翻訳日:2024-01-09 20:15:58 公開日:2024-01-06
# 変分オートエンコーダの短時間フーリエ変換

Short-Time Fourier Transform for deblurring Variational Autoencoders ( http://arxiv.org/abs/2401.03166v1 )

ライセンス: Link先を確認
Vibhu Dalal(参考訳) 変分オートエンコーダ(VAE)は強力な生成モデルであるが、その生成したサンプルは代替生成技術の出力と比較して、特徴的な曖昧さに悩まされていることが知られている。 この問題に取り組むために広範な研究が行われており、いくつかの研究はエビデンスローバウンド(elbo)の再構築用語の変更に焦点を当てている。 特に、多くの人が周波数領域の損失で再建損失を増大させる実験を行った。 このような損失関数は通常、シャープな視覚的特徴の原因となる高周波数成分の欠如を明示するためにフーリエ変換を用いる。 本稿では, 従来よく理解されていなかったアプローチの側面を考察し, その対応として, 再建期への拡張を提案する。 我々の推論は、短時間フーリエ変換を使い、入力と出力のサンプル間の局所位相コヒーレンスを強調している。 定性的および定量的な結果を提供することにより,提案したMNISTデータセットの損失の可能性を示す。

Variational Autoencoders (VAEs) are powerful generative models, however their generated samples are known to suffer from a characteristic blurriness, as compared to the outputs of alternative generating techniques. Extensive research efforts have been made to tackle this problem, and several works have focused on modifying the reconstruction term of the evidence lower bound (ELBO). In particular, many have experimented with augmenting the reconstruction loss with losses in the frequency domain. Such loss functions usually employ the Fourier transform to explicitly penalise the lack of higher frequency components in the generated samples, which are responsible for sharp visual features. In this paper, we explore the aspects of previous such approaches which aren't well understood, and we propose an augmentation to the reconstruction term in response to them. Our reasoning leads us to use the short-time Fourier transform and to emphasise on local phase coherence between the input and output samples. We illustrate the potential of our proposed loss on the MNIST dataset by providing both qualitative and quantitative results.
翻訳日:2024-01-09 20:15:41 公開日:2024-01-06
# 絶縁強磁性線における磁壁を有するキャビティマグノニクス

Cavity magnonics with domain walls in insulating ferromagnetic wires ( http://arxiv.org/abs/2401.03164v1 )

ライセンス: Link先を確認
Mircea Trif and Yaroslav Tserkovnyak(参考訳) 磁気ドメインウォール (DWs) は、古典的およびニューロモルフィックコンピューティングに利用できる堅牢な低エネルギーモードを示すトポロジ的欠陥である。 しかし、これらのモードの量子性はこれまでにも解明されてきた。 キャビティ光学の言語を用いて、短強磁性絶縁線における局所化DWと拡張マグノン間の幾何学的ベリー相相互作用を利用して、DWをその量子基底状態に効率よく冷却するか、あるいは放出されたマグノンのパワースペクトルから抽出できる負のウィグナー関数を示す非古典状態を作成するかを示す。 さらに、マグノンは、遠方DWに格納された量子ビット間の長距離エンタングリング相互作用を媒介し、量子ゲートの普遍的な実装を促進することを実証する。 提案手法は強磁性体の固有自由度にのみ依存し, 強磁性体や反強磁性体のDWの量子力学や, 絶縁磁性ナノディスクに閉じ込められた量子渦, スカイミオンの探索に自然に拡張することができる。

Magnetic domain walls (DWs) are topological defects that exhibit robust low-energy modes that can be harnessed for classical and neuromorphic computing. However, the quantum nature of these modes has been elusive thus far. Using the language of cavity optomechanics, we show how to exploit a geometric Berry-phase interaction between the localized DWs and the extended magnons in short ferromagnetic insulating wires to efficiently cool the DW to its quantum ground state or to prepare nonclassical states exhibiting a negative Wigner function that can be extracted from the power spectrum of the emitted magnons. Moreover, we demonstrate that magnons can mediate long-range entangling interactions between qubits stored in distant DWs, which could facilitate the implementation of a universal set of quantum gates. Our proposal relies only on the intrinsic degrees of freedom of the ferromagnet, and can be naturally extended to explore the quantum dynamics of DWs in ferrimagnets and antiferromagnets, as well as quantum vortices or skyrmions confined in insulating magnetic nanodisks.
翻訳日:2024-01-09 20:15:22 公開日:2024-01-06
# 確率環境における価値ベース多目的強化学習の実証的研究

An Empirical Investigation of Value-Based Multi-objective Reinforcement Learning for Stochastic Environments ( http://arxiv.org/abs/2401.03163v1 )

ライセンス: Link先を確認
Kewen Ding, Peter Vamplew, Cameron Foale, Richard Dazeley(参考訳) 多目的強化学習(MORL)問題を解決するための一般的なアプローチは、ベクトルQ値とユーティリティ関数を組み合わせて従来のQ学習を拡張することである。 しかしながら、このアプローチは確率的環境の文脈において、特にsscalarised expected reward (ser) 基準に最適化する場合に発生する。 本稿では,確率的状態遷移を伴う環境に対して,値ベースMORL Q-learningアルゴリズムがSER最適ポリシーを学習する頻度に影響を与える要因を詳細に検討する。 我々は,多目的q-learningアルゴリズムの諸変種と報酬工学的アプローチを実験的に検討し,これらの手法の限界を実証する。 特に,これらのアルゴリズムの安定性と収束性に関して,ノイズの多いq値推定問題の影響を強調する。

One common approach to solve multi-objective reinforcement learning (MORL) problems is to extend conventional Q-learning by using vector Q-values in combination with a utility function. However issues can arise with this approach in the context of stochastic environments, particularly when optimising for the Scalarised Expected Reward (SER) criterion. This paper extends prior research, providing a detailed examination of the factors influencing the frequency with which value-based MORL Q-learning algorithms learn the SER-optimal policy for an environment with stochastic state transitions. We empirically examine several variations of the core multi-objective Q-learning algorithm as well as reward engineering approaches, and demonstrate the limitations of these methods. In particular, we highlight the critical impact of the noisy Q-value estimates issue on the stability and convergence of these algorithms.
翻訳日:2024-01-09 20:14:59 公開日:2024-01-06
# Webサービス推薦のためのQoS対応グラフコントラスト学習

QoS-Aware Graph Contrastive Learning for Web Service Recommendation ( http://arxiv.org/abs/2401.03162v1 )

ライセンス: Link先を確認
Jeongwhan Choi, Duksan Ryu(参考訳) webサービス技術の進歩によるクラウドサービスの急速な成長に伴い、幅広い選択肢から高品質なサービスを選択することが複雑なタスクになっている。 本研究では,Quality of Service(QoS)を用いたWebサービスレコメンデーションにおいて,データの分散とコールドスタートの問題に対処することを目的とする。 本稿では,Web サービス推薦のための QoS-aware graph contrastive learning (QAGCL) という新しい手法を提案する。 本モデルは,グラフコントラスト学習のパワーを活用して,コールドスタート問題に対処し,レコメンデーション精度を効果的に向上する。 位置情報情報とランダム性を備えた文脈拡張グラフの構築により,我々のモデルは多様なビューを提供する。 グラフ畳み込みネットワークとグラフコントラスト学習技術を用いて、これらの拡張グラフからユーザおよびサービスの埋め込みを学習する。 学習した埋め込みはQoSの考慮事項をシームレスにレコメンデーションプロセスに統合するために利用される。 実験結果から,QoS対応サービスレコメンデーションにおいて,データの分散性に対処する上でのQAGCLモデルの有効性とコールドスタート問題を明らかにすることができた。 本研究は,ユーザ・サービス間インタラクションデータに制限がある場合でも,現実のシナリオにおいてより正確なレコメンデーションを行う可能性を秘めている。

With the rapid growth of cloud services driven by advancements in web service technology, selecting a high-quality service from a wide range of options has become a complex task. This study aims to address the challenges of data sparsity and the cold-start problem in web service recommendation using Quality of Service (QoS). We propose a novel approach called QoS-aware graph contrastive learning (QAGCL) for web service recommendation. Our model harnesses the power of graph contrastive learning to handle cold-start problems and improve recommendation accuracy effectively. By constructing contextually augmented graphs with geolocation information and randomness, our model provides diverse views. Through the use of graph convolutional networks and graph contrastive learning techniques, we learn user and service embeddings from these augmented graphs. The learned embeddings are then utilized to seamlessly integrate QoS considerations into the recommendation process. Experimental results demonstrate the superiority of our QAGCL model over several existing models, highlighting its effectiveness in addressing data sparsity and the cold-start problem in QoS-aware service recommendations. Our research contributes to the potential for more accurate recommendations in real-world scenarios, even with limited user-service interaction data.
翻訳日:2024-01-09 20:14:46 公開日:2024-01-06
# aiメンターとしての人間 : 安全かつ効率的な自動運転のための強化強化学習

Human as AI Mentor: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving ( http://arxiv.org/abs/2401.03160v1 )

ライセンス: Link先を確認
Zilin Huang, Zihao Sheng, Chengyuan Ma, Sikai Chen(参考訳) 自動運転車(AV)の大幅な進歩にもかかわらず、AVの安全性と交通流効率を両立させる運転ポリシーの開発はまだ完全には検討されていない。 本稿では,複合交通小隊における安全かつ効率的な自律運転を支援するAIメンターベース深部強化学習(Human-in-the-loop reinforcement learning,HAIM-DRL)フレームワークを提案する。 人間の学習プロセスからインスピレーションを得て、まず、人間の知性をAIに効果的に注入する革新的な学習パラダイムを導入します。 このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能する。 エージェントが不確実な環境を十分に探索できる一方で、人間の専門家は危険な状況で制御し、潜在的な事故を避けるための正しい行動を示すことができる。 一方, エージェントは交通流の乱れを最小限に抑え, 交通流効率の最適化を図ることができる。 HAIM-DRLは、自由探索と部分的な人間のデモンストレーションから収集したデータを2つのトレーニングソースとして活用している。 我々は報酬関数を手動で設計する複雑なプロセスを回避し、代わりにエージェントの政策学習を導くために、部分的な人間のデモンストレーションから状態-行動値を直接導出する。 さらに,人間のメンターの認知負荷を軽減するために,最小限の介入技術を用いる。 その結果, HAIM-DRLは, 運転安全, サンプリング効率, 交通流障害の緩和, 交通シナリオの一般化において, 従来の手法よりも優れていた。 https://zilin-huang.github.io/HAIM-DRL-website/}{https://zilin-huang.github.io/HAIM-DRL-website/

Despite significant progress in autonomous vehicles (AVs), the development of driving policies that ensure both the safety of AVs and traffic flow efficiency has not yet been fully explored. In this paper, we propose an enhanced human-in-the-loop reinforcement learning method, termed the Human as AI mentor-based deep reinforcement learning (HAIM-DRL) framework, which facilitates safe and efficient autonomous driving in mixed traffic platoon. Drawing inspiration from the human learning process, we first introduce an innovative learning paradigm that effectively injects human intelligence into AI, termed Human as AI mentor (HAIM). In this paradigm, the human expert serves as a mentor to the AI agent. While allowing the agent to sufficiently explore uncertain environments, the human expert can take control in dangerous situations and demonstrate correct actions to avoid potential accidents. On the other hand, the agent could be guided to minimize traffic flow disturbance, thereby optimizing traffic flow efficiency. In detail, HAIM-DRL leverages data collected from free exploration and partial human demonstrations as its two training sources. Remarkably, we circumvent the intricate process of manually designing reward functions; instead, we directly derive proxy state-action values from partial human demonstrations to guide the agents' policy learning. Additionally, we employ a minimal intervention technique to reduce the human mentor's cognitive load. Comparative results show that HAIM-DRL outperforms traditional methods in driving safety, sampling efficiency, mitigation of traffic flow disturbance, and generalizability to unseen traffic scenarios. The code and demo videos for this paper can be accessed at: https://zilin-huang.github.io/HAIM-DRL-website/}{https://zilin-huang.github.io/HAIM-DRL-website/.
翻訳日:2024-01-09 20:14:07 公開日:2024-01-06
# フェデレーション学習支援車載インターネットにおける多目的分散クライアント選択

Distributed client selection with multi-objective in federated learning assisted Internet of Vehicles ( http://arxiv.org/abs/2401.03159v1 )

ライセンス: Link先を確認
Narisu Cha and Long Chang(参考訳) フェデレート・ラーニング(Federated Learning)は、IoT(Internet of Vehicles)における分散機械学習フレームワークである。 IoVでは、何百万台もの車が自分の知識を共有するためにモデルを訓練している。 アクティブな状態を維持するためには、参加者は一定間隔で状態をflサーバに更新し、次のラウンドに参加する必要がある。 しかし、多数の参加車両が存在する場合、アクティブな状態を維持することによるコストは非常に大きい。 本稿では,全参加者のアクティブ状態を維持するためのコストを削減する分散クライアント選択方式を提案する。 評価の高いクライアントは、隣人の中から選ばれます。 評価器では,サンプル量,スループット,計算能力,局所データセットの品質の4変数が考慮されている。 4変数上の閉形式解は存在しないため、ファジィ論理を評価器として採用した。 シミュレーションの結果,提案手法はクライアント選択を精度的に近似し,通信オーバヘッドを大幅に低減できることがわかった。

Federated learning is an emerging distributed machine learning framework in the Internet of Vehicles (IoV). In IoV, millions of vehicles are willing to train the model to share their knowledge. Maintaining an active state means the participants must update their state to the FL server in a fixed interval and participate to next round. However, the cost by maintaining an active state is very large when there are a huge number of participating vehicles. In this paper, we proposed a distributed client selection scheme to reduce the cost of maintaining the active state for all participants. The clients with the highest evaluation are elected among the neighbours. In the evaluator, four variables are considered including sample quantity, throughput available, computational capability and the quality of the local dataset. We adopted fuzzy logic as the evaluator since the closed-form solution over four variables does not exist. Extensive simulation results show our proposal approximates the centralized client selection in terms of accuracy and can significantly reduce the communication overhead.
翻訳日:2024-01-09 20:13:17 公開日:2024-01-06
# Quartet Logic: 短いテキスト分類を前進させるための4ステップ推論(QLFR)フレームワーク

Quartet Logic: A Four-Step Reasoning (QLFR) framework for advancing Short Text Classification ( http://arxiv.org/abs/2401.03158v1 )

ライセンス: Link先を確認
Hui Wu, Yuanben Zhang, Zhonghe Han, Yingyan Hou, Lei Wang, Siye Liu, Qihang Gong and Yunping Ge(参考訳) 短いテキスト分類(STC)は、現代デジタルプラットフォームで広く普及している短いが実質的な内容の処理と理解に不可欠である。 stcは、従来の事前学習された言語モデルで明らかな問題である意味的および構文的複雑さの把握が困難である。 グラフ畳み込みネットワークは外部の知識ベースを統合することで性能を高めるが、これらの手法は適用される知識の品質と範囲によって制限される。 近年,Large Language Models (LLM) とChain-of-Thought (CoT) の出現により,複雑な推論タスクの性能が大幅に向上した。 しかし、いくつかの研究では、基本的なNLPタスクにおける応用の限界を強調している。 そこで本研究では,STCタスクにおけるLCMの能力についてCoTを用いて検討した。 本稿では、Quartet Logic: A Four-Step Reasoning (QLFR)フレームワークを紹介する。 このフレームワークは主にSyntacticとSemantic Enrichment CoTを取り入れ、STCタスクを4つのステップに事実上分解する。 (i)本質的な概念の特定 (ii)常識知識の検索 (三)テキストの書き直し、及び (iv)分類。 このことは、STCの課題に対処するために、LLMの固有の知識と能力を引き出す。 驚いたことに、QLFRは小さなモデルの性能も改善できることがわかった。 そこで我々は,LLMからより小さなモデルへの知識伝達を容易にするために, CoT-Driven Multi-task Learning (QLFR-CML) 法を開発した。 提案手法の有効性を6つの短文ベンチマークで検証した。 特にQLFRは、すべてのデータセット、特にOhsumedデータセットとTagMyNewsデータセットにおいて、最先端のパフォーマンスを達成した。

Short Text Classification (STC) is crucial for processing and comprehending the brief but substantial content prevalent on contemporary digital platforms. The STC encounters difficulties in grasping semantic and syntactic intricacies, an issue that is apparent in traditional pre-trained language models. Although Graph Convolutional Networks enhance performance by integrating external knowledge bases, these methods are limited by the quality and extent of the knowledge applied. Recently, the emergence of Large Language Models (LLMs) and Chain-of-Thought (CoT) has significantly improved the performance of complex reasoning tasks. However, some studies have highlighted the limitations of their application in fundamental NLP tasks. Consequently, this study sought to employ CoT to investigate the capabilities of LLMs in STC tasks. This study introduces Quartet Logic: A Four-Step Reasoning (QLFR) framework. This framework primarily incorporates Syntactic and Semantic Enrichment CoT, effectively decomposing the STC task into four distinct steps: (i) essential concept identification, (ii) common-sense knowledge retrieval, (iii) text rewriting, and (iv) classification. This elicits the inherent knowledge and abilities of LLMs to address the challenges in STC. Surprisingly, we found that QLFR can also improve the performance of smaller models. Therefore, we developed a CoT-Driven Multi-task learning (QLFR-CML) method to facilitate the knowledge transfer from LLMs to smaller models. Extensive experimentation across six short-text benchmarks validated the efficacy of the proposed methods. Notably, QLFR achieved state-of-the-art performance on all datasets, with significant improvements, particularly on the Ohsumed and TagMyNews datasets.
翻訳日:2024-01-09 20:12:50 公開日:2024-01-06
# ImageLab: 初心者やエキスパートのための画像処理探索を簡単にする

ImageLab: Simplifying Image Processing Exploration for Novices and Experts Alike ( http://arxiv.org/abs/2401.03157v1 )

ライセンス: Link先を確認
Sahan Dissanayaka, Oshan Mudanayaka, Thilina Halloluwa, Chameera De Silva(参考訳) 画像処理は社会的利益にとって大きな可能性を秘めているが、その潜在能力は技術に精通した専門家にのみアクセス可能である。 この知識のギャップを橋渡しし、あらゆるバックグラウンドのユーザーにアクセス可能なツールを提供することは、未開拓のフロンティアである。 本稿では,インタラクティブな学習を理論的複雑性よりも優先することで,初心者と専門家の両方に適応し,画像処理を民主化する新しいツール「imagelab」を提案する。 ImageLabは貴重な教育資源を提供するだけでなく、経験豊富な実践者のための実践的なテスト環境も提供する。 ImageLabの特徴の包括的評価を通じて,小学生と大学生を対象にしたユーザスタディを通じて,ツールに対する肯定的なフィードバックを得ることにより,その効果を実証する。 我々の研究は、画像処理教育と実践の強化に向けた重要な取り組みであり、より包括的で、より近づきやすいものにしている。

Image processing holds immense potential for societal benefit, yet its full potential is often accessible only to tech-savvy experts. Bridging this knowledge gap and providing accessible tools for users of all backgrounds remains an unexplored frontier. This paper introduces "ImageLab," a novel tool designed to democratize image processing, catering to both novices and experts by prioritizing interactive learning over theoretical complexity. ImageLab not only serves as a valuable educational resource but also offers a practical testing environment for seasoned practitioners. Through a comprehensive evaluation of ImageLab's features, we demonstrate its effectiveness through a user study done for a focused group of school children and university students which enables us to get positive feedback on the tool. Our work represents a significant stride toward enhancing image processing education and practice, making it more inclusive and approachable for all.
翻訳日:2024-01-09 20:11:28 公開日:2024-01-06
# 対向訓練におけるデータ依存的安定性解析

Data-Dependent Stability Analysis of Adversarial Training ( http://arxiv.org/abs/2401.03156v1 )

ライセンス: Link先を確認
Yihan Wang and Shuang Liu and Xiao-Shan Gao(参考訳) 安定性解析は、確率勾配勾配に基づく学習アルゴリズムの一般化境界の導出を伴う深層学習の一般化能力を研究する上で不可欠な側面である。 敵の訓練は敵の攻撃に対する最も広く使われている防御である。 しかし,従来の逆行訓練の一般化境界には,データ分布に関する情報は含まれていない。 本稿では,データ分布情報を組み込んだ確率的勾配降下型逆学習のための一般化境界を提供することで,このギャップを埋める。 平均安定性と高次近似リプシッツ条件の概念を用いて、データ分布の変化と対角予算が堅牢な一般化ギャップにどのように影響するかを検討する。 我々の導出した凸損失と非凸損失の一般化境界は、少なくともデータ分散情報を含まない安定性に基づく一様分布と同等である。 さらに,データ中毒攻撃からの分布変化がロバストな一般化にどのように影響を与えるかを示す。

Stability analysis is an essential aspect of studying the generalization ability of deep learning, as it involves deriving generalization bounds for stochastic gradient descent-based training algorithms. Adversarial training is the most widely used defense against adversarial example attacks. However, previous generalization bounds for adversarial training have not included information regarding the data distribution. In this paper, we fill this gap by providing generalization bounds for stochastic gradient descent-based adversarial training that incorporate data distribution information. We utilize the concepts of on-average stability and high-order approximate Lipschitz conditions to examine how changes in data distribution and adversarial budget can affect robust generalization gaps. Our derived generalization bounds for both convex and non-convex losses are at least as good as the uniform stability-based counterparts which do not include data distribution information. Furthermore, our findings demonstrate how distribution shifts from data poisoning attacks can impact robust generalization.
翻訳日:2024-01-09 20:10:50 公開日:2024-01-06
# 非数エージェントをターゲットにした分散マルチエージェント能動探索と追跡

Decentralized Multi-Agent Active Search and Tracking when Targets Outnumber Agents ( http://arxiv.org/abs/2401.03154v1 )

ライセンス: Link先を確認
Arundhati Banerjee and Jeff Schneider(参考訳) マルチエージェントのマルチターゲットトラッキングには、野生生物のパトロール、セキュリティ監視、環境監視など幅広い応用がある。 このようなアルゴリズムは、しばしば制限的な仮定を行う: ターゲットの数や初期位置を推定する、あるいはエージェントが環境の不連続な分割を監視するために事前に割り当てられる、探索の負担を軽減できる。 これはまた、エージェントが視野内のターゲットを継続的に追跡できないため、ターゲットよりもエージェントが少ない場合の適用性を制限する。 マルチエージェント追跡アルゴリズムは、観察のエージェント間同期や、関節動作を調整する中央コントローラの存在を仮定する。 代わりに、非同期のエージェント間通信による分散マルチエージェント、マルチターゲット、同時アクティブ検索と追跡の設定に焦点をあてる。 提案アルゴリズムであるdecsterでは,確率仮説密度フィルタの逐次モンテカルロによる後進推定法とトンプソンサンプリング法を組み合わせて,分散マルチエージェント意思決定を行う。 異なるアクション選択ポリシーを比較し、ターゲットがエージェント数を上回るシナリオに注目した。 シミュレーションでは、DecSTERは信頼性の低いエージェント間通信に頑健であり、異なるターゲット数と様々なチームサイズに対して最適なサブパターン割り当て(OSPA)の基準値で情報収集ベースラインを上回ります。

Multi-agent multi-target tracking has a wide range of applications, including wildlife patrolling, security surveillance or environment monitoring. Such algorithms often make restrictive assumptions: the number of targets and/or their initial locations may be assumed known, or agents may be pre-assigned to monitor disjoint partitions of the environment, reducing the burden of exploration. This also limits applicability when there are fewer agents than targets, since agents are unable to continuously follow the targets in their fields of view. Multi-agent tracking algorithms additionally assume inter-agent synchronization of observations, or the presence of a central controller to coordinate joint actions. Instead, we focus on the setting of decentralized multi-agent, multi-target, simultaneous active search-and-tracking with asynchronous inter-agent communication. Our proposed algorithm DecSTER uses a sequential monte carlo implementation of the probability hypothesis density filter for posterior inference combined with Thompson sampling for decentralized multi-agent decision making. We compare different action selection policies, focusing on scenarios where targets outnumber agents. In simulation, we demonstrate that DecSTER is robust to unreliable inter-agent communication and outperforms information-greedy baselines in terms of the Optimal Sub-Pattern Assignment (OSPA) metric for different numbers of targets and varying teamsizes.
翻訳日:2024-01-09 20:10:35 公開日:2024-01-06
# スパースイベント補完のためのイベント指向拡散補正法

An Event-Oriented Diffusion-Refinement Method for Sparse Events Completion ( http://arxiv.org/abs/2401.03153v1 )

ライセンス: Link先を確認
Bo Zhang, Yuqi Han, Jinli Suo, Qionghai Dai(参考訳) イベントカメラまたはダイナミックビジョンセンサー(DVS)は、従来の強度フレームの代わりに輝度の変化に対する非同期応答を記録し、低帯域幅で超高感度を特徴とする。 新しいメカニズムは、高速な動きと大きなダイナミックレンジを持つ挑戦的なシナリオにおいて大きな利点を示す。 しかし、記録されたイベントはハードウェア帯域幅の制限や過酷な環境での極端なフォトン飢餓のため、非常にスパースである可能性がある。 イベントカメラの潜在能力を最大限に活用するために,処理段階と出力形態の両方におけるイベントデータのユニークな特性に適合するイベントシーケンス補完手法を提案する。 具体的には,イベントストリームを時空間領域内の3次元イベントクラウドとして扱うとともに,密集雲を粗大に生成する拡散モデルを構築し,正確なタイムスタンプを復元して生データの時間分解を成功させる。 本手法の有効性を総合的に検証するため,空間分解能の異なる広範に使用される3つの公開データセットについて広範な実験を行い,さらに,高度にダイナミックな動きと厳しい照明下での多様なシナリオをカバーする新しいイベントデータセットを収集した。 高品質な高密度イベントを生成することに加えて、オブジェクト分類や強度フレーム再構成などの下流アプリケーションにも活用できる。

Event cameras or dynamic vision sensors (DVS) record asynchronous response to brightness changes instead of conventional intensity frames, and feature ultra-high sensitivity at low bandwidth. The new mechanism demonstrates great advantages in challenging scenarios with fast motion and large dynamic range. However, the recorded events might be highly sparse due to either limited hardware bandwidth or extreme photon starvation in harsh environments. To unlock the full potential of event cameras, we propose an inventive event sequence completion approach conforming to the unique characteristics of event data in both the processing stage and the output form. Specifically, we treat event streams as 3D event clouds in the spatiotemporal domain, develop a diffusion-based generative model to generate dense clouds in a coarse-to-fine manner, and recover exact timestamps to maintain the temporal resolution of raw data successfully. To validate the effectiveness of our method comprehensively, we perform extensive experiments on three widely used public datasets with different spatial resolutions, and additionally collect a novel event dataset covering diverse scenarios with highly dynamic motions and under harsh illumination. Besides generating high-quality dense events, our method can benefit downstream applications such as object classification and intensity frame reconstruction.
翻訳日:2024-01-09 20:10:11 公開日:2024-01-06
# 安定拡散を用いた産業データの制御可能な画像合成

Controllable Image Synthesis of Industrial Data Using Stable Diffusion ( http://arxiv.org/abs/2401.03152v1 )

ライセンス: Link先を確認
Gabriele Valvano, Antonino Agostino, Giovanni De Magistris, Antonino Graziano, Giacomo Veneri(参考訳) 欠陥検出とセグメンテーションを実行するための教師付きディープニューラルネットワークのトレーニングには、大規模で完全なアノテートされたデータセットが必要である。 生成AIは、小さな産業データセットを人工的に拡大する機会を提供する。 残念なことに、優れた生成モデルにはトレーニングに大量のデータが必要です。 そこで本稿では,産業データの汎用学習型生成モデルを再利用し,最終的に自己ラベル欠陥画像の生成を可能にする新しい手法を提案する。 まず、モデルに新しい概念を学習させ、新しいデータ分布を伴わせます。 次に, 生成過程の条件を学習させ, 適切に定義された位相特性を満足し, 所定の形状と位置で欠陥を示す工業的画像を生成する。 提案手法の利点を強調するため, 実産業用ケースのクラックセグメンタを最適化するために, 合成データセットを用いた。 利用可能なデータが少なければ、いくつかのメトリクスでかなりのパフォーマンス向上を観測し、本運用環境におけるメソッドの可能性を示す。

Training supervised deep neural networks that perform defect detection and segmentation requires large-scale fully-annotated datasets, which can be hard or even impossible to obtain in industrial environments. Generative AI offers opportunities to enlarge small industrial datasets artificially, thus enabling the usage of state-of-the-art supervised approaches in the industry. Unfortunately, also good generative models need a lot of data to train, while industrial datasets are often tiny. Here, we propose a new approach for reusing general-purpose pre-trained generative models on industrial data, ultimately allowing the generation of self-labelled defective images. First, we let the model learn the new concept, entailing the novel data distribution. Then, we force it to learn to condition the generative process, producing industrial images that satisfy well-defined topological characteristics and show defects with a given geometry and location. To highlight the advantage of our approach, we use the synthetic dataset to optimise a crack segmentor for a real industrial use case. When the available data is small, we observe considerable performance increase under several metrics, showing the method's potential in production environments.
翻訳日:2024-01-09 20:09:50 公開日:2024-01-06
# ログ異常検出のためのDQNを用いた半教師付き学習

Semi-supervised learning via DQN for log anomaly detection ( http://arxiv.org/abs/2401.03151v1 )

ライセンス: Link先を確認
Yingying He and Xiaobing Pei and Lihong Shen(参考訳) ログ異常検出は、現代のソフトウェアシステムのセキュリティとメンテナンスを確保する上で重要な役割を果たす。 現在、ログデータの異常を検出するための主要なアプローチは、教師付き異常検出である。 それでも既存の教師付きメソッドはラベル付きデータに大きく依存しており、現実のシナリオでは制限されることが多い。 本稿では,DQNLogと呼ばれる深層強化学習からのDQNアルゴリズムを組み合わせた半教師付きログ異常検出手法を提案する。 DQNLogは少量のラベル付きデータと大規模なラベルなしデータセットを活用し、不均衡なデータと限定的なラベル付けの課題に効果的に対処する。 このアプローチは、異常に偏った環境と相互作用することで既知の異常を学習するだけでなく、ラベルのないデータセットを積極的に探索することで未知の異常を発見する。 さらに、DQNLogは、Deep Reinforcement Learning(DRL)中のモデル過大評価を防ぐために、クロスエントロピー損失項を組み込んでいる。 DQNLogは精度を保ちながらリコール率とF1スコアを大幅に改善し,実用性を検証した。

Log anomaly detection plays a critical role in ensuring the security and maintenance of modern software systems. At present, the primary approach for detecting anomalies in log data is through supervised anomaly detection. Nonetheless, existing supervised methods heavily rely on labeled data, which can be frequently limited in real-world scenarios. In this paper, we propose a semi-supervised log anomaly detection method that combines the DQN algorithm from deep reinforcement learning, which is called DQNLog. DQNLog leverages a small amount of labeled data and a large-scale unlabeled dataset, effectively addressing the challenges of imbalanced data and limited labeling. This approach not only learns known anomalies by interacting with an environment biased towards anomalies but also discovers unknown anomalies by actively exploring the unlabeled dataset. Additionally, DQNLog incorporates a cross-entropy loss term to prevent model overestimation during Deep Reinforcement Learning (DRL). Our evaluation on three widely-used datasets demonstrates that DQNLog significantly improves recall rate and F1-score while maintaining precision, validating its practicality.
翻訳日:2024-01-09 20:09:29 公開日:2024-01-06
# 伝達学習と時空間特徴を用いた効率的なビットレートラダー構築

Efficient Bitrate Ladder Construction using Transfer Learning and Spatio-Temporal Features ( http://arxiv.org/abs/2401.03195v1 )

ライセンス: Link先を確認
Ali Falahati, Mohammad Karim Safavi, Ardavan Elahi, Farhad Pakdaman, Moncef Gabbouj(参考訳) 効率的なビットレートで高品質なビデオを提供することは、ビデオ産業にとって大きな課題だ。 ビットレートラダーの従来の1-size-fits-allスキームは非効率であり、幅広いエンコーディングを必要とするため、最適なコンテンツ認識決定に到達できない。 そこで本研究では,転送学習と時空間特徴を用いた,ビットレートと複雑性の少ないビットレートラダー予測手法を提案する。 1) 事前学習済みのdnnの特徴地図を用いて, 限られたトレーニングデータを用いて速度品質の振る舞いを予測すること, (2) トップ品質の最小ビットレートを予測し, トップラングで使用することで, 最高品質のラング効率を向上させることを提案する。 102の動画シーンでのテストでは、94.1%の複雑さと1.71%のBD-Rateコストでブルートフォースを減少させる。 さらに,伝達学習は4つのネットワークとアブレーション研究を通して徹底的に研究された。

Providing high-quality video with efficient bitrate is a main challenge in video industry. The traditional one-size-fits-all scheme for bitrate ladders is inefficient and reaching the best content-aware decision computationally impractical due to extensive encodings required. To mitigate this, we propose a bitrate and complexity efficient bitrate ladder prediction method using transfer learning and spatio-temporal features. We propose: (1) using feature maps from well-known pre-trained DNNs to predict rate-quality behavior with limited training data; and (2) improving highest quality rung efficiency by predicting minimum bitrate for top quality and using it for the top rung. The method tested on 102 video scenes demonstrates 94.1% reduction in complexity versus brute-force at 1.71% BD-Rate expense. Additionally, transfer learning was thoroughly studied through four networks and ablation studies.
翻訳日:2024-01-09 20:03:35 公開日:2024-01-06
# トポロジカルデータ解析による動的ネットワークにおける永続的コミュニティ構造学習

Learning Persistent Community Structures in Dynamic Networks via Topological Data Analysis ( http://arxiv.org/abs/2401.03194v1 )

ライセンス: Link先を確認
Dexu Kong, Anping Zhang, Yang Li(参考訳) 動的コミュニティ検出法は、時間的一貫性を確保する効果的なメカニズムを欠いており、ネットワーク進化の分析を妨げている。 本稿では,短時間でネットワークトポロジの変化を最小限に抑えるという概念に触発されて,コミュニティ間構造に時間的整合性を持たせる新しいディープグラフクラスタリングフレームワークを提案する。 特に,表現崩壊問題に対処するために,まず,ノード埋め込みを保存する行列因子分解に基づくディープグラフクラスタリングアルゴリズムであるmfcを導入する。 静的クラスタリングの結果に基づいて, 確率的コミュニティネットワークを構築し, その持続性ホモロジーを計算し, その構造的類似性を評価する。 さらに,新しいニューラルネットワーク正則化トポレグを導入し,時間的間隔でコミュニティ間構造間の位相的類似性を確保する。 本手法は,固定数と可変数のコミュニティを持つ実世界のデータセットの時間的一貫性とクラスタリング精度を向上させる。 また、時間的に持続的なコミュニティ検出におけるTDAの先駆的な応用であり、ネットワーク分析の分野への洞察に富んだ貢献を提供する。 コードとデータはパブリックgitリポジトリで入手できる。 https://github.com/kundtx/mfc_toporeg

Dynamic community detection methods often lack effective mechanisms to ensure temporal consistency, hindering the analysis of network evolution. In this paper, we propose a novel deep graph clustering framework with temporal consistency regularization on inter-community structures, inspired by the concept of minimal network topological changes within short intervals. Specifically, to address the representation collapse problem, we first introduce MFC, a matrix factorization-based deep graph clustering algorithm that preserves node embedding. Based on static clustering results, we construct probabilistic community networks and compute their persistence homology, a robust topological measure, to assess structural similarity between them. Moreover, a novel neural network regularization TopoReg is introduced to ensure the preservation of topological similarity between inter-community structures over time intervals. Our approach enhances temporal consistency and clustering accuracy on real-world datasets with both fixed and varying numbers of communities. It is also a pioneer application of TDA in temporally persistent community detection, offering an insightful contribution to field of network analysis. Code and data are available at the public git repository: https://github.com/kundtx/MFC_TopoReg
翻訳日:2024-01-09 20:03:19 公開日:2024-01-06
# エルミート動的モード分解の収束性について

On the Convergence of Hermitian Dynamic Mode Decomposition ( http://arxiv.org/abs/2401.03192v1 )

ライセンス: Link先を確認
Nicolas Boull\'e and Matthew J. Colbrook(参考訳) 本研究では,自随伴クープマン作用素のスペクトル特性に対するエルミート動的モード分解(dmd)の収束について検討する。 エルミートdmd(hermitian dmd)は、離散時間スナップショットから未知の非線形力学系に関連するクープマン作用素を近似するデータ駆動手法である。 適切な条件下では、hdmdの固有値と固有関数は、基礎となるクープマン作用素のスペクトル特性に収束する。 その過程でスペクトル測度の収束に関する一般定理を確立し、2次元シュリンガー方程式上で数値的に結果を示す。

In this work, we study the convergence of Hermitian Dynamic Mode Decomposition (DMD) to the spectral properties of self-adjoint Koopman operators. Hermitian DMD is a data-driven method for approximating the Koopman operator associated with an unknown nonlinear dynamical system from discrete-time snapshots, while preserving the self-adjointness of the operator on its finite-dimensional approximations. We show that, under suitable conditions, the eigenvalues and eigenfunctions of HDMD converge to the spectral properties of the underlying Koopman operator. Along the way, we establish a general theorem on the convergence of spectral measures, and demonstrate our results numerically on the two-dimensional Schr\"odinger equation.
翻訳日:2024-01-09 20:02:59 公開日:2024-01-06
# DistFormer: オブジェクト単位の単眼的距離推定のための局所的およびグローバル的特徴の強化

DistFormer: Enhancing Local and Global Features for Monocular Per-Object Distance Estimation ( http://arxiv.org/abs/2401.03191v1 )

ライセンス: Link先を確認
Aniello Panariello and Gianluca Mancusi and Fedy Haj Ali and Angelo Porrello and Simone Calderara and Rita Cucchiara(参考訳) オブジェクトごとの正確な距離推定は、自動運転、監視、ロボット工学などの安全クリティカルな応用において不可欠である。 既存のアプローチでは、ローカル情報(バウンディングボックス比例)とグローバル情報という2つのスケールに依存しており、これはシーンの意味と隣り合うオブジェクトとの空間関係をエンコードしている。 しかし、これらのアプローチは長距離物体や強い閉塞や異常な視覚パターンの存在に苦しむ可能性がある。 この点に関して、我々の研究は地域的およびグローバル的な手掛かりを強化することを目的としています。 DistFormerという名前の私たちのアーキテクチャは、3つの主要なコンポーネントを共同で動作させます。 一 オブジェクトごとの細かな表現を抽出するロバストなコンテキストエンコーダ 二 自己超越を利用して有用物ごとの特徴の学習を促進するマスク付きエンコーダデコーダモジュール 三 オブジェクト表現を集約し、共同で空間的に整合性のある推定を計算するグローバルリファインメントモジュール DistFormerの有効性を評価するため,標準KITTIデータセットと大規模NuScenesおよびMOTSynthデータセットを用いて実験を行った。 このようなデータセットは、さまざまな屋内/屋外環境、天候条件の変化、外観、カメラ視点をカバーする。 総合分析の結果, distformerは既存の手法よりも優れていることがわかった。 さらに,その一般化能力をさらに精査し,ゼロショット合成から実写への転送における正規化の利点を示す。

Accurate per-object distance estimation is crucial in safety-critical applications such as autonomous driving, surveillance, and robotics. Existing approaches rely on two scales: local information (i.e., the bounding box proportions) or global information, which encodes the semantics of the scene as well as the spatial relations with neighboring objects. However, these approaches may struggle with long-range objects and in the presence of strong occlusions or unusual visual patterns. In this respect, our work aims to strengthen both local and global cues. Our architecture -- named DistFormer -- builds upon three major components acting jointly: i) a robust context encoder extracting fine-grained per-object representations; ii) a masked encoder-decoder module exploiting self-supervision to promote the learning of useful per-object features; iii) a global refinement module that aggregates object representations and computes a joint, spatially-consistent estimation. To evaluate the effectiveness of DistFormer, we conduct experiments on the standard KITTI dataset and the large-scale NuScenes and MOTSynth datasets. Such datasets cover various indoor/outdoor environments, changing weather conditions, appearances, and camera viewpoints. Our comprehensive analysis shows that DistFormer outperforms existing methods. Moreover, we further delve into its generalization capabilities, showing its regularization benefits in zero-shot synth-to-real transfer.
翻訳日:2024-01-09 20:02:48 公開日:2024-01-06
# MPN:多言語パッチニューロンを用いた言語間モデル編集

MPN: Leveraging Multilingual Patch Neuron for Cross-lingual Model Editing ( http://arxiv.org/abs/2401.03190v1 )

ライセンス: Link先を確認
Nianwen Si, Hao Zhang, Weiqiang Zhang(参考訳) 大規模言語モデルは、膨大な量の事実知識をエンコードすることが知られているが、外部情報の性質が変化し続けるため、しばしば時代遅れになる。 この課題に対する有望な解決策は、効率的に知識を更新するためのモデル編集手法の利用である。 しかし、既存のモデル編集技術の大部分は単言語フレームワークに限定されており、多言語モデルの言語間知識同期の重要な問題に対処できていない。 そこで本研究では,多言語パッチニューロンを訓練し,言語横断的知識を蓄積する手法を提案する。 既存のアプローチに容易に適応して、言語間編集機能を強化することができる。 提案手法を評価するために,XNLIデータセットと自己構築型XFEVERデータセットの両方を用いて実験を行った。 実験の結果,提案手法は,従来の手法に過剰な修正を加えることなく,言語間編集タスクの性能向上を実現し,ユーザフレンドリな特徴を示すことができた。 コードはまもなくリリースされる予定だ。

Large language models are known for encoding a vast amount of factual knowledge, but they often becomes outdated due to the ever-changing nature of external information. A promising solution to this challenge is the utilization of model editing methods to update the knowledge in an efficient manner. However, the majority of existing model editing techniques are limited to monolingual frameworks, thus failing to address the crucial issue of cross-lingual knowledge synchronization for multilingual models. To tackle this problem, we propose a simple yet effective method that trains multilingual patch neuron to store cross-lingual knowledge. It can be easily adapted to existing approaches to enhance their cross-lingual editing capabilities. To evaluate our method, we conduct experiments using both the XNLI dataset and a self-constructed XFEVER dataset. Experimental results demonstrate that our proposed method achieves improved performance in cross-lingual editing tasks without requiring excessive modifications to the original methodology, thereby showcasing its user-friendly characteristics. Codes will be released soon.
翻訳日:2024-01-09 20:02:26 公開日:2024-01-06
# ニューロシンボリック人工知能の検証・検証・検証・評価に関する調査研究

A Survey on Verification and Validation, Testing and Evaluations of Neurosymbolic Artificial Intelligence ( http://arxiv.org/abs/2401.03188v1 )

ライセンス: Link先を確認
Justus Renkhoff, Ke Feng, Marc Meier-Doernberg, Alvaro Velasquez, Houbing Herbert Song(参考訳) ニューロシンボリック人工知能(Neurosymbolic AI, AI)は、AIとサブシンボリックAIの強みを組み合わせた、AIの新しい分野である。 サブシンボリックAIの大きな欠点は、サブシンボリックAIを使用するシステムのテストと評価(T&E)と検証と検証(V&V)プロセスを課題とする、予測が難しいことを意味する“ブラックボックス”として機能することにある。 ニューロシンボリックAIは、シンボリックAIとサブシンボリックAIの両方の利点を組み合わせるため、ニューロシンボリック応用がV&Vプロセスをいかに楽にするかを調査する。 この調査は、ニューロシンボリックAIの2つの分類を考察し、それらを評価し、どのアルゴリズムが現在の応用におけるシンボル的およびサブシンボリックなコンポーネントとして一般的に使われているかを分析する。 さらに、これらのコンポーネントのT&EおよびV&Vプロセスに関する現在の技術の概要について述べる。 さらに、現在のニューロシンボリック・アプリケーションにおいて、T&EおよびV&V目的の象徴的部分がどのように使用されるかを検討した。 我々の研究は、ニューロシンボリックAIが、象徴的AIの可能性を活用することで、サブシンボリックAIのT&EおよびV&Vプロセスを緩和する大きな可能性を示唆している。 さらに、現在のT&EおよびV&V手法のニューロシンボリックAIへの適用性を評価し、ニューロシンボリックアーキテクチャがこれらの手法にどのように影響するかを調査した。 現在のt&eとv&vの技術は、神経シンボリックアプリケーションのシンボリックおよびサブシンボリックな部分を独立してテスト、評価、検証、検証するのに部分的に十分であるが、いくつかの手法では、現在のt&eとv&vの手法がデフォルトでは適用されず、調整や新しいアプローチが必要である。 我々の研究は、シンボルAIを使用して、サブシンボリックモデルの予測をテスト、評価、検証、検証し、ニューロシンボリックAIを安全で安全で信頼できるAIのための興味深い研究方向にする大きな可能性を示唆している。

Neurosymbolic artificial intelligence (AI) is an emerging branch of AI that combines the strengths of symbolic AI and sub-symbolic AI. A major drawback of sub-symbolic AI is that it acts as a "black box", meaning that predictions are difficult to explain, making the testing & evaluation (T&E) and validation & verification (V&V) processes of a system that uses sub-symbolic AI a challenge. Since neurosymbolic AI combines the advantages of both symbolic and sub-symbolic AI, this survey explores how neurosymbolic applications can ease the V&V process. This survey considers two taxonomies of neurosymbolic AI, evaluates them, and analyzes which algorithms are commonly used as the symbolic and sub-symbolic components in current applications. Additionally, an overview of current techniques for the T&E and V&V processes of these components is provided. Furthermore, it is investigated how the symbolic part is used for T&E and V&V purposes in current neurosymbolic applications. Our research shows that neurosymbolic AI as great potential to ease the T&E and V&V processes of sub-symbolic AI by leveraging the possibilities of symbolic AI. Additionally, the applicability of current T&E and V&V methods to neurosymbolic AI is assessed, and how different neurosymbolic architectures can impact these methods is explored. It is found that current T&E and V&V techniques are partly sufficient to test, evaluate, verify, or validate the symbolic and sub-symbolic part of neurosymbolic applications independently, while some of them use approaches where current T&E and V&V methods are not applicable by default, and adjustments or even new approaches are needed. Our research shows that there is great potential in using symbolic AI to test, evaluate, verify, or validate the predictions of a sub-symbolic model, making neurosymbolic AI an interesting research direction for safe, secure, and trustworthy AI.
翻訳日:2024-01-09 20:02:09 公開日:2024-01-06
# タイムリパラメトリゼーション不変性:ガラスからおもちゃのブラックホールへ

Time-reparametrization invariance: from Glasses to toy Black Holes ( http://arxiv.org/abs/2401.03186v1 )

ライセンス: Link先を確認
Jorge Kurchan(参考訳) ガラス力学は、時間的再パラメータ化 ‘ソフトネス’: ガラスは変動し、外的摂動に反応し、主にその進化のペースを変える。 驚くべきことに、同様の状況はsachdev-ye-kitaev(syk)モデルのような量子場理論のおもちゃのモデルにも現れ、再パラメータ化に関連する励起が新興の「重力」の役割を担っている。 この2つのシステムは、技術的に非常によく似た起源から生まれた共通の特徴を共有しています。 この接続は、特にガラス力学とSYKモデルの超対称性の変種との間にあり、ここで議論する。 この対応が自然に刺激される好奇心は別として、各分野における発展が他方にとって有用であるという希望もある。

Glassy dynamics have time-reparametrization `softness': glasses fluctuate, and respond to external perturbations, primarily by changing the pace of their evolution. Remarkably, the same situation also appears in toy models of quantum field theory such as the Sachdev-Ye-Kitaev (SYK) model, where the excitations associated to reparametrizations play the role of an emerging `gravity'. I describe here how these two seemingly unrelated systems share common features, arising from a technically very similar origin. This connection is particularly close between glassy dynamics and supersymmetric variants of the SYK model, which I discuss in some detail. Apart from the curiosity that this correspondence naturally arouses, there is also the hope that developments in each field may be useful for the other.
翻訳日:2024-01-09 20:01:27 公開日:2024-01-06
# {\delta}-CAUSAL:Causal Reasoningにおけるデフレの可能性を探る

{\delta}-CAUSAL: Exploring Defeasibility in Causal Reasoning ( http://arxiv.org/abs/2401.03183v1 )

ライセンス: Link先を確認
Shaobo Cui, Lazar Milikic, Yiyang Feng, Mete Ismayilzada, Debjit Paul, Antoine Bosselut, Boi Faltings(参考訳) 因果推論の欠如は、因果関係と効果の因果関係が強化または弱まることを意味する。 すなわち、原因と効果の因果強度は、それぞれ強化論点(支援者)と弱化論点(防御者)の合併によって増大または減少するべきである。 しかし、既存の著作物は因果推論の難解性を無視し、難解な設定で既存の因果強度指標を評価できない。 本研究では,因果推論の難解性を研究する最初のベンチマークデータセットである {\delta}-causal を提案する。 delta}-causal は10のドメインにまたがる約1kのイベントを含み、サポーターや敗者を伴う因果関係のペア、すなわち因果関係のペアを特徴とする。 さらに,現在の因果強度指標は,"delta}-causal"におけるサポーターや敗者の導入に伴う因果強度の変化を反映しないことを示す。 この目的のために,トークンレベルの因果関係に基づいて因果強度を測定する尺度であるCESAR(Causal Embedding aSsociation with Attention Rating)を提案する。 CESARは、既存の指標に対する69.7%の相対的な改善を達成し、支持者や敗者による因果力の変化を捉えることで47.2%から80.1%に増加した。 我々はさらに、GPT-3.5のような大規模言語モデル(LLM)さえも、支持者や敗者を生み出す上で、人間より4.5と10.7ポイント遅れていることを実証し、 {\delta}-CAUSALの課題を強調した。

Defeasibility in causal reasoning implies that the causal relationship between cause and effect can be strengthened or weakened. Namely, the causal strength between cause and effect should increase or decrease with the incorporation of strengthening arguments (supporters) or weakening arguments (defeaters), respectively. However, existing works ignore defeasibility in causal reasoning and fail to evaluate existing causal strength metrics in defeasible settings. In this work, we present {\delta}-CAUSAL, the first benchmark dataset for studying defeasibility in causal reasoning. {\delta}-CAUSAL includes around 11K events spanning ten domains, featuring defeasible causality pairs, i.e., cause-effect pairs accompanied by supporters and defeaters. We further show current causal strength metrics fail to reflect the change of causal strength with the incorporation of supporters or defeaters in {\delta}-CAUSAL. To this end, we propose CESAR (Causal Embedding aSsociation with Attention Rating), a metric that measures causal strength based on token-level causal relationships. CESAR achieves a significant 69.7% relative improvement over existing metrics, increasing from 47.2% to 80.1% in capturing the causal strength change brought by supporters and defeaters. We further demonstrate even Large Language Models (LLMs) like GPT-3.5 still lag 4.5 and 10.7 points behind humans in generating supporters and defeaters, emphasizing the challenge posed by {\delta}-CAUSAL.
翻訳日:2024-01-09 20:01:11 公開日:2024-01-06
# FY-4A衛星画像における分布認識型インタラクティブアテンションネットワークと大規模クラウド認識ベンチマーク

Distribution-aware Interactive Attention Network and Large-scale Cloud Recognition Benchmark on FY-4A Satellite Image ( http://arxiv.org/abs/2401.03182v1 )

ライセンス: Link先を確認
Jiaqing Zhang, Jie Lei, Weiying Xie, Kai Jiang, Mingxiang Cao, Yunsong Li(参考訳) 正確な雲の認識と警告は、飛行中のサポート、天気予報、気候調査など様々な用途に不可欠である。 しかし、最近のディープラーニングアルゴリズムは、衛星画像中のクラウド領域の検出に主に重点を置いており、正確なクラウド認識に必要な特異性にはあまり注意を払っていない。 この制限により、9つの異なるクラウドカテゴリを含む新しいFY-4A-Himawari-8(FYH)データセットを開発し、プロジェクション、時間分解能、空間分解能の観点で70,419のイメージラベル対を整列させる正確なドメイン適応手法を用いて、教師付きディープラーニングネットワークのトレーニングを容易にすることができた。 クラウド形成の複雑さと多様性を考慮すると、クラウド認識タスクに固有の課題を徹底的に分析し、データの複雑な特性と分布を調べる。 これらの課題を効果的に解決するために,高分解能ブランチと並列多分解能クロスブランチを通じて画素レベルの詳細を保存する分散対応インタラクティブアテンションネットワーク(DIAnet)を設計した。 また、クラウドカテゴリ間の不均衡を軽減するために、分散認識損失(DAL)を統合しました。 インタラクティブアテンションモジュール(iam)は、空間情報とチャネル情報とを組み合わせた特徴抽出のロバスト性をさらに向上させる。 FYHデータセットの実証評価は,本手法が他のクラウド認識ネットワークより優れており,平均的相互接続(mIoU)において優れた性能を発揮することを示す。 dianetの実装コードはhttps://github.com/icey-zhang/dianetで利用可能である。

Accurate cloud recognition and warning are crucial for various applications, including in-flight support, weather forecasting, and climate research. However, recent deep learning algorithms have predominantly focused on detecting cloud regions in satellite imagery, with insufficient attention to the specificity required for accurate cloud recognition. This limitation inspired us to develop the novel FY-4A-Himawari-8 (FYH) dataset, which includes nine distinct cloud categories and uses precise domain adaptation methods to align 70,419 image-label pairs in terms of projection, temporal resolution, and spatial resolution, thereby facilitating the training of supervised deep learning networks. Given the complexity and diversity of cloud formations, we have thoroughly analyzed the challenges inherent to cloud recognition tasks, examining the intricate characteristics and distribution of the data. To effectively address these challenges, we designed a Distribution-aware Interactive-Attention Network (DIAnet), which preserves pixel-level details through a high-resolution branch and a parallel multi-resolution cross-branch. We also integrated a distribution-aware loss (DAL) to mitigate the imbalance across cloud categories. An Interactive Attention Module (IAM) further enhances the robustness of feature extraction combined with spatial and channel information. Empirical evaluations on the FYH dataset demonstrate that our method outperforms other cloud recognition networks, achieving superior performance in terms of mean Intersection over Union (mIoU). The code for implementing DIAnet is available at https://github.com/icey-zhang/DIAnet.
翻訳日:2024-01-09 20:00:41 公開日:2024-01-06
# 共同推論に基づく疾患Q&Aシステム

A Joint-Reasoning based Disease Q&A System ( http://arxiv.org/abs/2401.03181v1 )

ライセンス: Link先を確認
Prakash Chandra Sukhwal, Vaibhav Rajan, Atreyi Kankanhalli(参考訳) 医療質問応答(QA)アシスタントは、自然言語処理や関連技術を用いて複数のソースから情報を合成することで、レイユーザーの健康関連クエリに応答する。 彼らは、誤った情報、情報過負荷、医療言語の複雑さの問題を緩和し、医療専門家の負担を軽減しつつ、素人の情報ニーズに対処するための重要なツールとして機能する。 このようなアシスタントのエンジンであるQAシステムは、一般的に言語モデル(LM)または知識グラフ(KG)のいずれかを使用しているが、アプローチは相補的である可能性がある。 LMベースのQAシステムは、複雑な質問を理解し、十分に構成された回答を提供するのに優れているが、現実的な間違いをしがちである。 事実をよく表すKGベースのQAシステムは、多くの場合、事前に作成されたテンプレートを用いて、短い質問に答えることに限られる。 テキストベースのQAにLMとKGのアプローチを併用する研究がいくつかあるが、これは複数の質問に答えるために行われた。 既存のQAシステムにも、自動化とパフォーマンスの面で制限がある。 そこで本研究では,LMとKGの両手法を効果的に活用する,新規な自動疾患QAシステムを設計し,これらの課題に対処する。 各種品質指標を用いたシステム評価は,一般的なChatGPTを含むベンチマークシステムに対して有効であることを示す。

Medical question answer (QA) assistants respond to lay users' health-related queries by synthesizing information from multiple sources using natural language processing and related techniques. They can serve as vital tools to alleviate issues of misinformation, information overload, and complexity of medical language, thus addressing lay users' information needs while reducing the burden on healthcare professionals. QA systems, the engines of such assistants, have typically used either language models (LMs) or knowledge graphs (KG), though the approaches could be complementary. LM-based QA systems excel at understanding complex questions and providing well-formed answers, but are prone to factual mistakes. KG-based QA systems, which represent facts well, are mostly limited to answering short-answer questions with pre-created templates. While a few studies have jointly used LM and KG approaches for text-based QA, this was done to answer multiple-choice questions. Extant QA systems also have limitations in terms of automation and performance. We address these challenges by designing a novel, automated disease QA system which effectively utilizes both LM and KG techniques through a joint-reasoning approach to answer disease-related questions appropriate for lay users. Our evaluation of the system using a range of quality metrics demonstrates its efficacy over benchmark systems, including the popular ChatGPT.
翻訳日:2024-01-09 20:00:11 公開日:2024-01-06
# マルチモーダルインフォーマティブ ViT:ハイパースペクトルとLiDAR分類のための情報集約と分布

Multimodal Informative ViT: Information Aggregation and Distribution for Hyperspectral and LiDAR Classification ( http://arxiv.org/abs/2401.03179v1 )

ライセンス: Link先を確認
Jiaqing Zhang, Jie Lei, Weiying Xie, Geng Yang, Daixun Li, Yunsong Li, Karim Seghouane(参考訳) マルチモーダル土地被覆分類(MLCC、Multimodal Land Cover Classification)において、データ分散の冗長性は共通の課題であり、複数のモダリティから無関係な情報がそれらの特徴の効果的な統合を妨げる。 そこで本研究では,革新的な情報集約分散機構を備えたシステムであるmivit(multimodal informative vit)を提案する。 このアプローチは冗長性レベルを再定義し、パフォーマンスアウェアな要素を融合表現に統合し、前方と後方の両方でセマンティクスの学習を容易にする。 MIVitは、各モードの分離されたおよび融合された特徴の実験的分布における冗長性を著しく減少させることで際立っている。 水平・垂直方向の浅部局所特徴抽出には指向性アテンションフュージョン(OAF)と、長距離の注意を通して深部グローバル特徴を抽出するトランスフォーマー特徴抽出器を用いる。 また,相互情報に基づく情報集約制約(IAC)を提案する。 さらに,mivitにおける情報配信フロー(idf)は,異なるモダリティの特徴マップにまたがるグローバル分類情報を分散することにより,性能認識性を高める。 このアーキテクチャはまた、軽量な独立モダリティ分類器のモダリティ問題に対処し、典型的にはトランスフォーマーに関連する計算負荷を削減する。 以上の結果から,mivitの2方向アグリゲート分散機構は,3つのマルチモーダルデータセットにおいて95.56%の平均精度を達成した。 この性能はMLCCの最先端手法を上回る。 MIVitのコードはhttps://github.com/icey-zhang/MIViTでアクセスできる。

In multimodal land cover classification (MLCC), a common challenge is the redundancy in data distribution, where irrelevant information from multiple modalities can hinder the effective integration of their unique features. To tackle this, we introduce the Multimodal Informative Vit (MIVit), a system with an innovative information aggregate-distributing mechanism. This approach redefines redundancy levels and integrates performance-aware elements into the fused representation, facilitating the learning of semantics in both forward and backward directions. MIVit stands out by significantly reducing redundancy in the empirical distribution of each modality's separate and fused features. It employs oriented attention fusion (OAF) for extracting shallow local features across modalities in horizontal and vertical dimensions, and a Transformer feature extractor for extracting deep global features through long-range attention. We also propose an information aggregation constraint (IAC) based on mutual information, designed to remove redundant information and preserve complementary information within embedded features. Additionally, the information distribution flow (IDF) in MIVit enhances performance-awareness by distributing global classification information across different modalities' feature maps. This architecture also addresses missing modality challenges with lightweight independent modality classifiers, reducing the computational load typically associated with Transformers. Our results show that MIVit's bidirectional aggregate-distributing mechanism between modalities is highly effective, achieving an average overall accuracy of 95.56% across three multimodal datasets. This performance surpasses current state-of-the-art methods in MLCC. The code for MIVit is accessible at https://github.com/icey-zhang/MIViT.
翻訳日:2024-01-09 19:59:48 公開日:2024-01-06
# 変分多モーダルハイパーグラフネットワークによるテキスト・ビデオ検索

Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks ( http://arxiv.org/abs/2401.03177v1 )

ライセンス: Link先を確認
Qian Li, Lixin Su, Jiashu Zhao, Long Xia, Hengyi Cai, Suqi Cheng, Hengzhu Tang, Junfeng Wang, Dawei Yin(参考訳) テキスト・ビデオ検索は、テキストの問い合わせに応じて関連するビデオを特定することを目的とした課題である。 従来のテキスト検索と比較して、テキストビデオ検索の主な障害は、クエリのテキストの性質とビデオコンテンツの視覚的豊かさとのセマンティックなギャップである。 以前の作品は、ワードフレームマッチング信号を細かく集約することで、クエリとビデオの調整に重点を置いていた。 テキストとビデオの関連性をモジュール的に判断する人間の認知プロセスに触発され,映像コンテンツの連続的かつ複雑な性質から,高次マッチング信号が必要である。 本稿では,特定の検索単位を記述するためにクエリチャンクを抽出し,ビデオチャンクをビデオから別のクリップに分割する,チャンクレベルのテキストビデオマッチングを提案する。 クエリの単語とビデオのフレーム間のn-ary相関モデルとしてチャンクレベルマッチングを定式化し,n-ary相関モデリングのためのマルチモーダルハイパーグラフを提案する。 テキスト単位とビデオフレームをノードとして表現し、ハイパーエッジを用いて関係を表現することにより、マルチモーダルハイパーグラフを構築する。 このようにして、クエリとビデオは高次のセマンティック空間に整列することができる。 さらに、モデルの一般化能力を高めるために、抽出された特徴をガウス分布の下での変分表現を得るために、計算のための変分推論成分に供給する。 ハイパーグラフと変分推論を組み込むことで,テキスト・ビジュアルコンテンツ間の複雑な n-ary 相互作用を捉えることができる。 実験の結果,本手法はテキストビデオ検索作業における最先端性能を実現する。

Text-video retrieval is a challenging task that aims to identify relevant videos given textual queries. Compared to conventional textual retrieval, the main obstacle for text-video retrieval is the semantic gap between the textual nature of queries and the visual richness of video content. Previous works primarily focus on aligning the query and the video by finely aggregating word-frame matching signals. Inspired by the human cognitive process of modularly judging the relevance between text and video, the judgment needs high-order matching signal due to the consecutive and complex nature of video contents. In this paper, we propose chunk-level text-video matching, where the query chunks are extracted to describe a specific retrieval unit, and the video chunks are segmented into distinct clips from videos. We formulate the chunk-level matching as n-ary correlations modeling between words of the query and frames of the video and introduce a multi-modal hypergraph for n-ary correlation modeling. By representing textual units and video frames as nodes and using hyperedges to depict their relationships, a multi-modal hypergraph is constructed. In this way, the query and the video can be aligned in a high-order semantic space. In addition, to enhance the model's generalization ability, the extracted features are fed into a variational inference component for computation, obtaining the variational representation under the Gaussian distribution. The incorporation of hypergraphs and variational inference allows our model to capture complex, n-ary interactions among textual and visual contents. Experimental results demonstrate that our proposed method achieves state-of-the-art performance on the text-video retrieval task.
翻訳日:2024-01-09 19:59:16 公開日:2024-01-06
# 深層学習アプローチを用いたボド語のための音声タガー

Part-of-Speech Tagger for Bodo Language using Deep Learning approach ( http://arxiv.org/abs/2401.03175v1 )

ライセンス: Link先を確認
Dhrubajyoti Pathak, Sanjib Narzary, Sukumar Nandi, Bidisha Som(参考訳) 音声タグ付け、名前付きエンティティ認識、機械翻訳、音声認識、言語モデリング(LM)などの言語処理システムは、高リソース言語でよく研究されている。 それでも、ボド語、ミゾ語、ナガメメ語などの低リソース言語に対するこれらの研究は、まだ開始されていないか、初期段階にある。 言語モデルは、現代のNLPの下流タスクにおいて重要な役割を果たす。 lmsによる高資源言語の研究が盛んに行われている。 それでも、Bodo、Rabha、Misingといった言語はカバー範囲を欠いている。 本研究ではまず,ボド語の言語モデルであるBodoBERTについて述べる。 私たちの知る限りでは、この取り組みはBodoの言語モデルを開発する最初の試みである。 次に,Bodo のための DL ベースの POS タグ付けモデルを提案する。 POSタグ付けモデルは、BiLSTMとCRFの組み合わせと、BadoBERTとBytePairEmbeddingsの積み重ねた埋め込みに基づいている。 実験でいくつかの言語モデルを取り上げ、POSタグタスクでいかにうまく機能するかを確認します。 ベストパフォーマンスモデルはF1スコア0.8041に達する。 Assamese POS タグガーで比較実験を行い、ボド語と同じ地域で言語が話されていることを考察した。

Language Processing systems such as Part-of-speech tagging, Named entity recognition, Machine translation, Speech recognition, and Language modeling (LM) are well-studied in high-resource languages. Nevertheless, research on these systems for several low-resource languages, including Bodo, Mizo, Nagamese, and others, is either yet to commence or is in its nascent stages. Language model plays a vital role in the downstream tasks of modern NLP. Extensive studies are carried out on LMs for high-resource languages. Nevertheless, languages such as Bodo, Rabha, and Mising continue to lack coverage. In this study, we first present BodoBERT, a language model for the Bodo language. To the best of our knowledge, this work is the first such effort to develop a language model for Bodo. Secondly, we present an ensemble DL-based POS tagging model for Bodo. The POS tagging model is based on combinations of BiLSTM with CRF and stacked embedding of BodoBERT with BytePairEmbeddings. We cover several language models in the experiment to see how well they work in POS tagging tasks. The best-performing model achieves an F1 score of 0.8041. A comparative experiment was also conducted on Assamese POS taggers, considering that the language is spoken in the same region as Bodo.
翻訳日:2024-01-09 19:58:47 公開日:2024-01-06
# UGGNet: 進行乳癌診断のためのブリッジングU-NetとVGG

UGGNet: Bridging U-Net and VGG for Advanced Breast Cancer Diagnosis ( http://arxiv.org/abs/2401.03173v1 )

ライセンス: Link先を確認
Tran Cao Minh, Nguyen Kim Quoc, Phan Cong Vinh, Dang Nhu Phu, Vuong Xuan Chi, Ha Minh Tan(参考訳) 画像診断の分野では,乳がん早期発見のための重要な診断ツールとして乳房超音波が登場している。 しかし, 患部の位置と病変の程度を診断する精度は, 医師の経験に依存する。 本稿では,乳房超音波画像解析の性能を高めるために,U-NetとVGGアーキテクチャのパワーを組み合わせたUGGNetと呼ばれる新しいモデルを提案する。 モデルのU-Netコンポーネントは病変を正確に分類するのに役立ち、VGGコンポーネントは深い畳み込み層を利用して特徴を抽出する。 UGGNetにおけるこれらの2つのアーキテクチャの融合は、乳房超音波画像の正確な診断のための包括的なソリューションを提供することを目的としている。 実験の結果、UGGNetモデルは「Breast Ultrasound Images Dataset」で78.2%の精度で達成されている。

In the field of medical imaging, breast ultrasound has emerged as a crucial diagnostic tool for early detection of breast cancer. However, the accuracy of diagnosing the location of the affected area and the extent of the disease depends on the experience of the physician. In this paper, we propose a novel model called UGGNet, combining the power of the U-Net and VGG architectures to enhance the performance of breast ultrasound image analysis. The U-Net component of the model helps accurately segment the lesions, while the VGG component utilizes deep convolutional layers to extract features. The fusion of these two architectures in UGGNet aims to optimize both segmentation and feature representation, providing a comprehensive solution for accurate diagnosis in breast ultrasound images. Experimental results have demonstrated that the UGGNet model achieves a notable accuracy of 78.2% on the "Breast Ultrasound Images Dataset."
翻訳日:2024-01-09 19:58:26 公開日:2024-01-06
# 国勢調査と一般生活課題に基づく思春期抑うつリスク予測の探索

Exploration of Adolescent Depression Risk Prediction Based on Census Surveys and General Life Issues ( http://arxiv.org/abs/2401.03171v1 )

ライセンス: Link先を確認
Qiang Li, Yufeng Wu, Zhan Xu, Hefeng Zhou(参考訳) 現代社会では、生活と仕事の過度なプレッシャーが心理的障害を現代の健康への懸念の最前線へと押し上げ、新型コロナウイルスのパンデミックによってさらに強調されている。 青年期のうつ病の頻度は着実に増加しており、尺度や面接に依存する従来の診断手法は、特に若者のうつ病を検出するには不十分である。 これらの課題に対処するために、メンタルヘルス問題の診断を支援するAIベースの多くの方法が出現した。 しかし、これらの手法のほとんどは、スケールに関する基本的な問題や、表情認識のようなマルチモーダルなアプローチに焦点が当てられている。 日常生活習慣や行動に基づくうつ病リスクの診断は、小規模な質的研究に限られている。 本研究は,青年期の国勢調査データを利用して抑うつリスクを予測し,抑うつ経験と日常生活状況に着目した。 重度不均衡な高次元データを管理する手法と,データ構造特性に合わせた適応予測手法を導入した。 さらに,自動オンライン学習とデータ更新のためのクラウドベースのアーキテクチャを提案する。 この調査では、2020年から2022年までのNSCHの若者の国勢調査データを利用して、約15万件のデータが得られた。 基本データ解析と予測実験を行い、標準的な機械学習アルゴリズムやディープラーニングアルゴリズムよりも優れた性能を示した。 これにより,不均衡な医療データを扱う上でのデータ処理手法の幅広い適用性が確認された。 本研究は,一般的な予測手法研究から逸脱し,より広いユーザニーズを考慮した包括的なアーキテクチャソリューションを提案する。

In contemporary society, the escalating pressures of life and work have propelled psychological disorders to the forefront of modern health concerns, an issue that has been further accentuated by the COVID-19 pandemic. The prevalence of depression among adolescents is steadily increasing, and traditional diagnostic methods, which rely on scales or interviews, prove particularly inadequate for detecting depression in young people. Addressing these challenges, numerous AI-based methods for assisting in the diagnosis of mental health issues have emerged. However, most of these methods center around fundamental issues with scales or use multimodal approaches like facial expression recognition. Diagnosis of depression risk based on everyday habits and behaviors has been limited to small-scale qualitative studies. Our research leverages adolescent census data to predict depression risk, focusing on children's experiences with depression and their daily life situations. We introduced a method for managing severely imbalanced high-dimensional data and an adaptive predictive approach tailored to data structure characteristics. Furthermore, we proposed a cloud-based architecture for automatic online learning and data updates. This study utilized publicly available NSCH youth census data from 2020 to 2022, encompassing nearly 150,000 data entries. We conducted basic data analyses and predictive experiments, demonstrating significant performance improvements over standard machine learning and deep learning algorithms. This affirmed our data processing method's broad applicability in handling imbalanced medical data. Diverging from typical predictive method research, our study presents a comprehensive architectural solution, considering a wider array of user needs.
翻訳日:2024-01-09 19:58:11 公開日:2024-01-06
# FedTGP:Federated Learningにおけるデータとモデル不均一性のための適応マージン強化コントラスト学習による訓練可能なグローバルプロトタイプ

FedTGP: Trainable Global Prototypes with Adaptive-Margin-Enhanced Contrastive Learning for Data and Model Heterogeneity in Federated Learning ( http://arxiv.org/abs/2401.03230v1 )

ライセンス: Link先を確認
Jianqing Zhang, Yang Liu, Yang Hua, and Jian Cao(参考訳) 近年,ヘテロジニアス・フェデレート・ラーニング (HtFL) が注目されている。 モデルパラメータ送信の通信コストを低減させるため,プロトタイプベースのhtfl手法が提案されており,クライアントのモデルのプライバシーを維持しつつ,クラスの代表者,すなわちプロトタイプを異種クライアント間でのみ共有できる。 しかし、これらのプロトタイプは重み付け平均を用いてサーバ上のグローバルプロトタイプにナイーブに集約され、結果としてクライアントのパフォーマンスに悪影響を及ぼす最適化されたグローバル知識が生まれる。 この課題を克服するために,我々のACL(Adaptive-margin-enhanced Contrastive Learning)を活用して,サーバ上でトレーニング可能なグローバルプロトタイプ(TGP)を学習する,FedTGPという新しいHtFLアプローチを導入する。 ACLを取り入れることで,意味的意味を保ちながらプロトタイプの分離性を高めることができる。 12種類の異種モデルによる大規模な実験により、FedTGPはプロトタイプベースのHtFLの通信とプライバシーの優位性を保ちながら、最先端の手法を最大9.08%の精度で超えることを示した。 私たちのコードはhttps://github.com/TsingZ0/FedTGPで利用可能です。

Recently, Heterogeneous Federated Learning (HtFL) has attracted attention due to its ability to support heterogeneous models and data. To reduce the high communication cost of transmitting model parameters, a major challenge in HtFL, prototype-based HtFL methods are proposed to solely share class representatives, a.k.a, prototypes, among heterogeneous clients while maintaining the privacy of clients' models. However, these prototypes are naively aggregated into global prototypes on the server using weighted averaging, resulting in suboptimal global knowledge which negatively impacts the performance of clients. To overcome this challenge, we introduce a novel HtFL approach called FedTGP, which leverages our Adaptive-margin-enhanced Contrastive Learning (ACL) to learn Trainable Global Prototypes (TGP) on the server. By incorporating ACL, our approach enhances prototype separability while preserving semantic meaning. Extensive experiments with twelve heterogeneous models demonstrate that our FedTGP surpasses state-of-the-art methods by up to 9.08% in accuracy while maintaining the communication and privacy advantages of prototype-based HtFL. Our code is available at https://github.com/TsingZ0/FedTGP.
翻訳日:2024-01-09 19:52:18 公開日:2024-01-06
# 自律的クラウドセンシング: 自動センシングのためのクラウドセンシングの運用と組織化

Autonomous Crowdsensing: Operating and Organizing Crowdsensing for Sensing Automation ( http://arxiv.org/abs/2401.03229v1 )

ライセンス: Link先を確認
Wansen Wu, Weiyi Yang, Juanjuan Li, Yong Zhao, Zhengqiu Zhu, Bin Chen, Sihang Qiu, Yong Peng, and Fei-Yue Wang(参考訳) CPSS(Cyber-Physical-Social Systems)の正確な特徴付けとモデリングには、より包括的で正確なデータが必要である。 この問題に対処するために、多様な労働者の集団的知性を利用してcpsからデータを集めるために、crowdsensing intelligence (csi)が提案されている。 クラウドセンシングインテリジェンス(dhw-csi)に関する第1および第2の分散/分散ハイブリッドワークショップでは、csiの組織化と運用に関する原則とハイレベルなプロセス、およびcsiに関わる参加者、メソッド、ステージに重点を置いています。 このレターは、分散化された自律組織や運用、大規模言語モデル、人間指向オペレーティングシステムなど、さまざまな技術によって実現される自律的クラウドセンシング(ACS)に焦点を当てた最新のDHW-CSIの結果を報告します。 具体的には、ACSとは何かを説明し、従来のクラウドセンシングと比較して特徴を探求する。 さらに,ACSの `6A-ゴール" を提示し,今後の研究への道のりを提案する。

The precise characterization and modeling of Cyber-Physical-Social Systems (CPSS) requires more comprehensive and accurate data, which imposes heightened demands on intelligent sensing capabilities. To address this issue, Crowdsensing Intelligence (CSI) has been proposed to collect data from CPSS by harnessing the collective intelligence of a diverse workforce. Our first and second Distributed/Decentralized Hybrid Workshop on Crowdsensing Intelligence (DHW-CSI) have focused on principles and high-level processes of organizing and operating CSI, as well as the participants, methods, and stages involved in CSI. This letter reports the outcomes of the latest DHW-CSI, focusing on Autonomous Crowdsensing (ACS) enabled by a range of technologies such as decentralized autonomous organizations and operations, large language models, and human-oriented operating systems. Specifically, we explain what ACS is and explore its distinctive features in comparison to traditional crowdsensing. Moreover, we present the ``6A-goal" of ACS and propose potential avenues for future research.
翻訳日:2024-01-09 19:51:55 公開日:2024-01-06
# 制約付き生成モデルのための反射schr\"odinger bridge

Reflected Schr\"odinger Bridge for Constrained Generative Modeling ( http://arxiv.org/abs/2401.03228v1 )

ライセンス: Link先を確認
Wei Deng, Yu Chen, Nicole Tianjiao Yang, Hengrong Du, Qi Feng, Ricky T. Q. Chen(参考訳) 拡散モデルは、現実の応用における大規模生成モデルのゴートメソッドとなっている。 これらのアプリケーションは、しばしば境界領域に制限されたデータ分布を含み、通常は境界強制のためにアドホックなしきい値技術を必要とする。 反射拡散モデル (Lou23) は、反射ブラウン運動によって支配される後方過程を通じてデータ分布を生成することにより、一般化性を高めることを目的としている。 しかし、反射拡散モデルは適切な微分同相写像の導出なしには容易には適用できず、最適な輸送特性を保証できない。 これらの制限を克服するために、多様な境界領域内でデータを生成するのに適したエントロピー規則化された最適輸送手法であるReflectioned Schrodinger Bridgeアルゴリズムを導入する。 我々は、ノイマンとロビンの境界条件による前方後方確率微分方程式を導出し、発散に基づく可能性トレーニングを有界領域に拡張し、近似線型収束の研究のためのエントロピック最適輸送への自然接続を探究する。 本アルゴリズムは多様な領域において頑健な生成モデリングを行い,その拡張性は標準画像ベンチマークによる実世界の制約付き生成モデリングで実証される。

Diffusion models have become the go-to method for large-scale generative models in real-world applications. These applications often involve data distributions confined within bounded domains, typically requiring ad-hoc thresholding techniques for boundary enforcement. Reflected diffusion models (Lou23) aim to enhance generalizability by generating the data distribution through a backward process governed by reflected Brownian motion. However, reflected diffusion models may not easily adapt to diverse domains without the derivation of proper diffeomorphic mappings and do not guarantee optimal transport properties. To overcome these limitations, we introduce the Reflected Schrodinger Bridge algorithm: an entropy-regularized optimal transport approach tailored for generating data within diverse bounded domains. We derive elegant reflected forward-backward stochastic differential equations with Neumann and Robin boundary conditions, extend divergence-based likelihood training to bounded domains, and explore natural connections to entropic optimal transport for the study of approximate linear convergence - a valuable insight for practical training. Our algorithm yields robust generative modeling in diverse domains, and its scalability is demonstrated in real-world constrained generative modeling through standard image benchmarks.
翻訳日:2024-01-09 19:51:32 公開日:2024-01-06
# ミラー拡散:プロンプトによるゼロショット画像翻訳における拡散過程の安定化

MirrorDiffusion: Stabilizing Diffusion Process in Zero-shot Image Translation by Prompts Redescription and Beyond ( http://arxiv.org/abs/2401.03221v1 )

ライセンス: Link先を確認
Yupei Lin, Xiaoyu Xian, Yukai Shi, Liang Lin(参考訳) 近年,テキスト・画像拡散モデルが,コンテンツ生成や画像復元,画像・画像翻訳といった画像処理分野の新しいパラダイムとなっている。 目標プロンプトが与えられると、ノイズ拡散確率モデル(ddpm)は現実的かつ許容可能な画像を生成することができる。 この魅力的な特性により、画像翻訳タスクは、監視のために対象の画像サンプルから解放される可能性がある。 ドメイン適応のためにターゲットテキストプロンプトを使用することで、拡散モデルはゼロショット画像から画像への変換を有利に実装できる。 しかし、DDPMのサンプリングおよび反転過程は確率的であるため、インバージョンプロセスは入力内容の再構成に失敗することが多い。 具体的には, 拡散・反転過程の間, 変位効果は徐々に増大し, 震源領域から逸脱した再構成結果に繋がる。 そこで本研究では,拡散モデル(MirrorDiffusion)におけるソースと再構成画像間のミラー効果を実現するための,素早い再記述手法を提案する。 より具体的には、ディノージング拡散暗黙モデル(ddim)のインバージョンの各時間ステップでテキストプロンプトを潜在コードと整合させ、構造保存型再構成を追求するプロンプト再記述機構について検討する。 改良されたddimインバージョンにより、mirrordiffusionは最適化されたテキストプロンプトと潜在コード編集により、正確なゼロショット画像翻訳を実現することができる。 広範囲な実験により、mirrordiffusionはゼロショット画像翻訳ベンチマークにおける最先端の手法よりも、明確なマージンと実用的なモデル安定性により優れた性能を達成できることが示されている。

Recently, text-to-image diffusion models become a new paradigm in image processing fields, including content generation, image restoration and image-to-image translation. Given a target prompt, Denoising Diffusion Probabilistic Models (DDPM) are able to generate realistic yet eligible images. With this appealing property, the image translation task has the potential to be free from target image samples for supervision. By using a target text prompt for domain adaption, the diffusion model is able to implement zero-shot image-to-image translation advantageously. However, the sampling and inversion processes of DDPM are stochastic, and thus the inversion process often fail to reconstruct the input content. Specifically, the displacement effect will gradually accumulated during the diffusion and inversion processes, which led to the reconstructed results deviating from the source domain. To make reconstruction explicit, we propose a prompt redescription strategy to realize a mirror effect between the source and reconstructed image in the diffusion model (MirrorDiffusion). More specifically, a prompt redescription mechanism is investigated to align the text prompts with latent code at each time step of the Denoising Diffusion Implicit Models (DDIM) inversion to pursue a structure-preserving reconstruction. With the revised DDIM inversion, MirrorDiffusion is able to realize accurate zero-shot image translation by editing optimized text prompts and latent code. Extensive experiments demonstrate that MirrorDiffusion achieves superior performance over the state-of-the-art methods on zero-shot image translation benchmarks by clear margins and practical model stability.
翻訳日:2024-01-09 19:51:11 公開日:2024-01-06
# MetaISP -- 正確なマルチデバイスカラーレンディングのためのグローバルシーン構造を爆発させる

MetaISP -- Exploiting Global Scene Structure for Accurate Multi-Device Color Rendition ( http://arxiv.org/abs/2401.03220v1 )

ライセンス: Link先を確認
Matheus Souza, Wolfgang Heidrich(参考訳) 画像信号プロセッサ(ISP)は、ノイズの多い生センサ測定からカラーイメージを再構築するための、歴史的に成長したソフトウェアシステムである。 各スマートフォンメーカーは、スキントーンやその他の視覚的に不可欠な色など、色調を改善するための独自のヒューリスティック技術を備えたISPを開発した。 歴史的に成長したispシステムをdslrの画像品質にマッチする深いパイプラインに置き換えることに対する最近の関心は、画像の構造的特徴を改善する。 しかし、これらの研究は、携帯電話ISPとDSLRを区別するセマンティックシーン分析に基づく優れたカラー処理を無視している。 ここでは、異なるデバイスの色と局所コントラスト特性の変換方法を学ぶために設計された単一のモデルであるMetaISPを紹介する。 MetaISPは、デバイスAからのRAW画像を入力として、デバイスA、B、Cの外観特性を継承するRGB画像に変換します。 このアプローチでは,相互共分散に触発された新しい注意機構を活用し,世界的シーン意味論を学習する。 さらに、通常RAW画像に付随するメタデータを使用し、不使用時のシーン照度を推定する。

Image signal processors (ISPs) are historically grown legacy software systems for reconstructing color images from noisy raw sensor measurements. Each smartphone manufacturer has developed its ISPs with its own characteristic heuristics for improving the color rendition, for example, skin tones and other visually essential colors. The recent interest in replacing the historically grown ISP systems with deep-learned pipelines to match DSLR's image quality improves structural features in the image. However, these works ignore the superior color processing based on semantic scene analysis that distinguishes mobile phone ISPs from DSLRs. Here, we present MetaISP, a single model designed to learn how to translate between the color and local contrast characteristics of different devices. MetaISP takes the RAW image from device A as input and translates it to RGB images that inherit the appearance characteristics of devices A, B, and C. We achieve this result by employing a lightweight deep learning technique that conditions its output appearance based on the device of interest. In this approach, we leverage novel attention mechanisms inspired by cross-covariance to learn global scene semantics. Additionally, we use the metadata that typically accompanies RAW images and estimate scene illuminants when they are unavailable.
翻訳日:2024-01-09 19:50:42 公開日:2024-01-06
# MiniScope: 2相反復ハイブリッド分析によるUI探索の自動化とMiniAppのプライバシー不整合検出

MiniScope: Automated UI Exploration and Privacy Inconsistency Detection of MiniApps via Two-phase Iterative Hybrid Analysis ( http://arxiv.org/abs/2401.03218v1 )

ライセンス: Link先を確認
Shenao Wang, Yuekang Li, Kailong Wang, Yi Liu, Chao Wang, Yanjie Zhao, Gelei Deng, Ling Shi, Hui Li, Yang Liu, Haoyu Wang(参考訳) より大きなSuperApps内で運用されるMiniAppsの出現は、個々のアプリのダウンロードを必要とせずに幅広いサービスを提供することによって、ユーザエクスペリエンスに革命をもたらした。 しかし、これらのMiniAppsは機密データへのアクセスを必要とすることが多く、プライバシー侵害につながる可能性があるため、この利便性は重大なプライバシー上の懸念を引き起こしている。 私たちの研究は,MiniAppsのプライバシプラクティスの解析における重要なギャップ,特にAndroidエコシステムにおけるWeChat MiniAppsに注目しています。 既存のプライバシー規制とプラットフォームガイドラインにもかかわらず、ユーザーのプライバシーを完全に保護するための効果的なメカニズムが欠如している。 我々は,MiniApp環境向けに設計された新しい2相ハイブリッド分析手法であるMiniScopeを紹介する。 このアプローチは、コードカバレッジと正確なプライバシプラクティスの識別のために動的なui探索を組み込むことで、既存の静的解析技術の制限を克服する。 我々の手法には、UI遷移状態のモデリング、パッケージ間コールバック制御フローの解決、自動反復UI探索が含まれる。 これにより、MiniAppsのプライバシプラクティスの包括的な理解が可能になり、サブパッケージローディングとイベント駆動のコールバックというユニークな課題に対処できる。 MiniScopeを用いた120K以上のMiniAppの実証評価は、プライバシーの不整合を識別する効果を示す。 その結果、miniappsの5.7%がプライベートデータを過剰に収集し、33.4%がデータ収集を過大評価している。 これらの発見は、より正確なプライバシー監視システムの必要性を強調し、より厳格なプライバシー対策を強制するスーパーアプリオペレーターの責任を強調している。

The advent of MiniApps, operating within larger SuperApps, has revolutionized user experiences by offering a wide range of services without the need for individual app downloads. However, this convenience has raised significant privacy concerns, as these MiniApps often require access to sensitive data, potentially leading to privacy violations. Our research addresses the critical gaps in the analysis of MiniApps' privacy practices, especially focusing on WeChat MiniApps in the Android ecosystem. Despite existing privacy regulations and platform guidelines, there is a lack of effective mechanisms to safeguard user privacy fully. We introduce MiniScope, a novel two-phase hybrid analysis approach, specifically designed for the MiniApp environment. This approach overcomes the limitations of existing static analysis techniques by incorporating dynamic UI exploration for complete code coverage and accurate privacy practice identification. Our methodology includes modeling UI transition states, resolving cross-package callback control flows, and automated iterative UI exploration. This allows for a comprehensive understanding of MiniApps' privacy practices, addressing the unique challenges of sub-package loading and event-driven callbacks. Our empirical evaluation of over 120K MiniApps using MiniScope demonstrates its effectiveness in identifying privacy inconsistencies. The results reveal significant issues, with 5.7% of MiniApps over-collecting private data and 33.4% overclaiming data collection. These findings emphasize the urgent need for more precise privacy monitoring systems and highlight the responsibility of SuperApp operators to enforce stricter privacy measures.
翻訳日:2024-01-09 19:50:23 公開日:2024-01-06
# 画像と時系列によるエンドツーエンドのアンチバックドア学習

End-to-End Anti-Backdoor Learning on Images and Time Series ( http://arxiv.org/abs/2401.03215v1 )

ライセンス: Link先を確認
Yujing Jiang, Xingjun Ma, Sarah Monazam Erfani, Yige Li, James Bailey(参考訳) バックドア攻撃は、ディープラーニングモデル、特に安全性とセキュリティに重要なアプリケーションで使用されるものに対して、重大なセキュリティ上の懸念をもたらす。 これらの攻撃は、トレーニングフェーズ中に隠れたトリガを埋め込み、推論時間中にモデルの出力を不正に制御することで、モデルの振る舞いを操作する。 画像分類モデルには多くのディフェンスが存在するが、時系列データに適したディフェンスや、有害なデータに対するクリーンなモデルのトレーニングが可能なエンドツーエンドのソリューションは顕著に存在しない。 このギャップに対処するため,本稿では,反バックドア学習(abl)を基盤とし,バックドア攻撃に対する堅牢なトレーニングを行うための革新的な方法であるエンドツーエンド反バックドア学習(e2abl)を提案する。 2段階のトレーニング手順を採用したオリジナルのABLとは異なり、E2ABLはDeep Neural Network(DNN)の浅い層にリンクされた追加の分類ヘッドを通じてエンドツーエンドのトレーニングを行う。 このセカンダリヘッドは潜在的なバックドアトリガーを積極的に識別し、モデルがトレーニング中にこれらのサンプルと対応するラベルを動的にきれいにすることができる。 実験の結果,e2ablは既存の防御を著しく改善し,画像領域と時系列領域の両方において幅広いバックドア攻撃に対して有効であることが明らかとなった。

Backdoor attacks present a substantial security concern for deep learning models, especially those utilized in applications critical to safety and security. These attacks manipulate model behavior by embedding a hidden trigger during the training phase, allowing unauthorized control over the model's output during inference time. Although numerous defenses exist for image classification models, there is a conspicuous absence of defenses tailored for time series data, as well as an end-to-end solution capable of training clean models on poisoned data. To address this gap, this paper builds upon Anti-Backdoor Learning (ABL) and introduces an innovative method, End-to-End Anti-Backdoor Learning (E2ABL), for robust training against backdoor attacks. Unlike the original ABL, which employs a two-stage training procedure, E2ABL accomplishes end-to-end training through an additional classification head linked to the shallow layers of a Deep Neural Network (DNN). This secondary head actively identifies potential backdoor triggers, allowing the model to dynamically cleanse these samples and their corresponding labels during training. Our experiments reveal that E2ABL significantly improves on existing defenses and is effective against a broad range of backdoor attacks in both image and time series domains.
翻訳日:2024-01-09 19:49:55 公開日:2024-01-06
# 非線形自己監督学習における表現学習可能性の理解

Understanding Representation Learnability of Nonlinear Self-Supervised Learning ( http://arxiv.org/abs/2401.03214v1 )

ライセンス: Link先を確認
Ruofeng Yang, Xiangyuan Li, Bo Jiang, Shuai Li(参考訳) self-supervised learning (ssl) は多くのダウンストリームタスクでデータ表現学習性を実証的に示している。 データ表現の学習性に関する理論的研究はごくわずかであり、その多くは最終データ表現に焦点を当て、非線形ニューラルネットワークを『ブラックボックス』として扱う。 しかし、ニューラルネットワークの正確な学習結果は、SSLモデルによって学習されたデータ分散機能を記述する上で重要である。 本論文は非線形SSLモデルの学習結果を精度良く解析した最初の論文である。 ラベル関連機能と隠蔽機能という,2つの特徴を含む玩具データ分布を考察する。 閉形式解に依存する従来の線形設定法とは異なり、勾配降下法を用いて特定の初期化領域を持つ1層非線形SSLモデルを訓練し、モデルが局所最小値に収束することを証明する。 さらに, 複素反復解析とは違って, 局所最小値で学習した特徴を正確に記述するために, 逆関数定理の正確なバージョンを用いた解析プロセスを提案する。 この局所最小値を用いて、非線形SSLモデルがラベル関連特徴と隠蔽特徴を同時にキャプチャできることを証明した。 対照的に、非線形教師あり学習(SL)モデルはラベルに関連した特徴しか学習できない。 また,非線形sslおよびslモデルの学習過程と結果についてシミュレーション実験により述べる。

Self-supervised learning (SSL) has empirically shown its data representation learnability in many downstream tasks. There are only a few theoretical works on data representation learnability, and many of those focus on final data representation, treating the nonlinear neural network as a ``black box". However, the accurate learning results of neural networks are crucial for describing the data distribution features learned by SSL models. Our paper is the first to analyze the learning results of the nonlinear SSL model accurately. We consider a toy data distribution that contains two features: the label-related feature and the hidden feature. Unlike previous linear setting work that depends on closed-form solutions, we use the gradient descent algorithm to train a 1-layer nonlinear SSL model with a certain initialization region and prove that the model converges to a local minimum. Furthermore, different from the complex iterative analysis, we propose a new analysis process which uses the exact version of Inverse Function Theorem to accurately describe the features learned by the local minimum. With this local minimum, we prove that the nonlinear SSL model can capture the label-related feature and hidden feature at the same time. In contrast, the nonlinear supervised learning (SL) model can only learn the label-related feature. We also present the learning processes and results of the nonlinear SSL and SL model via simulation experiments.
翻訳日:2024-01-09 19:49:31 公開日:2024-01-06
# より高速な収束のために事前情報を爆発させるRobins-Monroシーケンス

A Robbins--Monro Sequence That Can Exploit Prior Information For Faster Convergence ( http://arxiv.org/abs/2401.03206v1 )

ライセンス: Link先を確認
Siwei Liu and Ke Ma and Stephan M. Goetz(参考訳) 対象点に関する事前情報をRobins-Monroイテレーションに導入することにより,Robins-Monroアルゴリズムの収束速度を改善する手法を提案する。 我々は、-潜在的に間違った-回帰モデルを必要としない事前情報の導入を実現し、追加の制約も伴います。 この前報Robins-Monro列は、ガウス的、重み付けされたガウス的和(例えば核密度推定におけるガウス的和)や、0より大きい有界な任意の分布関数など、幅広い事前分布に対して収束していることを示す。 さらに,その特性とパラメータの影響を理解するために,シーケンスを数値的に解析する。 以上の結果から,従来のRobins-Monro系列は,特に第1段階において,関数の測定数が限られているアプリケーションや,基礎となる関数を観測するノイズが大きい場合において特に重要である。 最終的にシーケンスのパラメータを選択する規則を提案する。

We propose a new method to improve the convergence speed of the Robbins-Monro algorithm by introducing prior information about the target point into the Robbins-Monro iteration. We achieve the incorporation of prior information without the need of a -- potentially wrong -- regression model, which would also entail additional constraints. We show that this prior-information Robbins-Monro sequence is convergent for a wide range of prior distributions, even wrong ones, such as Gaussian, weighted sum of Gaussians, e.g., in a kernel density estimate, as well as bounded arbitrary distribution functions greater than zero. We furthermore analyse the sequence numerically to understand its performance and the influence of parameters. The results demonstrate that the prior-information Robbins-Monro sequence converges faster than the standard one, especially during the first steps, which are particularly important for applications where the number of function measurements is limited, and when the noise of observing the underlying function is large. We finally propose a rule to select the parameters of the sequence.
翻訳日:2024-01-09 19:49:10 公開日:2024-01-06
# 暗黒の後の夜明け:大規模言語モデルにおける人物の幻覚に関する実証的研究

The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models ( http://arxiv.org/abs/2401.03205v1 )

ライセンス: Link先を確認
Junyi Li, Jie Chen, Ruiyang Ren, Xiaoxue Cheng, Wayne Xin Zhao, Jian-Yun Nie and Ji-Rong Wen(参考訳) 大規模言語モデル(LLM)の時代には、幻覚(事実的不正確なコンテンツを生成する傾向)は、現実のアプリケーションにおけるLLMの信頼性と信頼性に挑戦する。 LLM幻覚に対処するためには、幻覚(検出)の検知方法、LLMの幻覚(ソース)の発見方法、その緩和のためにできること(緩和)の3つの重要な疑問がよく研究されるべきである。 これらの課題に対処するため,本研究は,幻覚検出・源源・緩和の3つの側面に着目し,llm幻覚に関する系統的実証研究を行う。 具体的には,新しい幻覚ベンチマークHaluEval 2.0を構築し,LLM幻覚の簡易かつ効果的な検出法を設計する。 さらに、LLMの異なるトレーニングや利用段階を拡大し、LLM幻覚につながる潜在的な要因を広範囲に分析する。 最後に,llmの幻覚を緩和するために広く用いられている手法を実装し,検討する。 我々の研究は、幻覚の起源を理解し、LLMの幻覚を緩和する重要な発見を導いてきた。 私たちのコードとデータはhttps://github.com/RUCAIBox/HaluEval-2.0でアクセスできます。

In the era of large language models (LLMs), hallucination (i.e., the tendency to generate factually incorrect content) poses great challenge to trustworthy and reliable deployment of LLMs in real-world applications. To tackle the LLM hallucination, three key questions should be well studied: how to detect hallucinations (detection), why do LLMs hallucinate (source), and what can be done to mitigate them (mitigation). To address these challenges, this work presents a systematic empirical study on LLM hallucination, focused on the the three aspects of hallucination detection, source and mitigation. Specially, we construct a new hallucination benchmark HaluEval 2.0, and designs a simple yet effective detection method for LLM hallucination. Furthermore, we zoom into the different training or utilization stages of LLMs and extensively analyze the potential factors that lead to the LLM hallucination. Finally, we implement and examine a series of widely used techniques to mitigate the hallucinations in LLMs. Our work has led to several important findings to understand the hallucination origin and mitigate the hallucinations in LLMs. Our code and data can be accessed at https://github.com/RUCAIBox/HaluEval-2.0.
翻訳日:2024-01-09 19:48:50 公開日:2024-01-06
# ハイマップ:高忠実度モノクルデンスマッピングのための階層的分解放射場

Hi-Map: Hierarchical Factorized Radiance Field for High-Fidelity Monocular Dense Mapping ( http://arxiv.org/abs/2401.03203v1 )

ライセンス: Link先を確認
Tongyan Hua, Haotian Bai, Zidong Cao, Ming Liu, Dacheng Tao and Lin Wang(参考訳) 本稿では,ニューラルレージアンス場(NeRF)に基づく新しいモノクリン高密度マッピング手法であるHi-Mapを紹介する。 ハイマップは、RGB入力のみを用いた効率的かつ高忠実なマッピングを実現する能力において例外的である。 提案手法は,例えば深度推定モデルから抽出した外部深度推定の必要性を解消する。 私たちのキーとなるアイデアは、シーンを階層的な特徴グリッドとして表現し、放射を符号化し、特徴平面とベクトルに分解することです。 そのため、シーン表現はより単純でより一般化され、新しい観測における高速で滑らかな収束が可能となる。 これにより、シーン表現の複雑さを減らし、ノイズパターンを緩和しながら効率的な計算が可能になる。 階層的因子化表現(hierarchical factorized representation)により、ボリューム密度を推定するレンダリングのプロキシとしてSign Distance Field(SDF)を活用し、高いマッピング忠実度を示す。 さらに、特に遠方およびテクスチャのない領域において、測光手がかりを強化し、さらにマッピング品質を高めるためにデュアルパス符号化戦略を導入する。 最新のNeRFを用いた単分子マッピング法よりも幾何的およびテクスチャ的精度が優れていることを示す。

In this paper, we introduce Hi-Map, a novel monocular dense mapping approach based on Neural Radiance Field (NeRF). Hi-Map is exceptional in its capacity to achieve efficient and high-fidelity mapping using only posed RGB inputs. Our method eliminates the need for external depth priors derived from e.g., a depth estimation model. Our key idea is to represent the scene as a hierarchical feature grid that encodes the radiance and then factorizes it into feature planes and vectors. As such, the scene representation becomes simpler and more generalizable for fast and smooth convergence on new observations. This allows for efficient computation while alleviating noise patterns by reducing the complexity of the scene representation. Buttressed by the hierarchical factorized representation, we leverage the Sign Distance Field (SDF) as a proxy of rendering for inferring the volume density, demonstrating high mapping fidelity. Moreover, we introduce a dual-path encoding strategy to strengthen the photometric cues and further boost the mapping quality, especially for the distant and textureless regions. Extensive experiments demonstrate our method's superiority in geometric and textural accuracy over the state-of-the-art NeRF-based monocular mapping methods.
翻訳日:2024-01-09 19:48:24 公開日:2024-01-06
# 3DMIT:シーン理解のための3Dマルチモーダルインストラクションチューニング

3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding ( http://arxiv.org/abs/2401.03201v1 )

ライセンス: Link先を確認
Zeju Li, Chao Zhang, Xiaoyan Wang, Ruilong Ren, Yifan Xu, Ruifei Ma, Xiangde Liu(参考訳) 視覚情報と言語情報の両方を解釈する多モード大言語モデル(MLLM)の顕著なポテンシャルは広く認識されている。 しかし、LLMによる3Dシーン理解における既存のアプローチの欠如と相まって、3Dシーン言語対の不足が大きな課題となっている。 そこで我々は,3Dシーンに適した75K命令応答対からなる広範囲なデータセットを収集,構築した。 このデータセットは、3D VQA、3Dグラウンド、および3D会話に関連するタスクに対処する。 LLMへの3次元空間情報の統合をさらに促進するために,新しい高速なプロンプトチューニングパラダイムである3DMITを導入する。 このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、シーン全体とセグメント化されたオブジェクトを含む3Dモダリティ情報で命令プロンプトを拡張する。 我々は,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価し,この手法がllmsの3次元世界の理解を深める戦略的手段であることを見出した。 私たちのコードはhttps://github.com/staymylove/3DMITで利用可能です。

The remarkable potential of multi-modal large language models (MLLMs) in comprehending both vision and language information has been widely acknowledged. However, the scarcity of 3D scenes-language pairs in comparison to their 2D counterparts, coupled with the inadequacy of existing approaches in understanding of 3D scenes by LLMs, poses a significant challenge. In response, we collect and construct an extensive dataset comprising 75K instruction-response pairs tailored for 3D scenes. This dataset addresses tasks related to 3D VQA, 3D grounding, and 3D conversation. To further enhance the integration of 3D spatial information into LLMs, we introduce a novel and efficient prompt tuning paradigm, 3DMIT. This paradigm eliminates the alignment stage between 3D scenes and language and extends the instruction prompt with the 3D modality information including the entire scene and segmented objects. We evaluate the effectiveness of our method across diverse tasks in the 3D scene domain and find that our approach serves as a strategic means to enrich LLMs' comprehension of the 3D world. Our code is available at https://github.com/staymylove/3DMIT.
翻訳日:2024-01-09 19:48:05 公開日:2024-01-06
# 次元還元を用いた学習強化K平均クラスタリング

Learning-Augmented K-Means Clustering Using Dimensional Reduction ( http://arxiv.org/abs/2401.03198v1 )

ライセンス: Link先を確認
Issam K.O Jabari, Shofiyah, Pradiptya Kahvi S, Novi Nur Putriwijaya, and Novanto Yudistira(参考訳) learning augmentedは、データや特徴の予測と一般化能力の向上や、ノイズやその他の要因の導入による方法の信頼性テストなど、メソッドやモデルのパフォーマンス向上を目的とした、マシンラーニングのコンセプトである。 一方で、クラスタリングはデータ分析の基本的な側面であり、大規模データセットの構造を理解するために長い間使われてきました。 その長い歴史にもかかわらず、k-meansアルゴリズムはまだ課題に直面している。 ergunらによって提案された1つのアプローチは、各データポイントと特定センチュロイドの間の2乗距離の和を最小化する予測器を使用することである。 しかし、このアルゴリズムの計算コストは k の値とともに増加することが知られており、局所的な最小値に固定されることがしばしばある。 これらの課題に対応するために,主成分分析(PCA)を用いてデータセットの次元性を低減する手法を提案する。 10 と 25 の k 値を使用する場合,提案アルゴリズムは PCA を使わずに動作させるよりもコストが低いことに注意する必要がある。 「主成分分析(PCA)は、高次元空間におけるデータポイントの集合に低次元アフィン部分空間を組み込む問題である。PCAは文献に精通しており、データモデリング、圧縮、可視化の最も有用なツールの1つとなっている。」

Learning augmented is a machine learning concept built to improve the performance of a method or model, such as enhancing its ability to predict and generalize data or features, or testing the reliability of the method by introducing noise and other factors. On the other hand, clustering is a fundamental aspect of data analysis and has long been used to understand the structure of large datasets. Despite its long history, the k-means algorithm still faces challenges. One approach, as suggested by Ergun et al,is to use a predictor to minimize the sum of squared distances between each data point and a specified centroid. However, it is known that the computational cost of this algorithm increases with the value of k, and it often gets stuck in local minima. In response to these challenges, we propose a solution to reduce the dimensionality of the dataset using Principal Component Analysis (PCA). It is worth noting that when using k values of 10 and 25, the proposed algorithm yields lower cost results compared to running it without PCA. "Principal component analysis (PCA) is the problem of fitting a low-dimensional affine subspace to a set of data points in a high-dimensional space. PCA is well-established in the literature and has become one of the most useful tools for data modeling, compression, and visualization."
翻訳日:2024-01-09 19:47:47 公開日:2024-01-06
# 政策強化探索による非定常環境における意思決定

Decision Making in Non-Stationary Environments with Policy-Augmented Search ( http://arxiv.org/abs/2401.03197v1 )

ライセンス: Link先を確認
Ava Pettet, Yunuo Zhang, Baiting Luo, Kyle Wray, Hendrik Baier, Aron Laszka, Abhishek Dubey, Ayan Mukhopadhyay(参考訳) 不確実性の下での逐次意思決定は多くの重要な問題に存在している。 このような問題に取り組むための一般的なアプローチは、強化学習とオンライン検索(モンテカルロ木探索など)である。 前者は環境(通常は実行前に行われる)と相互作用してポリシーを学ぶが、後者は環境の生成モデルを使用して、決定時に有望な行動軌跡をサンプリングする。 意思決定は、エージェントが動作する環境が時間とともに変化する非定常環境において特に困難である。 一方、環境が変化して再学習が時間と計算量の両方を必要とすると、実行前に学習されたポリシーは停滞する。 一方、オンライン検索は、許可されたランタイムに制限がある場合、最適化されたアクションを返すことができる。 本稿では,従来の政策からの行動価値推定と,環境の最新のモデルを用いたオンライン検索を併用した<textit{Policy-Augmented Monte Carlo tree search} (PA-MCTS)を紹介する。 PA-MCTSが1ステップの最適動作を選択し、PA-MCTSをポリシーとして追従しながら発生した誤差を拘束する条件を示す理論的結果を示す。 別のハイブリッドプランニングアプローチであるAlphaZeroや、OpenAI Gym環境でのDeep Q Learningと比較し、対比します。 実験により,時間制約が制限された非定常条件下では,PA-MCTSはこれらのベースラインよりも優れていた。

Sequential decision-making under uncertainty is present in many important problems. Two popular approaches for tackling such problems are reinforcement learning and online search (e.g., Monte Carlo tree search). While the former learns a policy by interacting with the environment (typically done before execution), the latter uses a generative model of the environment to sample promising action trajectories at decision time. Decision-making is particularly challenging in non-stationary environments, where the environment in which an agent operates can change over time. Both approaches have shortcomings in such settings -- on the one hand, policies learned before execution become stale when the environment changes and relearning takes both time and computational effort. Online search, on the other hand, can return sub-optimal actions when there are limitations on allowed runtime. In this paper, we introduce \textit{Policy-Augmented Monte Carlo tree search} (PA-MCTS), which combines action-value estimates from an out-of-date policy with an online search using an up-to-date model of the environment. We prove theoretical results showing conditions under which PA-MCTS selects the one-step optimal action and also bound the error accrued while following PA-MCTS as a policy. We compare and contrast our approach with AlphaZero, another hybrid planning approach, and Deep Q Learning on several OpenAI Gym environments. Through extensive experiments, we show that under non-stationary settings with limited time constraints, PA-MCTS outperforms these baselines.
翻訳日:2024-01-09 19:47:12 公開日:2024-01-06
# SecureReg: 悪意のあるドメイン名登録を積極的に公開するための統合フレームワーク

SecureReg: A Combined Framework for Proactively Exposing Malicious Domain Name Registrations ( http://arxiv.org/abs/2401.03196v1 )

ライセンス: Link先を確認
Furkan \c{C}olhak, Mert \.Ilhan Ecevit, Hasan Da\u{g}, Reiner Creutzburg(参考訳) サイバー脅威の高まり、スパムやフィッシング、ドライブバイダウンロードといったインターネット規模の攻撃に対して、毎日何千もの新しいドメインを登録している誤解は、革新的な検出方法の必要性を強調している。 本稿では,登録プロセス開始時に疑わしいドメインを特定するための最先端アプローチを提案する。 付随するデータパイプラインは、新しいドメインを登録ドメインと比較することで重要な特徴を生成し、重要な類似度スコアを強調する。 訓練済みのイヌモデルや多層パーセプトロン(MLP)モデルなど,NLP(Natural Language Processing)技術の新たな組み合わせを活用して,本システムはセマンティック属性と数値属性を解析し,早期脅威検出のための堅牢なソリューションを提供する。 この統合アプローチは脆弱性の窓を著しく減らし、潜在的な脅威に対する防御を強化する。 本研究は, 統合的アプローチの有効性を実証し, 不審なドメイン登録の早期発見を通じて, 不正なオンライン活動に関連するリスクを軽減すべく, 積極的な戦略開発への継続的な取り組みに寄与する。

Rising cyber threats, with miscreants registering thousands of new domains daily for Internet-scale attacks like spam, phishing, and drive-by downloads, emphasize the need for innovative detection methods. This paper introduces a cutting-edge approach for identifying suspicious domains at the onset of the registration process. The accompanying data pipeline generates crucial features by comparing new domains to registered domains,emphasizing the crucial similarity score. Leveraging a novel combination of Natural Language Processing (NLP) techniques, including a pretrained Canine model, and Multilayer Perceptron (MLP) models, our system analyzes semantic and numerical attributes, providing a robust solution for early threat detection. This integrated approach significantly reduces the window of vulnerability, fortifying defenses against potential threats. The findings demonstrate the effectiveness of the integrated approach and contribute to the ongoing efforts in developing proactive strategies to mitigate the risks associated with illicit online activities through the early identification of suspicious domain registrations.
翻訳日:2024-01-09 19:46:25 公開日:2024-01-06
# 不信頼な追跡ポーズを用いた集団活動認識

Group Activity Recognition using Unreliable Tracked Pose ( http://arxiv.org/abs/2401.03262v1 )

ライセンス: Link先を確認
Haritha Thilakarathne, Aiden Nibali, Zhen He, Stuart Morgan(参考訳) ビデオにおけるグループアクティビティ認識は、ビデオ内のすべての個人のアクションとその複雑なインタラクションを認識するモデルが必要であるため、複雑なタスクである。 近年の研究では、個々の人物を個別に追跡し、次にポーズや切り抜いた画像やオプティカルフローのシーケンスをモデルに入力することで、最適なパフォーマンスを実現することが提案されている。 これにより、モデルが、グループアクションクラスにマージされる前に、各人が実行しているアクションを認識するのに役立つ。 しかし,従来のモデルはすべて高品質な追跡に強く依存しており,地上の真実追跡情報を用いてのみ評価されている。 実際には、グループアクティビティビデオのすべての個人に対して、信頼性の高い追跡情報を達成することはほとんど不可能である。 我々は、信頼できない追跡や情報ポーズに寛容なグループアクティビティ認識システム(RePGARS)という、革新的なディープラーニングに基づくグループアクティビティ認識手法を導入する。 実験の結果、RePGARSは、地上の真実検出や追跡情報を使用しない既存のグループ活動認識アルゴリズムよりも優れていることを確認した。

Group activity recognition in video is a complex task due to the need for a model to recognise the actions of all individuals in the video and their complex interactions. Recent studies propose that optimal performance is achieved by individually tracking each person and subsequently inputting the sequence of poses or cropped images/optical flow into a model. This helps the model to recognise what actions each person is performing before they are merged to arrive at the group action class. However, all previous models are highly reliant on high quality tracking and have only been evaluated using ground truth tracking information. In practice it is almost impossible to achieve highly reliable tracking information for all individuals in a group activity video. We introduce an innovative deep learning-based group activity recognition approach called Rendered Pose based Group Activity Recognition System (RePGARS) which is designed to be tolerant of unreliable tracking and pose information. Experimental results confirm that RePGARS outperforms all existing group activity recognition algorithms tested which do not use ground truth detection and tracking information.
翻訳日:2024-01-09 19:39:07 公開日:2024-01-06
# クロム二量体cr$_2$の「パズル」に向けて : ボルン-オッペンハイマー振動スペクトルの予測

Towards the "puzzle" of Chromium dimer Cr$_2$: predicting the Born-Oppenheimer rovibrational spectrum ( http://arxiv.org/abs/2401.03259v1 )

ライセンス: Link先を確認
Horacio Olivares-Pil\'on, Daniel Aguilar-D\'iaz and Alexander V. Turbiner(参考訳) 実験的に観測されたcr$_2$ dimerの非自明な電子構造は、この数十年でポテンシャルエネルギー曲線の計算を理論的に困難にした。 小さい核間距離での摂動理論をR$、大きな距離での多極展開を$R$(漸近性の両方が仮定される)、実験データから抽出した数個のRKR回転点を加えることにより、基底状態に対するポテンシャルエネルギー曲線の解析形式を$X^1\Sigma^+$とすることで、Cr$_2$二量体の全核間距離に対して$R$を求めることができる。 これは2点パッドの形状を持ち、29の実験的な振動エネルギーで3-4桁の精度を提供する。 得られた基底状態 $x^1\sigma^+$ ポテンシャル曲線は、最大振動数 $\nu_\text{max}=104$ をゼロ角運動量で、最大角運動量 $l_\text{max}=312$ をエネルギー $>10^{-4}$ hartree で、さらに 218 の弱結合状態(解離限界に近い)をエネルギー $<10^{-4}$ hartree でサポートする。

The experimentally-observed non-trivial electronic structure of Cr$_2$ dimer has made the calculation of the potential energy curve a theoretical challenge in the last decades. By matching the perturbation theory at small internuclear distances $R$, the multipole expansion at large distances $R$ (supposedly both of asymptotic nature) and by adding a few RKR turning points, extracted from experimental data, the analytic form for the potential energy curve for the ground state $X^1\Sigma^+$ of the Cr$_2$ dimer is found for the whole range of internuclear distances $R$. This has the form of a two-point Pade approximant and provides an accuracy of 3-4 decimal digits in 29 experimental vibrational energies. The resulting ground state $X^1\Sigma^+$ potential curve supports 19694 rovibrational states with a maximal vibrational number $\nu_\text{max}=104$ at zero angular momentum and with a maximal angular momentum $L_\text{max}=312$ with energies $> 10^{-4}$ Hartree, and additionally 218 weakly-bound states (close to the dissociation limit) with energies $< 10^{-4}$ Hartree.
翻訳日:2024-01-09 19:38:47 公開日:2024-01-06
# rustnerf: 低品質の画像を持つロバストなニューラルラジアンスフィールド

RustNeRF: Robust Neural Radiance Field with Low-Quality Images ( http://arxiv.org/abs/2401.03257v1 )

ライセンス: Link先を確認
Mengfei Li, Ming Lu, Xiaofang Li, Shanghang Zhang(参考訳) neural radiance fields (nerf) に関する最近の研究は、マルチビュー3d一貫性を利用して、3dシーンモデリングと高忠実度新規ビュー合成で印象的な結果を得る。 しかし、制限がある。 まず、既存の手法では、実際の画像劣化を無視して、NeRFモデルのトレーニングに十分な高品質な画像が利用できると仮定する。 第2に、異なる視点の非モデル的不整合により、トレーニングセットの曖昧さに悩まされていた。 本研究では,RustNeRFを実世界の高品質なNeRFに適用する。 実世界の入力下でのNeRFの堅牢性を改善するために,実世界の劣化モデリングを取り入れた3D対応前処理ネットワークを訓練する。 画像の劣化と復元に伴う情報損失に対処するための暗黙的多視点ガイダンスを提案する。 大規模な実験は、RustNeRFの現実の劣化下での既存アプローチに対するアドバンテージを実証している。 コードはリリースされます。

Recent work on Neural Radiance Fields (NeRF) exploits multi-view 3D consistency, achieving impressive results in 3D scene modeling and high-fidelity novel-view synthesis. However, there are limitations. First, existing methods assume enough high-quality images are available for training the NeRF model, ignoring real-world image degradation. Second, previous methods struggle with ambiguity in the training set due to unmodeled inconsistencies among different views. In this work, we present RustNeRF for real-world high-quality NeRF. To improve NeRF's robustness under real-world inputs, we train a 3D-aware preprocessing network that incorporates real-world degradation modeling. We propose a novel implicit multi-view guidance to address information loss during image degradation and restoration. Extensive experiments demonstrate RustNeRF's advantages over existing approaches under real-world degradation. The code will be released.
翻訳日:2024-01-09 19:38:11 公開日:2024-01-06
# ビジュアルクロスドメイン学習者としての大規模言語モデル

Large Language Models as Visual Cross-Domain Learners ( http://arxiv.org/abs/2401.03253v1 )

ライセンス: Link先を確認
Shuhao Chen, Yulong Zhang, Weisen Jiang, Jiangang Lu, and Yu Zhang(参考訳) ディープラーニングモデルによって達成された最近の進歩は、独立かつ同一に分散した仮定に依存しており、ドメインシフトを伴う現実世界のシナリオでアプリケーションを妨げる。 上記の問題に対処するため、クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。 しかし、視覚的なクロスドメイン学習では、従来の手法は画像モダリティのみに集中し、ドメインシフトを緩和するためにテキストモダリティの使用を無視する。 本研究では,Large Language Model を Visual Cross-dOmain Learningers (LLaVO) として提案する。 LLaVOは視覚言語モデルを使用して画像を詳細なテキスト記述に変換する。 大きな言語モデルは、設計した命令テンプレートによって生成されたソース/ターゲットドメインのテキスト記述に基づいて微調整される。 ドメイン一般化と非教師なしドメイン適応設定下での様々なクロスドメインタスクに関する広範囲な実験結果が提案手法の有効性を実証した。

Recent advances achieved by deep learning models rely on the independent and identically distributed assumption, hindering their applications in real-world scenarios with domain shifts. To address the above issues, cross-domain learning aims at extracting domain-invariant knowledge to reduce the domain shift between training and testing data. However, in visual cross-domain learning, traditional methods concentrate solely on the image modality, neglecting the use of the text modality to alleviate the domain shift. In this work, we propose Large Language models as Visual cross-dOmain learners (LLaVO). LLaVO uses vision-language models to convert images into detailed textual descriptions. A large language model is then finetuned on textual descriptions of the source/target domain generated by a designed instruction template. Extensive experimental results on various cross-domain tasks under the domain generalization and unsupervised domain adaptation settings have demonstrated the effectiveness of the proposed method.
翻訳日:2024-01-09 19:37:55 公開日:2024-01-06
# TeLeS: エンド・ツー・エンドASRにおける信頼度推定のための時間レキセメ類似度スコア

TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in End-to-End ASR ( http://arxiv.org/abs/2401.03251v1 )

ライセンス: Link先を確認
Nagarathna Ravi, Thishyan Raj T and Vipul Arora(参考訳) E2E(End-to-End)モデルからの信頼度推定は、ASRの下流および上流タスクに有効である。 クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を表すものではない。 CEM(Acillary Confidence Estimation Model)は、予測を校正する。 最先端(SOTA)ソリューションは、CEMトレーニングにバイナリターゲットスコアを使用する。 しかし、二項ラベルは、参照と仮説の間の時間的アライメントや、予測された単語が完全に誤りかスペルエラーを含むかといった、予測された単語の粒度情報を明らかにしない。 この問題に対処するため,CEMのトレーニングを行うための新しいTeLeS(Temporal-Lexeme similarity)スコアを提案する。 cemのトレーニング中に目標スコアのデータ不均衡に対処するために,縮小損失を用いて,学習し易いデータポイントの影響を最小限に抑える。 我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて実験を行う。 実験により、TeLeSはドメイン間でよく一般化されることが示された。 提案手法の適用性を示すため,能動学習における不確実性を抽出するためのTeLeS-A関数を定式化する。 sota法と比較して,単語誤り率 (wer) が有意に減少した。

Confidence estimation of predictions from an End-to-End (E2E) Automatic Speech Recognition (ASR) model benefits ASR's downstream and upstream tasks. Class-probability-based confidence scores do not accurately represent the quality of overconfident ASR predictions. An ancillary Confidence Estimation Model (CEM) calibrates the predictions. State-of-the-art (SOTA) solutions use binary target scores for CEM training. However, the binary labels do not reveal the granular information of predicted words, such as temporal alignment between reference and hypothesis and whether the predicted word is entirely incorrect or contains spelling errors. Addressing this issue, we propose a novel Temporal-Lexeme Similarity (TeLeS) confidence score to train CEM. To address the data imbalance of target scores while training CEM, we use shrinkage loss to focus on hard-to-learn data points and minimise the impact of easily learned data points. We conduct experiments with ASR models trained in three languages, namely Hindi, Tamil, and Kannada, with varying training data sizes. Experiments show that TeLeS generalises well across domains. To demonstrate the applicability of the proposed method, we formulate a TeLeS-based Acquisition (TeLeS-A) function for sampling uncertainty in active learning. We observe a significant reduction in the Word Error Rate (WER) as compared to SOTA methods.
翻訳日:2024-01-09 19:37:42 公開日:2024-01-06
# 空間-時間パターン学習による高次脳波信号の対人関係解析

Interpersonal Relationship Analysis with Dyadic EEG Signals via Learning Spatial-Temporal Patterns ( http://arxiv.org/abs/2401.03250v1 )

ライセンス: Link先を確認
Wenqi Ji, Fang liu, Xinxin Du, Niqi Liu, Chao Zhou, Mingjin Yu, Guozhen Zhao, Yong-Jin Liu(参考訳) 対人関係の質は社会的・職業的文脈において重要である。 既存の対人関係の分析は主観的な自己報告に依存しているが、客観的な定量化は依然として難しい。 本稿では,企業のチームビルディングにおけるチーム協力の定量的評価や,精神療法におけるセラピストと患者との対人関係のダイナミクス評価に応用可能な,高次脳波信号からの時空間パターンを用いた新しい社会関係分析フレームワークを提案する。 まず,感情映像を同時に見る際に,2つの関係を持つ72対の参加者(ストランガーまたは友人)からDyadic-EEGデータセットを構築した。 そこで我々は,脳波チャネル間の対人関係を特徴付ける動的グラフ畳み込みニューラルネットワークと,時系列から情報を抽出する1次元畳み込みとを組み合わせ,dyadic-subject EEG信号を用いたディープニューラルネットワークを提案する。 2つの被験者の関係をよく表す2つの脳波記録から特徴ベクトルを得るために,ネットワークをトレーニングするための深部標準相関解析と三重項損失を統合する。 実験の結果,脳波データにより,2人の関係タイプ(ストランガーや友人)を効果的に識別できることが示唆された。

Interpersonal relationship quality is pivotal in social and occupational contexts. Existing analysis of interpersonal relationships mostly rely on subjective self-reports, whereas objective quantification remains challenging. In this paper, we propose a novel social relationship analysis framework using spatio-temporal patterns derived from dyadic EEG signals, which can be applied to quantitatively measure team cooperation in corporate team building, and evaluate interpersonal dynamics between therapists and patients in psychiatric therapy. First, we constructed a dyadic-EEG dataset from 72 pairs of participants with two relationships (stranger or friend) when watching emotional videos simultaneously. Then we proposed a deep neural network on dyadic-subject EEG signals, in which we combine the dynamic graph convolutional neural network for characterizing the interpersonal relationships among the EEG channels and 1-dimension convolution for extracting the information from the time sequence. To obtain the feature vectors from two EEG recordings that well represent the relationship of two subjects, we integrate deep canonical correlation analysis and triplet loss for training the network. Experimental results show that the social relationship type (stranger or friend) between two individuals can be effectively identified through their EEG data.
翻訳日:2024-01-09 19:37:18 公開日:2024-01-06
# 正常モード抽出器としてのニューロン時間フィルター

Neuronal Temporal Filters as Normal Mode Extractors ( http://arxiv.org/abs/2401.03248v1 )

ライセンス: Link先を確認
Siavash Golkar, Jules Berman, David Lipshutz, Robert Mihai Haret, Tim Gollisch, and Dmitri B. Chklovskii(参考訳) 生理的遅延に直面して行動を起こすためには、脳は未来を予測する必要がある。 本稿では,スカラー時系列入力の将来を予測するニューロンを考えることにより,脳機能のコアに予測がどう存在するかを検討する。 ラグベクトル(時系列の連続した要素からなるベクトル)のダイナミクスが局所線型であると仮定すると、正規モード分解はダイナミクスを独立に進化する(固有-)モードに分解し、簡単に予測できる。 本稿では,ニューロンがトップモードを学習し,関連する部分空間に入力を投影することを提案する。 この解釈の下で、ニューロンの時間フィルタは一般化固有値問題の左固有ベクトルに対応する。 線形システムによって生成された合成データのノイズ観測において,そのようなアルゴリズムの動作を数学的に解析する。 興味深いことに、時間フィルタの形状は信号対雑音比(SNR)によって異なり、ノイズ入力はモノファシックフィルタを生じ、SNRは徐々に多くの位相を持つマルチファシックフィルタを生み出す。 入力SNRによる時間フィルタのこのような変化は、生物学的ニューロンで実験的に観察されたものに似ている。

To generate actions in the face of physiological delays, the brain must predict the future. Here we explore how prediction may lie at the core of brain function by considering a neuron predicting the future of a scalar time series input. Assuming that the dynamics of the lag vector (a vector composed of several consecutive elements of the time series) are locally linear, Normal Mode Decomposition decomposes the dynamics into independently evolving (eigen-)modes allowing for straightforward prediction. We propose that a neuron learns the top mode and projects its input onto the associated subspace. Under this interpretation, the temporal filter of a neuron corresponds to the left eigenvector of a generalized eigenvalue problem. We mathematically analyze the operation of such an algorithm on noisy observations of synthetic data generated by a linear system. Interestingly, the shape of the temporal filter varies with the signal-to-noise ratio (SNR): a noisy input yields a monophasic filter and a growing SNR leads to multiphasic filters with progressively greater number of phases. Such variation in the temporal filter with input SNR resembles that observed experimentally in biological neurons.
翻訳日:2024-01-09 19:36:57 公開日:2024-01-06
# 単一電子サイクロトロン放射分光のための量子ノイズ限定位相アレイ

Quantum Noise Limited Phased Arrays for Single-Electron Cyclotron Radiation Emission Spectroscopy ( http://arxiv.org/abs/2401.03247v1 )

ライセンス: Link先を確認
Stafford Withington, Christopher Thomas and Songyuan Zhao(参考訳) ニュートリノ振動実験はニュートリノが質量を持つことを示したが、絶対質量スケールは測定が極めて困難であり、現在不明である。 有望なアプローチは、トリチウムの放射性崩壊中に放出される電子のエネルギーを測定することである。 興味のエネルギーは18.6keVの終点の数 eV 内にあり、弱相対論的である。 静磁場中で電子を捕獲し、放射されるサイクロトロン放射の周波数を測定することにより、初期エネルギーを決定できるが、端点事象は少なく、観測時間は短く、ノイズ比は低い。 10mevの解像度を達成するためには、高感度の受信機を持つ広い視野で単一電子放出スペクトルを記録する必要がある。 サイロトロン放射分光法(cres)の原理はすでにproject 8で実証されており、現在ではfovを$>0.1 m$^3$に増やすことにかなりの関心が寄せられている。 本稿では,単電子cres用内向きの量子ノイズ制限型マイクロ波受信器の設計と最適化に関する様々な課題を考察し,信号,ノイズ,システムレベルの振る舞いを理解するための単一の枠組みを提案する。 レーダーや電気通信などの応用のための外向き位相アレイの設計には多くの文献があるが、ボリューム分光とイメージングのための超感度内向き位相アレイを設計する際に発生する新しい問題についてはほとんど言及されていない。

Neutrino oscillation experiments show that neutrinos have mass; however, the absolute mass scale is exceedingly difficult to measure and is currently unknown. A promising approach is to measure the energies of the electrons released during the radioactive decay of tritium. The energies of interest are within a few eV of the 18.6 keV end point, and so are mildly relativistic. By capturing the electrons in a static magnetic field and measuring the frequency of the cyclotron radiation emitted the initial energy can be determined, but end-point events are infrequent, the observing times short, and the signal to noise ratios low. To achieve a resolution of $<$ 10 meV, single-electron emission spectra need to be recorded over large fields of view with highly sensitive receivers. The principles of Cylotron Radiation Emission Spectroscopy (CRES) have already been demonstrated by Project 8, and now there is considerable interest in increasing the FoV to $>$ 0.1 m$^3$. We consider a range of issues relating to the design and optimisation of inward-looking quantum-noise-limited microwave receivers for single-electron CRES, and present a single framework for understanding signal, noise and system-level behaviour. Whilst there is a great deal of literature relating to the design of outward-looking phased arrays for applications such as radar and telecommunications, there is very little coverage of the new issues that come into play when designing ultra-sensitive inward-looking phased arrays for volumetric spectroscopy and imaging.
翻訳日:2024-01-09 19:36:39 公開日:2024-01-06
# seqnas: イベントシーケンス分類のためのニューラルアーキテクチャ探索

SeqNAS: Neural Architecture Search for Event Sequence Classification ( http://arxiv.org/abs/2401.03246v1 )

ライセンス: Link先を確認
Igor Udovichenko, Egor Shvetsov, Denis Divitsky, Dmitry Osin, Ilya Trofimov, Anatoly Glushenko, Ivan Sukharev, Dmitry Berestenev, Evgeny Burnaev(参考訳) ニューラルアーキテクチャサーチ(NAS)法は、人間の介入を最小限に抑えた高品質なタスク固有解を得るために、様々な産業で広く用いられている。 イベントシーケンスは、churn予測顧客セグメンテーション不正検出や障害診断など、さまざまな産業アプリケーションで広く使用されている。 このようなデータは、不規則なタイムスタンプを持つ分類的および実数値的なコンポーネントから構成される。 NAS手法の有用性にもかかわらず、従来のアプローチは他のドメインの画像テキストや時系列にのみ適用されてきた。 本研究は、イベントシーケンス分類用に設計された新しいNASアルゴリズムSeqNASを導入することで、この制限に対処する。 マルチヘッド自己注意畳み込みやリカレントセルなど,イベントシーケンス分類に一般的に使用されるビルディングブロックを活用する,単純かつ表現力に富んだ検索空間を開発した。 探索を行うために,逐次ベイズ最適化を採用し,事前訓練されたモデルを教師のアンサンブルとして活用し,知識蒸留を増強する。 その結果,本手法がNAS法や一般的なアーキテクチャを超越してシーケンス分類が可能であり,様々な産業応用に大きな可能性を秘めていることがわかった。

Neural Architecture Search (NAS) methods are widely used in various industries to obtain high quality taskspecific solutions with minimal human intervention. Event Sequences find widespread use in various industrial applications including churn prediction customer segmentation fraud detection and fault diagnosis among others. Such data consist of categorical and real-valued components with irregular timestamps. Despite the usefulness of NAS methods previous approaches only have been applied to other domains images texts or time series. Our work addresses this limitation by introducing a novel NAS algorithm SeqNAS specifically designed for event sequence classification. We develop a simple yet expressive search space that leverages commonly used building blocks for event sequence classification including multihead self attention convolutions and recurrent cells. To perform the search we adopt sequential Bayesian Optimization and utilize previously trained models as an ensemble of teachers to augment knowledge distillation. As a result of our work we demonstrate that our method surpasses state of the art NAS methods and popular architectures suitable for sequence classification and holds great potential for various industrial applications.
翻訳日:2024-01-09 19:36:12 公開日:2024-01-06
# 運用研究のための人工知能:運用研究プロセスの革新

Artificial Intelligence for Operations Research: Revolutionizing the Operations Research Process ( http://arxiv.org/abs/2401.03244v1 )

ライセンス: Link先を確認
Zhenan Fan, Bissan Ghaddar, Xinglu Wang, Linzi Xing, Yong Zhang, Zirui Zhou(参考訳) 人工知能(AI)技術の急速な進歩により、オペレーティングリサーチ(OR)を含む様々な分野に革命をもたらす新たな機会が開かれた。 本稿では、パラメータ生成、モデル定式化、モデル最適化など、複数の段階にわたる有効性と効率を高めるために、ORプロセス(AI4OR)におけるAIの統合について検討する。 本稿では,AIがORを変換する可能性について概観し,その可能性を検討することによって,AIに強化されたORメソッドやツールの開発において,さらなる研究とイノベーションを刺激することを目的とする。 AIとORの相乗効果は、多数のドメインで大幅な進歩と新しいソリューションを推進し、最終的にはより効率的で効率的な意思決定につながる。

The rapid advancement of artificial intelligence (AI) techniques has opened up new opportunities to revolutionize various fields, including operations research (OR). This survey paper explores the integration of AI within the OR process (AI4OR) to enhance its effectiveness and efficiency across multiple stages, such as parameter generation, model formulation, and model optimization. By providing a comprehensive overview of the state-of-the-art and examining the potential of AI to transform OR, this paper aims to inspire further research and innovation in the development of AI-enhanced OR methods and tools. The synergy between AI and OR is poised to drive significant advancements and novel solutions in a multitude of domains, ultimately leading to more effective and efficient decision-making.
翻訳日:2024-01-09 19:35:52 公開日:2024-01-06
# 混合SU(2)Yang-Mills熱力学からの電弱パラメータ

Electroweak parameters from mixed SU(2) Yang-Mills Thermodynamics ( http://arxiv.org/abs/2401.03243v1 )

ライセンス: Link先を確認
Ralf Hofmann and Janning Meinert(参考訳) 純粋なsu(2)量子yang-mills理論の熱相構造に基づき、静止状態の電子は、ボーア半径$a_0$に匹敵する半径$r_0$のブロブと呼ばれる拡張粒子として記述する。 このブロブは圧力を消し、バルク内で電磁二重解釈されたBPSモノポールを温度$T_0=7.95$ keVでトラップする。 球面ミラーチャージ構造を用いて、軟外探触子に対する電磁微細構造定数$\alpha$ of $\alpha^{-1}\sim 134$の値でブロブの電荷を近似する。 ブロブは電気双極子や四極子モーメントを示さないことが示されている。 また、非常に異なるyang-millsスケールの2つのsu(2)ゲージ理論(\lambda_{\rm e}=3.6 $ kevおよび$\lambda_{\rm cmb}\sim 10^{-4} $ev)の崩壊相に属する混合角である$\theta_{\rm w}\sim 30^{\circ}$を計算し、ブロブの安定なバルク熱力学を確立する。 単極子の核半径は、r_0$の約1 %である。

Based on the thermal phase structure of pure SU(2) quantum Yang-Mills theory, we describe the electron at rest as an extended particle, a so-called blob of radius $r_0$ which is comparable to the Bohr radius $a_0$. This blob is of vanishing pressure and traps an electric-magnetic dually interpreted BPS monopole within its bulk at a temperature of $T_0=7.95$ keV. Utilizing a spherical mirror-charge construction, we approximate the blob's charge at a value of the electromagnetic fine-structure constant $\alpha$ of $\alpha^{-1}\sim 134$ for soft external probes. It is shown that the blob does not exhibit an electric dipole or quadrupole moment. We also calculate the mixing angle $\theta_{\rm W}\sim 30^{\circ}$ belonging to the deconfining phases of two SU(2) gauge theories of very distinct Yang-Mills scales ($\Lambda_{\rm e}=3.6 $ keV and $\Lambda_{\rm CMB}\sim 10^{-4} $eV) which establish the blob's stable bulk thermodynamics. The core radius of the monopole is about 1 % of $r_0$.
翻訳日:2024-01-09 19:35:38 公開日:2024-01-06
# 学習速度フリー最適化のためのパラメータスケーリングによる適応勾配法解釈

Interpreting Adaptive Gradient Methods by Parameter Scaling for Learning-Rate-Free Optimization ( http://arxiv.org/abs/2401.03240v1 )

ライセンス: Link先を確認
Min-Kook Suh and Seung-Woo Seo(参考訳) 深層ニューラルネットワークのトレーニングに使用される適応的勾配法における学習率推定の課題に対処する。 いくつかの学習率フリーアプローチが提案されているが、通常は最も急な降下用に調整されている。 しかしながら、最急降下法では最小値を見つけるための直感的なアプローチを提供するが、多くのディープラーニングアプリケーションはより高速な収束を達成するために適応勾配法を必要とする。 本稿では,適応勾配法をパラメータスケールネットワークに適用した最も急勾配と解釈し,学習速度のない適応勾配法を提案する。 提案手法の有効性を検証し,様々なシナリオにおけるハンドチューニング学習率と同等の性能を示す。 本研究は,学習速度自由法の適用可能性を拡張し,適応勾配法を用いてトレーニングを強化する。

We address the challenge of estimating the learning rate for adaptive gradient methods used in training deep neural networks. While several learning-rate-free approaches have been proposed, they are typically tailored for steepest descent. However, although steepest descent methods offer an intuitive approach to finding minima, many deep learning applications require adaptive gradient methods to achieve faster convergence. In this paper, we interpret adaptive gradient methods as steepest descent applied on parameter-scaled networks, proposing learning-rate-free adaptive gradient methods. Experimental results verify the effectiveness of this approach, demonstrating comparable performance to hand-tuned learning rates across various scenarios. This work extends the applicability of learning-rate-free methods, enhancing training with adaptive gradient methods.
翻訳日:2024-01-09 19:35:10 公開日:2024-01-06
# LLMを用いた帰納的テーマ解析の有効性測定のための潜在指標としての帰納的テーマ飽和に関する考察

Reflections on Inductive Thematic Saturation as a potential metric for measuring the validity of an inductive Thematic Analysis with LLMs ( http://arxiv.org/abs/2401.03239v1 )

ライセンス: Link先を確認
Stefano De Paoli and Walter Stan Mathis(参考訳) 本稿では,飽和度に関する一連の考察と,大規模言語モデル (llm) を用いた主題分析 (ta) について述べる。 本論文は, 初期主題飽和度(ITS)を, LLMによるTAのトランザクション妥当性の一部を評価する指標として用いることができることを示唆している。 本稿では,異なるサイズの2つのデータセットを初期符号化し,LLMが符号化中に何らかの解析飽和点に達する方法について考察する。 この本で提案されている手続きは、2つのコードブックの作成につながり、1つは累積初期コード、もう1つは総ユニークコードからなる。 本稿では,累積符号の傾きと一意符号の比を用いた単純な数学的計算を用いて,ITSを合成的に測定する指標を提案する。 本論文は, LLMを用いた定性解析の実施方法を探る初期の研究に貢献する。

This paper presents a set of reflections on saturation and the use of Large Language Models (LLMs) for performing Thematic Analysis (TA). The paper suggests that initial thematic saturation (ITS) could be used as a metric to assess part of the transactional validity of TA with LLM, focusing on the initial coding. The paper presents the initial coding of two datasets of different sizes, and it reflects on how the LLM reaches some form of analytical saturation during the coding. The procedure proposed in this work leads to the creation of two codebooks, one comprising the total cumulative initial codes and the other the total unique codes. The paper proposes a metric to synthetically measure ITS using a simple mathematical calculation employing the ratio between slopes of cumulative codes and unique codes. The paper contributes to the initial body of work exploring how to perform qualitative analysis with LLMs.
翻訳日:2024-01-09 19:34:58 公開日:2024-01-06
# 大規模言語モデルを用いて教師の数学エラーに対する反応性能を評価する

Using Large Language Models to Assess Tutors' Performance in Reacting to Students Making Math Errors ( http://arxiv.org/abs/2401.03238v1 )

ライセンス: Link先を確認
Sanjit Kakarla, Danielle Thomas, Jionghao Lin, Shivang Gupta, Kenneth R. Koedinger(参考訳) 教師は,低効率な学生による数学の誤りに対処する上で,戦略的アプローチを採用するべきである。 教師は間違いに直接注意を向けるのではなく、生徒に自分の間違いを特定し修正するよう指導すべきである。 教師の指導は、この教育技術を導入しているが、この戦略を適用した教師の人的評価は困難で時間を要する。 大規模言語モデル(llm)は、実際の指導セッションで教師にリアルタイム評価を提供することを約束しているが、この文脈でその正確性についてはほとんど知られていない。 本研究では,実生活における教師の成績を評価するための生成型aiの能力について検討した。 その結果, GPT-3.5-Turbo と GPT-4 の双方が, 誤りを犯す生徒に対して反応する基準を評価する能力を示した。 しかし、どちらのモデルも、生徒がエラーを犯したインスタンスの認識に制限がある。 特に、GPT-4は、学生が誤りを犯した事例を過度に同定する傾向があり、しばしば学生の不確実性や、人間の評価者が起こらなかった潜在的な誤りを推測する。 今後の研究は、より大きな対話データセットを評価し、学習の伝達を評価することで、一般化性の向上に焦点を当てる。 具体的には,この重要な指導スキルの授業終了前後の数学的誤りに応答する実生活シナリオにおける講師のパフォーマンスを解析する。

Research suggests that tutors should adopt a strategic approach when addressing math errors made by low-efficacy students. Rather than drawing direct attention to the error, tutors should guide the students to identify and correct their mistakes on their own. While tutor lessons have introduced this pedagogical skill, human evaluation of tutors applying this strategy is arduous and time-consuming. Large language models (LLMs) show promise in providing real-time assessment to tutors during their actual tutoring sessions, yet little is known regarding their accuracy in this context. In this study, we investigate the capacity of generative AI to evaluate real-life tutors' performance in responding to students making math errors. By analyzing 50 real-life tutoring dialogues, we find both GPT-3.5-Turbo and GPT-4 demonstrate proficiency in assessing the criteria related to reacting to students making errors. However, both models exhibit limitations in recognizing instances where the student made an error. Notably, GPT-4 tends to overidentify instances of students making errors, often attributing student uncertainty or inferring potential errors where human evaluators did not. Future work will focus on enhancing generalizability by assessing a larger dataset of dialogues and evaluating learning transfer. Specifically, we will analyze the performance of tutors in real-life scenarios when responding to students' math errors before and after lesson completion on this crucial tutoring skill.
翻訳日:2024-01-09 19:34:42 公開日:2024-01-06
# 分割学習に基づくemg人工装具制御のための収束率最大化

Convergence Rate Maximization for Split Learning-based Control of EMG Prosthetic Devices ( http://arxiv.org/abs/2401.03233v1 )

ライセンス: Link先を確認
Matea Marinova, Daniel Denkovski, Hristijan Gjoreski, Zoran Hadzi-Velkov, Valentin Rakovic(参考訳) 分割学習(slit learning, sl)は、筋電図に基づく人工装具制御において有望な分散学習手法である。 深層学習やフェデレートラーニング(FL)といった他の学習手法は、補綴装置の処理能力とバッテリー寿命に極めて制限があるため、準最適ソリューションを提供する。 このようなシナリオでSLを実装することは、クライアントがより小さなモデルセグメントを実行するという、その固有のモデルパーティショニングによって引き起こされる。 しかし、不適切なカット層を選択することは、SLシステムのトレーニングプロセスを妨げる。 本稿では,モデル収束率の最大化の観点から,最適カット層選択のためのアルゴリズムを提案する。 性能評価の結果,提案アルゴリズムはEMGパターン認識タスクの収束を著しく加速し,補綴装置制御の改善を図っている。

Split Learning (SL) is a promising Distributed Learning approach in electromyography (EMG) based prosthetic control, due to its applicability within resource-constrained environments. Other learning approaches, such as Deep Learning and Federated Learning (FL), provide suboptimal solutions, since prosthetic devices are extremely limited in terms of processing power and battery life. The viability of implementing SL in such scenarios is caused by its inherent model partitioning, with clients executing the smaller model segment. However, selecting an inadequate cut layer hinders the training process in SL systems. This paper presents an algorithm for optimal cut layer selection in terms of maximizing the convergence rate of the model. The performance evaluation demonstrates that the proposed algorithm substantially accelerates the convergence in an EMG pattern recognition task for improving prosthetic device control.
翻訳日:2024-01-09 19:34:18 公開日:2024-01-06
# 特徴保存を伴う科学データセットの時空間適応圧縮-極端気候事象解析を用いたシミュレーションデータのケーススタディ

Spatiotemporally adaptive compression for scientific dataset with feature preservation -- a case study on simulation data with extreme climate events analysis ( http://arxiv.org/abs/2401.03317v1 )

ライセンス: Link先を確認
Qian Gong, Chengzhu Zhang, Xin Liang, Viktor Reshniak, Jieyang Chen, Anand Rangarajan, Sanjay Ranka, Nicolas Vidal, Lipeng Wan, Paul Ullrich, Norbert Podhorszki, Robert Jacob, Scott Klasky(参考訳) 科学的な発見は、ストレージスペースとi/o能力の制限によってますます制限されている。 時系列シミュレーションや実験では、ストレージとi/oの制限を満たすために、そのデータは時間ステップで減らさなければならない。 本稿では,時空間適応型誤り制御圧縮による解析後精度を向上しつつ,ストレージコストに対処する手法を提案する。 我々は,データ精度と時間出力率のトレードオフについて検討し,データ精度の低減と時間経過頻度の増大がより正確な分析結果をもたらすことを明らかにした。 さらに,データ圧縮と時空間特徴検出を統合し,高次元空間における適応型誤り境界圧縮により圧縮比が向上し,変換型圧縮機の誤差伝播理論を活用できることを実証する。 提案手法を評価するため,よく知られたE3SM気候シミュレーションコードを用いて実験を行い,サイクロン追跡に用いる変数の圧縮に適用した。 以上の結果より, サイクロン追跡解析の質を定量的に, 定性的に向上させながら, 保存量を大幅に減少させることが示された。 特徴保存能力に欠ける3つの最先端の損失圧縮機と比較して、適応圧縮フレームワークは、TCトラッキングにおける完全一致するケースを26.4-51.3%、大圧縮比77.3-571.1%、計算オーバーヘッド5-11%で改善する。

Scientific discoveries are increasingly constrained by limited storage space and I/O capacities. For time-series simulations and experiments, their data often need to be decimated over timesteps to accommodate storage and I/O limitations. In this paper, we propose a technique that addresses storage costs while improving post-analysis accuracy through spatiotemporal adaptive, error-controlled lossy compression. We investigate the trade-off between data precision and temporal output rates, revealing that reducing data precision and increasing timestep frequency lead to more accurate analysis outcomes. Additionally, we integrate spatiotemporal feature detection with data compression and demonstrate that performing adaptive error-bounded compression in higher dimensional space enables greater compression ratios, leveraging the error propagation theory of a transformation-based compressor. To evaluate our approach, we conduct experiments using the well-known E3SM climate simulation code and apply our method to compress variables used for cyclone tracking. Our results show a significant reduction in storage size while enhancing the quality of cyclone tracking analysis, both quantitatively and qualitatively, in comparison to the prevalent timestep decimation approach. Compared to three state-of-the-art lossy compressors lacking feature preservation capabilities, our adaptive compression framework improves perfectly matched cases in TC tracking by 26.4-51.3% at medium compression ratios and by 77.3-571.1% at large compression ratios, with a merely 5-11% computational overhead.
翻訳日:2024-01-09 19:27:28 公開日:2024-01-06
# Malla: 現実の大規模言語モデル統合型悪意サービス

Malla: Demystifying Real-world Large Language Model Integrated Malicious Services ( http://arxiv.org/abs/2401.03315v1 )

ライセンス: Link先を確認
Zilong Lin, Jian Cui, Xiaojing Liao, XiaoFeng Wang(参考訳) 大規模言語モデル(LLM)の悪意あるサービス(すなわちMalla)に対する地下での搾取は、サイバー脅威の風景を増幅し、LLM技術の信頼性に関する疑問を呈している。 しかし、この新たなサイバー犯罪を、その規模、影響、技術の観点から理解する努力はほとんどなかった。 本稿では,212の現実世界のMallasに関する最初の体系的研究を行い,地下市場におけるMallasの増殖を明らかにする。 我々の研究は、Mallaエコシステムを明らかにし、その大きな成長と今日の公共LLMサービスへの影響を明らかにします。 Mallas 212 を調査した結果,Mallas が使用する 8 つのバックエンド LLM と,公共 LLM API の保護対策を回避する 182 のプロンプトが発見された。 脱獄プロンプトによる無検閲LLMの悪用や、公開LLM APIの悪用など、Mallasが採用した戦術をさらに軽視する。 今回の知見は,サイバー犯罪者によるllmの実世界の活用をよりよく理解し,このサイバー犯罪に対抗するための戦略に関する洞察を提供する。

The underground exploitation of large language models (LLMs) for malicious services (i.e., Malla) is witnessing an uptick, amplifying the cyber threat landscape and posing questions about the trustworthiness of LLM technologies. However, there has been little effort to understand this new cybercrime, in terms of its magnitude, impact, and techniques. In this paper, we conduct the first systematic study on 212 real-world Mallas, uncovering their proliferation in underground marketplaces and exposing their operational modalities. Our study discloses the Malla ecosystem, revealing its significant growth and impact on today's public LLM services. Through examining 212 Mallas, we uncovered eight backend LLMs used by Mallas, along with 182 prompts that circumvent the protective measures of public LLM APIs. We further demystify the tactics employed by Mallas, including the abuse of uncensored LLMs and the exploitation of public LLM APIs through jailbreak prompts. Our findings enable a better understanding of the real-world exploitation of LLMs by cybercriminals, offering insights into strategies to counteract this cybercrime.
翻訳日:2024-01-09 19:27:01 公開日:2024-01-06
# コントラストによるコンテキストの強化

Enhancing Context Through Contrast ( http://arxiv.org/abs/2401.03314v1 )

ライセンス: Link先を確認
Kshitij Ambilduke, Aneesh Shetye, Diksha Bagade, Rishika Bhagwatkar, Khurshed Fitter, Prasad Vagdargi, Shital Chiddarwar(参考訳) ニューラルネットワーク翻訳は意味的に豊かな表現の恩恵を受ける。 このような表現の学習のかなりの進歩は、言語モデルと相互情報最大化目標によって、コントラスト学習を用いて達成されている。 言語モデリングの言語依存の性質は、学習された表現の普遍性と言語モデリングタスクにおけるモデルの性能とのトレードオフをもたらす。 対照的な学習はパフォーマンスを向上させるが、その成功は相互情報のみによるものではない。 本稿では,バロー・ツインズ・ロスを用いた相互情報の最大化により,ニューラルネットワーク翻訳の性能を向上させる新しいコンテキスト拡張手法を提案する。 他のアプローチとは異なり、明示的にデータを増やすのではなく、言語を暗黙の強化と見なし、意味情報を破壊するリスクを根絶する。 さらに,本手法はスクラッチから埋め込みを学習せず,事前学習した埋め込みに一般化することができる。 最後に,組込みの言語非依存性を言語分類を通して評価し,それをニューラルマシン翻訳に使用して,最先端のアプローチと比較する。

Neural machine translation benefits from semantically rich representations. Considerable progress in learning such representations has been achieved by language modelling and mutual information maximization objectives using contrastive learning. The language-dependent nature of language modelling introduces a trade-off between the universality of the learned representations and the model's performance on the language modelling tasks. Although contrastive learning improves performance, its success cannot be attributed to mutual information alone. We propose a novel Context Enhancement step to improve performance on neural machine translation by maximizing mutual information using the Barlow Twins loss. Unlike other approaches, we do not explicitly augment the data but view languages as implicit augmentations, eradicating the risk of disrupting semantic information. Further, our method does not learn embeddings from scratch and can be generalised to any set of pre-trained embeddings. Finally, we evaluate the language-agnosticism of our embeddings through language classification and use them for neural machine translation to compare with state-of-the-art approaches.
翻訳日:2024-01-09 19:26:38 公開日:2024-01-06
# Unruh-De Witt検出器, Bell-CHSH不等式および富田竹崎理論

Unruh-De Witt detectors, Bell-CHSH inequality and Tomita-Takesaki theory ( http://arxiv.org/abs/2401.03313v1 )

ライセンス: Link先を確認
Fillipe M. Guedes, Marcelo S. Guimaraes, Itzhak Roditi, Silvio P. Sorella(参考訳) unruh-de wittスピン 1/2$ 検出器と実スカラー場との相互作用は、ワイル作用素のフォン・ノイマン代数に適用されるトミタ-竹崎モジュラー理論を用いて精査される。 モジュラー理論を用いることで、量子場の自由度に対するトレースを正確に評価することができる。 得られた密度行列はベル-CHSH相関器の研究に使用される。 その結果、量子場との相互作用の結果、ベル・チェシュの不等式がスカラー場が存在しない場合と比べて減少することがわかった。

The interaction between Unruh-De Witt spin $1/2$ detectors and a real scalar field is scrutinized by making use of the Tomita-Takesaki modular theory as applied to the Von Neumann algebra of the Weyl operators. The use of the modular theory enables to evaluate in an exact way the trace over the quantum field degrees of freedom. The resulting density matrix is employed to the study of the Bell-CHSH correlator. It turns out that, as a consequence of the interaction with the quantum field, the violation of the Bell-CHSH inequality exhibits a decreasing as compared to the case in which the scalar field is absent.
翻訳日:2024-01-09 19:26:24 公開日:2024-01-06
# コントラスト学習のための新しいモダリティとしてのデータ階層の活用

Exploiting Data Hierarchy as a New Modality for Contrastive Learning ( http://arxiv.org/abs/2401.03312v1 )

ライセンス: Link先を確認
Arjun Bhalla, Daniel Levenson, Jan Bernhard, Anton Abilov(参考訳) 本研究は,ニューラルネットワークが大聖堂の概念表現を学習する上で,階層的に構造化されたデータがどのように役立つかを検討するものである。 基礎となるWikiScenesデータセットは、大聖堂コンポーネントの空間的に整理された階層構造を提供する。 本稿では,エンコーダの潜伏空間におけるデータ空間階層を表現するために,三重項マージン損失を利用した新しい階層的コントラスト学習手法を提案する。 そこで本研究では,データセット構造が自己教師付き学習に有用な情報を提供するかどうかを検討する。 提案手法は,t-sneを用いて結果の潜在空間を可視化し,それを他のデータセット固有のコントラスト学習法と比較することで評価する。 提案手法は,弱制御法とベースライン法に比較して優れる。 本研究は,データセット構造が弱教師付き学習に有用であることが示唆された。

This work investigates how hierarchically structured data can help neural networks learn conceptual representations of cathedrals. The underlying WikiScenes dataset provides a spatially organized hierarchical structure of cathedral components. We propose a novel hierarchical contrastive training approach that leverages a triplet margin loss to represent the data's spatial hierarchy in the encoder's latent space. As such, the proposed approach investigates if the dataset structure provides valuable information for self-supervised learning. We apply t-SNE to visualize the resultant latent space and evaluate the proposed approach by comparing it with other dataset-specific contrastive learning methods using a common downstream classification task. The proposed method outperforms the comparable weakly-supervised and baseline methods. Our findings suggest that dataset structure is a valuable modality for weakly-supervised learning.
翻訳日:2024-01-09 19:26:12 公開日:2024-01-06
# CAVIAR:デジタル双生児のための6Gコミュニケーション、3DシナリオとAIの共同シミュレーション

CAVIAR: Co-simulation of 6G Communications, 3D Scenarios and AI for Digital Twins ( http://arxiv.org/abs/2401.03310v1 )

ライセンス: Link先を確認
Jo\~ao Borges, Felipe Bastos, Ilan Correa, Pedro Batista, Aldebaro Klautau(参考訳) デジタルツインは、特に無線チャネル、3Dシーン、機械学習を同時にシミュレートする必要があるユースケースにおいて、モバイル通信を進める上で重要な技術である。 この要求に対する解決策の提供を目的として、この研究はCAVIARと呼ばれるモジュラーコシミュレート手法を記述している。 ここで、CAVIARはメッセージパッシングライブラリをサポートし、異なる6Gシミュレータを使ってデジタルツインシステムの仮想的な実装を可能にするようにアップグレードされている。 この研究の主な貢献は、異なるCAVIARアーキテクチャの詳細な説明、UAVベースの捜索救助ミッション(SAR)の6Gユースケースを評価するための方法論の実装、計算資源利用に関するベンチマークデータの生成である。 物理的およびリンクレベルのネットワークシミュレータであるSionna、自動運転車のシミュレータであるAirSim、MIMOビーム選択の決定ツリーをトレーニングするためのScikit-learn、救助目標の検出のためのYolov8、メッセージパッシングのためのNATSの5つのオープンソースソリューションを採用しています。 実装されたSARユースケースの結果は、その方法論が単一のマシンで実行可能であることを示唆しており、主に要求されるリソースはCPU処理とGPUメモリである。

Digital twins are an important technology for advancing mobile communications, specially in use cases that require simultaneously simulating the wireless channel, 3D scenes and machine learning. Aiming at providing a solution to this demand, this work describes a modular co-simulation methodology called CAVIAR. Here, CAVIAR is upgraded to support a message passing library and enable the virtual counterpart of a digital twin system using different 6G-related simulators. The main contributions of this work are the detailed description of different CAVIAR architectures, the implementation of this methodology to assess a 6G use case of UAV-based search and rescue mission (SAR), and the generation of benchmarking data about the computational resource usage. For executing the SAR co-simulation we adopt five open-source solutions: the physical and link level network simulator Sionna, the simulator for autonomous vehicles AirSim, scikit-learn for training a decision tree for MIMO beam selection, Yolov8 for the detection of rescue targets and NATS for message passing. Results for the implemented SAR use case suggest that the methodology can run in a single machine, with the main demanded resources being the CPU processing and the GPU memory.
翻訳日:2024-01-09 19:25:58 公開日:2024-01-06
# moto: モデルに基づくロボット学習のためのオンラインファインチューニングのオフライントレーニング

MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot Learning ( http://arxiv.org/abs/2401.03306v1 )

ライセンス: Link先を確認
Rafael Rafailov, Kyle Hatch, Victor Kolev, John D. Martin, Mariano Phielipp, Chelsea Finn(参考訳) 本研究では,ロボットタスクのリアルな文脈における高次元観察による強化学習のためのオフライン事前学習とオンライン微調整の問題について検討する。 最近のオフラインモデルフリーアプローチでは、データ収集ポリシーよりもエージェントのパフォーマンスを改善するか、新しいタスクに適応するか、オンラインの微調整に成功している。 同時に、モデルベースのRLアルゴリズムは、サンプル効率とそれらが解決できるタスクの複雑さを著しく向上させたが、微調整環境では未利用のままである。 本研究では,既存のモデルベースオフラインRL法は,分布シフトやオフダイナミックスデータ,非定常報酬といった問題により,高次元領域におけるオフライン-オンラインファインチューニングには適さないと論じる。 本稿では,モデルに基づく価値拡大と政策の定式化を通じて,事前データを効率的に再利用できるオンポリシーモデルに基づく手法を提案する。 このアプローチはmetaworldベンチマークやfranka kitchen robot manipulation environmentのタスクを画像から完全に解決することに成功した。 我々の知る限りでは、motoはピクセルからこの環境を解決する最初の方法である。

We study the problem of offline pre-training and online fine-tuning for reinforcement learning from high-dimensional observations in the context of realistic robot tasks. Recent offline model-free approaches successfully use online fine-tuning to either improve the performance of the agent over the data collection policy or adapt to novel tasks. At the same time, model-based RL algorithms have achieved significant progress in sample efficiency and the complexity of the tasks they can solve, yet remain under-utilized in the fine-tuning setting. In this work, we argue that existing model-based offline RL methods are not suitable for offline-to-online fine-tuning in high-dimensional domains due to issues with distribution shifts, off-dynamics data, and non-stationary rewards. We propose an on-policy model-based method that can efficiently reuse prior data through model-based value expansion and policy regularization, while preventing model exploitation by controlling epistemic uncertainty. We find that our approach successfully solves tasks from the MetaWorld benchmark, as well as the Franka Kitchen robot manipulation environment completely from images. To the best of our knowledge, MOTO is the first method to solve this environment from pixels.
翻訳日:2024-01-09 19:25:36 公開日:2024-01-06
# バスファクター分析を用いたオープンソースソフトウェアプロジェクトの取り組み

Guiding Effort Allocation in Open-Source Software Projects Using Bus Factor Analysis ( http://arxiv.org/abs/2401.03303v1 )

ライセンス: Link先を確認
Aliza Lisan, Boyana Norris(参考訳) オープンソースプロジェクトが直面する重要な問題は、主要な人材がプロジェクトを離れるリスクである。 このリスクは、長い間開発が続けられ、開発チームが成長してきた大規模プロジェクトで悪化します。 このリスクを定量化するひとつの方法は、プロジェクトに関する知識の集中度を測定することだ。 正式にはプロジェクトのバスファクタ(BF)と呼ばれ、"プロジェクトが進行できないようにするのに無力になる必要のある主要な開発者の数"と定義されている。 提案したBF計算アルゴリズムのほとんどは、コミット数に基づいて、開発者のファイルの知識を測定する。 本研究では,コードの変更行数(locc)やコード行数のコサイン差(change-size-cos)などのメトリクスを用いてbfを計算する。 CSTアルゴリズムとRIGアルゴリズム(git-blame-based)を用いて、これらのメトリクスをオープンソースの5つのGitHubプロジェクトでBF計算に使用します。 また,近年最も活発な開発が見られたプロジェクトサブディレクトリ上でbfを算出する。 最後に,2つのアルゴリズムの精度,結果の類似性,実行時間,時間経過に伴うBF値の傾向を比較した。

A critical issue faced by open-source software projects is the risk of key personnel leaving the project. This risk is exacerbated in large projects that have been under development for a long time and experienced growth in their development teams. One way to quantify this risk is to measure the concentration of knowledge about the project among its developers. Formally known as the Bus Factor (BF) of a project and defined as 'the number of key developers who would need to be incapacitated to make a project unable to proceed'. Most of the proposed algorithms for BF calculation measure a developer's knowledge of a file based on the number of commits. In this work, we propose using other metrics like lines of code changes (LOCC) and cosine difference of lines of code (change-size-cos) to calculate the BF. We use these metrics for BF calculation for five open-source GitHub projects using the CST algorithm and the RIG algorithm, which is git-blame-based. Moreover, we calculate the BF on project sub-directories that have seen the most active development recently. Lastly, we compare the results of the two algorithms in accuracy, similarity in results, execution time, and trends in BF values over time.
翻訳日:2024-01-09 19:25:17 公開日:2024-01-06
# 行動のリアリズム:yolov8とdeitを用いた医用画像からの脳腫瘍の異常認識

Realism in Action: Anomaly-Aware Diagnosis of Brain Tumors from Medical Images Using YOLOv8 and DeiT ( http://arxiv.org/abs/2401.03302v1 )

ライセンス: Link先を確認
Seyed Mohammad Hossein Hashemi, Leila Safari, Amirhossein Dadashzade Taromi(参考訳) 医学の分野では、画像からの信頼できる脳腫瘍の検出と分類は、患者集団内の腫瘍が多様であることから、依然として大きな課題である。 したがって、異常なシナリオで腫瘍を検出する能力は、タイムリーな介入と患者の予後を改善するのに最重要である。 本研究は,脳腫瘍の診断・分類に深層学習(DL)技術を活用することでこの問題に対処する。 NBML(National Brain Mapping Lab)は、30の腫瘍患者と51の正常患者を含む81の患者を対象とする。 検出および分類パイプラインは、2つの連続タスクに分割される。 検出フェーズは、画像サンプル数と各クラスの患者数を、現実のシナリオに対応するために異常分布(腫瘍1個につき9個正常)に変更するために、包括的なデータ分析と前処理を含む。 次に、テストのための共通の評価基準に加えて、モデルの現実的な評価に焦点をあて、患者から患者へ(ptp)と呼ばれる新しいパフォーマンス評価方法を採用した。 検出段階では,腫瘍領域を検出するためにyolov8n検出モデルを微調整した。 その後のテストと評価は、共通評価メトリクスとPTPメトリクスの両方で競合性能を得た。 さらに,データ高能率画像変換器(DeiT)モジュールを用いて,微調整されたResNet152のViTモデルを分類段階の教師として蒸留した。 このアプローチは、信頼できる腫瘍の検出と分類において有望な進歩を示し、現実の医療画像シナリオにおける腫瘍診断の潜在的な進歩を提供する。

In the field of medical sciences, reliable detection and classification of brain tumors from images remains a formidable challenge due to the rarity of tumors within the population of patients. Therefore, the ability to detect tumors in anomaly scenarios is paramount for ensuring timely interventions and improved patient outcomes. This study addresses the issue by leveraging deep learning (DL) techniques to detect and classify brain tumors in challenging situations. The curated data set from the National Brain Mapping Lab (NBML) comprises 81 patients, including 30 Tumor cases and 51 Normal cases. The detection and classification pipelines are separated into two consecutive tasks. The detection phase involved comprehensive data analysis and pre-processing to modify the number of image samples and the number of patients of each class to anomaly distribution (9 Normal per 1 Tumor) to comply with real world scenarios. Next, in addition to common evaluation metrics for the testing, we employed a novel performance evaluation method called Patient to Patient (PTP), focusing on the realistic evaluation of the model. In the detection phase, we fine-tuned a YOLOv8n detection model to detect the tumor region. Subsequent testing and evaluation yielded competitive performance both in Common Evaluation Metrics and PTP metrics. Furthermore, using the Data Efficient Image Transformer (DeiT) module, we distilled a Vision Transformer (ViT) model from a fine-tuned ResNet152 as a teacher in the classification phase. This approach demonstrates promising strides in reliable tumor detection and classification, offering potential advancements in tumor diagnosis for real-world medical imaging scenarios.
翻訳日:2024-01-09 19:24:58 公開日:2024-01-06
# サンプル効率の良いオフライン強化学習について:データ多様性、後方サンプリングなど

On Sample-Efficient Offline Reinforcement Learning: Data Diversity, Posterior Sampling, and Beyond ( http://arxiv.org/abs/2401.03301v1 )

ライセンス: Link先を確認
Thanh Nguyen-Tang and Raman Arora(参考訳) オフライン強化学習(Local reinforcement learning, RL)として知られる, 逐次的意思決定のための歴史的データセットからのサンプル効率学習を促進するものを理解することを目的とする。 さらに,(値)関数近似を活用しながらサンプル効率を楽しむアルゴリズムにも興味を持っている。 本稿では,これらの基本的な質問について述べる。 (i)オフラインrlにおける以前のカバレッジ尺度の概念を仮定したデータ多様性の概念の提案 (2) この概念を用いて、バージョン空間(VS)、正規化最適化(RO)、後続サンプリング(PS)に基づくオフラインRLアルゴリズムの3つの異なるクラスを統一する。 標準仮定の下では,VS-based, RO-based, PS-basedアルゴリズムにより, 有限および線形モデルクラスに対する最先端の準最適境界を回復し, サンプル効率を得る。 この結果は、以前の研究がVSベースのアルゴリズムと比較してROベースのアルゴリズムの好ましくないサンプルの複雑さを示唆しているのに対して、後続サンプリングは、その爆発的な性質からオフラインRLではまれである。 特に,提案するオフラインrlのためのモデルフリーpsベースアルゴリズムは{novel}であり,自然界において{frequentist}(すなわち最悪の場合)である。

We seek to understand what facilitates sample-efficient learning from historical datasets for sequential decision-making, a problem that is popularly known as offline reinforcement learning (RL). Further, we are interested in algorithms that enjoy sample efficiency while leveraging (value) function approximation. In this paper, we address these fundamental questions by (i) proposing a notion of data diversity that subsumes the previous notions of coverage measures in offline RL and (ii) using this notion to {unify} three distinct classes of offline RL algorithms based on version spaces (VS), regularized optimization (RO), and posterior sampling (PS). We establish that VS-based, RO-based, and PS-based algorithms, under standard assumptions, achieve \emph{comparable} sample efficiency, which recovers the state-of-the-art sub-optimality bounds for finite and linear model classes with the standard assumptions. This result is surprising, given that the prior work suggested an unfavorable sample complexity of the RO-based algorithm compared to the VS-based algorithm, whereas posterior sampling is rarely considered in offline RL due to its explorative nature. Notably, our proposed model-free PS-based algorithm for offline RL is {novel}, with sub-optimality bounds that are {frequentist} (i.e., worst-case) in nature.
翻訳日:2024-01-09 19:24:31 公開日:2024-01-06
# コンクリート橋梁構造検査のための構造異常の多視点3次元インスタンスセグメンテーション

Multi-View 3D Instance Segmentation of Structural Anomalies for Enhanced Structural Inspection of Concrete Bridges ( http://arxiv.org/abs/2401.03298v1 )

ライセンス: Link先を確認
Christian Benz, Volker Rodehorst(参考訳) 効果的な構造損傷評価には、3次元モデルの世界において損傷の事例を局所化する必要がある。 データ不足のため、構造的異常の検出は3D空間で直接学習したり実行したりすることはできない。 本研究では,画像レベルの検出モデルの優れた性能を用いて,3次元空間における異常のインスタンスをセグメント化する3段階アプローチを提案する。 検出段階では、画像レベルでセマンティックセグメンテーション予測が生成される。 マッピングステージは、画像レベルの予測を各ポイントクラウドに転送する。 抽出段階では、セグメント化された点雲から3D異常インスタンスを抽出する。 雲の収縮は亀裂を中軸表現に変換するために用いられる。 基底異常の場合、バウンディングポリゴンはアルファ形状によって抽出される。 このアプローチはクラスクラック,スポーリング,腐食を対象とし,3つの画像レベルのセグメンテーションモデルtopocrack,nnu-net, detectionhmaを比較した。 耐ローカライゼーション性は4cmであり,9割以上のIoUはひび割れや腐食,スポーリングでは41%であり,特に難易度の高いクラスである。 APで測定されたインスタンスレベルの検出はクラックとスポーリングで約45%、腐食で約73%である。

For effective structural damage assessment, the instances of damages need to be localized in the world of a 3D model. Due to a lack of data, the detection of structural anomalies can currently not be directly learned and performed in 3D space. In this work, a three-stage approach is presented, which uses the good performance of detection models on image level to segment instances of anomalies in the 3D space. In the detection stage, semantic segmentation predictions are produced on image level. The mapping stage transfers the image-level prediction onto the respective point cloud. In the extraction stage, 3D anomaly instances are extracted from the segmented point cloud. Cloud contraction is used to transform cracks into their medial axis representation. For areal anomalies the bounding polygon is extracted by means of alpha shapes. The approach covers the classes crack, spalling, and corrosion and the three image-level segmentation models TopoCrack, nnU-Net, and DetectionHMA are compared. Granted a localization tolerance of 4cm, IoUs of over 90% can be achieved for crack and corrosion and 41% for spalling, which appears to be a specifically challenging class. Detection on instance-level measured in AP is about 45% for crack and spalling and 73% for corrosion.
翻訳日:2024-01-09 19:24:04 公開日:2024-01-06
# 無人航空機によるリアルタイム人体検知

Real Time Human Detection by Unmanned Aerial Vehicles ( http://arxiv.org/abs/2401.03275v1 )

ライセンス: Link先を確認
Walid Guettala and Ali Sayah and Laid Kahloul and Ahmed Tibermacine(参考訳) コンピュータビジョンとリモートセンシングにおける最も重要な問題の1つは、画像中のさまざまなものの特定のカテゴリを特定するオブジェクト検出である。 公安のための重要な2つのデータソースは、無人航空機(UAV)が生成する、熱赤外(TIR)リモートセンシングマルチシナリオ写真とビデオである。 ターゲットの小型化,複雑なシーン情報,視聴可能なビデオに対する低解像度化,ラベル付きデータセットやトレーニングモデルのデジェストなどにより,オブジェクト検出は依然として困難である。 本研究では,写真やビデオのためのUAV TIRオブジェクト検出フレームワークを提案する。 地上のTIR写真やビデオを集めるために使用されるFLIRカメラは、CNNアーキテクチャに基づいた'You Only Look Once' (YOLO)モデルを作成するために使用される。 その結果,人体検出の精度は IOU (Intersection over Union) = 0.5 で 72.5\% であり,技術モデル \cite{1} のYOLOv7 (YOLO version 7) 状態を用い,検出速度は毎秒161フレーム (FPS/秒) であった。 YOLOアーキテクチャの有用性をアプリケーションで示し、様々なUAVの観測角度から、YOLOv7モデルの下でUAV TIRビデオ中の人々のクロス検出性能を評価する。 本研究は,深層学習モデルを用いたTIR画像やビデオからの物体検出の質的,定量的な評価を支援する。

One of the most important problems in computer vision and remote sensing is object detection, which identifies particular categories of diverse things in pictures. Two crucial data sources for public security are the thermal infrared (TIR) remote sensing multi-scenario photos and videos produced by unmanned aerial vehicles (UAVs). Due to the small scale of the target, complex scene information, low resolution relative to the viewable videos, and dearth of publicly available labeled datasets and training models, their object detection procedure is still difficult. A UAV TIR object detection framework for pictures and videos is suggested in this study. The Forward-looking Infrared (FLIR) cameras used to gather ground-based TIR photos and videos are used to create the ``You Only Look Once'' (YOLO) model, which is based on CNN architecture. Results indicated that in the validating task, detecting human object had an average precision at IOU (Intersection over Union) = 0.5, which was 72.5\%, using YOLOv7 (YOLO version 7) state of the art model \cite{1}, while the detection speed around 161 frames per second (FPS/second). The usefulness of the YOLO architecture is demonstrated in the application, which evaluates the cross-detection performance of people in UAV TIR videos under a YOLOv7 model in terms of the various UAVs' observation angles. The qualitative and quantitative evaluation of object detection from TIR pictures and videos using deep-learning models is supported favorably by this work.
翻訳日:2024-01-09 19:23:44 公開日:2024-01-06
# 病理組織学における画像検索エンジンの解析と検証

Analysis and Validation of Image Search Engines in Histopathology ( http://arxiv.org/abs/2401.03271v1 )

ライセンス: Link先を確認
Isaiah Lahr, Saghir Alfasly, Peyman Nejat, Jibran Khan, Luke Kottom, Vaishnavi Kumbhar, Areej Alsaafin, Abubakr Shafique, Sobhan Hemati, Ghazal Alabtah, Nneka Comfere, Dennis Murphee, Aaron Mangold, Saba Yasir, Chady Meroueh, Lisa Boardman, Vijay H. Shah, Joaquin J. Garcia, H.R. Tizhoosh(参考訳) 病理組織学および病理組織学画像アーカイブにおける類似画像の検索は、トリアージや診断から予後や予測に至るまで、さまざまな目的の患者マッチングを支援する重要な課題である。 全スライド画像(WSI)は、ガラススライドに装着された組織標本の詳細なデジタル表現である。 WSI と WSI のマッチングは、患者マッチングのクリティカルな方法として機能する。 本稿では,4種類の検索手法(BoVW, Yottixel, SISH, RetCCL, およびそれらの潜在的な変種について,広範囲に解析および検証を行った。 アルゴリズムと構造を分析し,その性能を評価する。 この評価には、4つの内部データセット(1269ドル患者)と3つの公開データセット(127ドル患者)を使用し、5つの主要サイトにわたる380ドルのクラス/サブタイプから合計20万ドル以上をパッチした。 例えば、BoVWのような検索エンジンは、顕著な効率と速度を示すが、精度は低い。 逆に、Yottixelのような検索エンジンは効率とスピードを示し、適度に正確な結果を提供する。 SISHを含む最近の提案では、非効率性を示し、一貫性のない結果をもたらす一方、RetCCLのような代替案は精度と効率の両方において不十分である。 病理画像検索における精度と保存要件の2つの側面に対処するためには,さらなる研究が必要である。

Searching for similar images in archives of histology and histopathology images is a crucial task that may aid in patient matching for various purposes, ranging from triaging and diagnosis to prognosis and prediction. Whole slide images (WSIs) are highly detailed digital representations of tissue specimens mounted on glass slides. Matching WSI to WSI can serve as the critical method for patient matching. In this paper, we report extensive analysis and validation of four search methods bag of visual words (BoVW), Yottixel, SISH, RetCCL, and some of their potential variants. We analyze their algorithms and structures and assess their performance. For this evaluation, we utilized four internal datasets ($1269$ patients) and three public datasets ($1207$ patients), totaling more than $200,000$ patches from $38$ different classes/subtypes across five primary sites. Certain search engines, for example, BoVW, exhibit notable efficiency and speed but suffer from low accuracy. Conversely, search engines like Yottixel demonstrate efficiency and speed, providing moderately accurate results. Recent proposals, including SISH, display inefficiency and yield inconsistent outcomes, while alternatives like RetCCL prove inadequate in both accuracy and efficiency. Further research is imperative to address the dual aspects of accuracy and minimal storage requirements in histopathological image search.
翻訳日:2024-01-09 19:23:14 公開日:2024-01-06
# 空間相関ボソニック浴に結合した開量子系における予熱

Prethermalization in an open quantum system coupled to a spatially correlated Bosonic bath ( http://arxiv.org/abs/2401.03269v1 )

ライセンス: Link先を確認
Saptarshi Saha and Rangeet Bhattacharyya(参考訳) ほぼ可積分な孤立量子多体系は、遅熱前に準定常前熱状態に達する。 ここでは、オープン量子システムの設定における特定の例を再考する。 空間的に相関したボゾン浴に結合した非相互作用原子の集合について検討した。 この結果から,システムの可積分性は相関長に依存することが示唆された。 この長さが原子間の距離よりもはるかに大きい場合、そのような系はほぼ可積分な開量子系として振る舞う。 この場合の新興予熱状態の性質、すなわち、状態の寿命、既存の準保存量の広範な数、一般化されたギブス状態の出現、フォン・ノイマンエントロピーのスケーリングなどについて研究する。 前熱状態の場合、エントロピーの最大成長は原子の数と対数的であるのに対し、そのような成長は最終定常状態(この場合ギブス状態)に対して線形である。 最後に、そのような予熱状態が量子エンタングルメント記憶装置にどのように重要な応用をもたらすかについて論じる。

A nearly-integrable isolated quantum many-body system reaches a quasi-stationary prethermal state before a late thermalization. Here, we revisit a particular example in the settings of an open quantum system. We consider a collection of non-interacting atoms coupled to a spatially correlated bosonic bath characterized by a bath correlation length. Our result implies that the integrability of the system depends on such a correlation length. If this length is much larger than the distance between the atoms, such a system behaves as a nearly integrable open quantum system. We study the properties of the emerging prethermal state for this case, i.e., the state's lifetime, the extensive numbers of existing quasi-conserved quantities, the emergence of the generalized Gibbs state, and the scaling of von Neumann entropy, etc. We find that for the prethermal state, the maximum growth of entropy is logarithmic with the number of atoms, whereas such growth is linear for the final steady state, which is the Gibbs state in this case. Finally, we discuss how such prethermal states can have significant applications in quantum entanglement storage devices.
翻訳日:2024-01-09 19:22:50 公開日:2024-01-06
# 複雑な環境における自律ナビゲーション

Autonomous Navigation in Complex Environments ( http://arxiv.org/abs/2401.03267v1 )

ライセンス: Link先を確認
Andrew Gerstenslager, Jomol Lewis, Liam McKenna, Poorva Patel(参考訳) 本稿では,CNN-DNNネットワーク融合のシミュレーション環境におけるロボットナビゲーションコントローラ構築への応用について検討する。 シミュレーションされた環境は、未知の洞窟システム内の目標を自律エージェントが発見するように、地下の救助状況をモデル化するために構築される。 シミュレーション学習は、制御アルゴリズムをトレーニングするために使用され、LiDARとカメラデータを使用して空間をナビゲートし、ゴールを見つける。 トレーニングされたモデルはモンテカルロを用いて堅牢性をテストする。

This paper explores the application of CNN-DNN network fusion to construct a robot navigation controller within a simulated environment. The simulated environment is constructed to model a subterranean rescue situation, such that an autonomous agent is tasked with finding a goal within an unknown cavernous system. Imitation learning is used to train the control algorithm to use LiDAR and camera data to navigate the space and find the goal. The trained model is then tested for robustness using Monte-Carlo.
翻訳日:2024-01-09 19:22:31 公開日:2024-01-06
# 天文学におけるスペクトルと源数分布を共同で抽出するディープラーニングフレームワーク

A deep learning framework for jointly extracting spectra and source-count distributions in astronomy ( http://arxiv.org/abs/2401.03336v1 )

ライセンス: Link先を確認
Florian Wolf, Florian List, Nicholas L. Rodd, Oliver Hahn(参考訳) 天文学的な観測は通常3次元の地図を提供し、観測されたフラックスの分布を(1)天球の2つの角度と(2)エネルギー/周波数で符号化する。 このような地図に関する重要な課題は、個別に検出できない点源の個体群を統計的に特徴付けることである。 単一のダイム源の性質は弱い制約を受けるため、その代わりに人口全体を一般に研究し、その輝度の関数としてソースの数密度を記述するソース数分布(source-count distribution, scd)を推測する。 SCDを復元するための統計的および機械学習手法は存在するが、通常はフラックスのエネルギー分布に関連するスペクトル情報を無視する。 本稿では,異なる放射成分のスペクトルと点源集団のSCDを協調的に再構成する深層学習フレームワークを提案する。 概念実証の例では,シミュレーションマップから複雑な形状のスペクトルやSCDを正確に抽出する。

Astronomical observations typically provide three-dimensional maps, encoding the distribution of the observed flux in (1) the two angles of the celestial sphere and (2) energy/frequency. An important task regarding such maps is to statistically characterize populations of point sources too dim to be individually detected. As the properties of a single dim source will be poorly constrained, instead one commonly studies the population as a whole, inferring a source-count distribution (SCD) that describes the number density of sources as a function of their brightness. Statistical and machine learning methods for recovering SCDs exist; however, they typically entirely neglect spectral information associated with the energy distribution of the flux. We present a deep learning framework able to jointly reconstruct the spectra of different emission components and the SCD of point-source populations. In a proof-of-concept example, we show that our method accurately extracts even complex-shaped spectra and SCDs from simulated maps.
翻訳日:2024-01-09 19:11:57 公開日:2024-01-06
# 教師なしオンライン異常検出のための注意とオートエンコーダハイブリッドモデル

Attention and Autoencoder Hybrid Model for Unsupervised Online Anomaly Detection ( http://arxiv.org/abs/2401.03322v1 )

ライセンス: Link先を確認
Seyed Amirhossein Najafi, Mohammad Hassan Asemani, Peyman Setoodeh(参考訳) 本稿では,時系列における教師なしオンライン異常検出のためのハイブリッドアテンションとオートエンコーダ(AE)モデルを提案する。 オートエンコーダは局所的な構造パターンを短い埋め込みで捉え、アテンションモデルは長期的特徴を学習し、位置符号化による並列計算を容易にする。 提案したハイブリッドモデルは,時系列異常検出において,初めて注目とオートエンコーダを組み合わせた手法である。 ディープトランスフォーマモデルに似た注意に基づくメカニズムを採用しており、オートエンコーダの潜在空間における次のステップウィンドウを予測するための重要なアーキテクチャ変更が行われている。 このモデルは、異常検出のための検証データセットからのしきい値を利用し、エラーの最初の統計的モーメントを分析し、検証データセットに依存することなく精度を向上させる方法を提案する。 様々な実世界のベンチマークデータセットの評価と、他の確立されたモデルとの比較は、異常検出における提案モデルの有効性を確認した。

This paper introduces a hybrid attention and autoencoder (AE) model for unsupervised online anomaly detection in time series. The autoencoder captures local structural patterns in short embeddings, while the attention model learns long-term features, facilitating parallel computing with positional encoding. Unique in its approach, our proposed hybrid model combines attention and autoencoder for the first time in time series anomaly detection. It employs an attention-based mechanism, akin to the deep transformer model, with key architectural modifications for predicting the next time step window in the autoencoder's latent space. The model utilizes a threshold from the validation dataset for anomaly detection and introduces an alternative method based on analyzing the first statistical moment of error, improving accuracy without dependence on a validation dataset. Evaluation on diverse real-world benchmark datasets and comparing with other well-established models, confirms the effectiveness of our proposed model in anomaly detection.
翻訳日:2024-01-09 19:11:39 公開日:2024-01-06
# PIXAR:Pixel空間における自動回帰言語モデリング

PIXAR: Auto-Regressive Language Modeling in Pixel Space ( http://arxiv.org/abs/2401.03321v1 )

ライセンス: Link先を確認
Yintao Tai, Xiyang Liao, Alessandro Suglia, Antonio Vergari(参考訳) 近年の研究では、ピクセル表現を直接操作し、描画されたテキストのマスク画像パッチを再構成するエンコーダデコーダモデルとして実装されるオープン語彙大言語モデル(LLM)を構築する可能性を示している。 しかし、これらのピクセルベースのllmはタスクの自動エンコーディングに限定され、画像として新しいテキストを生成することができない。 そのため、オープンソースの言語タスクや生成言語タスクには使用できない。 本稿では,この制限を克服し,入力文と出力文の両方の既定語彙に依存しない最初の画素ベース自己回帰llmであるpixarを導入する。 デコーダのみで構成されるpixarは、テキスト表現学習性能を従来のエンコーダ-デコーダモデルと同等に保ちながら、自由形式の生成タスクに答えることができる。 さらに,不平文を画像として自己回帰的に生成し,これを通常の最大可能性目標にリンクするという課題を浮き彫りにする。 本稿では,PIXARの可読性と性能を向上し,短いテキスト生成タスクにおいてGPT2に匹敵する簡易な対人事前学習を提案する。 これにより、自由形式の生成タスクに使用可能なオープンな語彙 LLM の構築方法が舗装され、これらの課題に対して通常のシンボル入力表現 -- トークンとしてのテキスト -- の必要性が疑問視される。

Recent works showed the possibility of building open-vocabulary large language models (LLMs) that directly operate on pixel representations and are implemented as encoder-decoder models that reconstruct masked image patches of rendered text. However, these pixel-based LLMs are limited to autoencoding tasks and cannot generate new text as images. As such, they cannot be used for open-answer or generative language tasks. In this work, we overcome this limitation and introduce PIXAR, the first pixel-based autoregressive LLM that does not rely on a pre-defined vocabulary for both input and output text. Consisting of only a decoder, PIXAR can answer free-form generative tasks while keeping the text representation learning performance on par with previous encoder-decoder models. Furthermore, we highlight the challenges to autoregressively generate non-blurred text as images and link this to the usual maximum likelihood objective. We propose a simple adversarial pretraining that significantly improves the readability and performance of PIXAR making it comparable to GPT2 on short text generation tasks. This paves the way to building open-vocabulary LLMs that are usable for free-form generative tasks and questions the necessity of the usual symbolic input representation -- text as tokens -- for these challenging tasks.
翻訳日:2024-01-09 19:11:23 公開日:2024-01-06
# テキスト駆動型モーション生成のための段階的合成

GUESS:GradUally Enriching SyntheSis for Text-Driven Human Motion Generation ( http://arxiv.org/abs/2401.02142v2 )

ライセンス: Link先を確認
Xuehao Gao, Yang Yang, Zhenyu Xie, Shaoyi Du, Zhongqian Sun, and Yang Wu(参考訳) 本稿では,GradUally Enriching SyntheSis(GUESSを略してGUESS)という戦略を生かした,テキスト駆動型人体動作合成のための新しいケースケード拡散型生成フレームワークを提案する。 この戦略は、詳細な骨格の体節を密接なセマンティックな近接でグループ化し、それらの関節群を1つの体節ノードに置き換えることで生成目標を設定する。 このような操作は、人間のポーズを複数の粒度レベルで粗く粗い骨格に再帰的に抽象化する。 抽象レベルが徐々に向上するにつれて、人間の動きはより簡潔で安定したものとなり、モーダル間の動き合成タスクに大いに恩恵をもたらす。 次に、テキスト駆動ヒトの動作合成問題全体を複数の抽象化レベルに分割し、カスケードされた潜在拡散モデルを用いて多段階生成フレームワークで解決する:初期生成器は、与えられたテキスト記述から最も粗い人間の動作推定を最初に生成し、その後、一連の連続生成器は、テキスト記述と、前回の合成結果に基づいて、動き詳細を徐々に強化する。 特に,提案する動的多条件融合機構と投機を更に統合し,与えられた文様条件の協調効果を動的にバランスさせ,異なる生成段階における粗い動きプロンプトを合成する。 大規模なデータセットに関する大規模な実験は、GUESSが既存の最先端手法よりも精度、現実性、多様性の点で大きなマージンで優れていることを検証している。 コードはhttps://github.com/Xuehao-Gao/GUESSで入手できる。

In this paper, we propose a novel cascaded diffusion-based generative framework for text-driven human motion synthesis, which exploits a strategy named GradUally Enriching SyntheSis (GUESS as its abbreviation). The strategy sets up generation objectives by grouping body joints of detailed skeletons in close semantic proximity together and then replacing each of such joint group with a single body-part node. Such an operation recursively abstracts a human pose to coarser and coarser skeletons at multiple granularity levels. With gradually increasing the abstraction level, human motion becomes more and more concise and stable, significantly benefiting the cross-modal motion synthesis task. The whole text-driven human motion synthesis problem is then divided into multiple abstraction levels and solved with a multi-stage generation framework with a cascaded latent diffusion model: an initial generator first generates the coarsest human motion guess from a given text description; then, a series of successive generators gradually enrich the motion details based on the textual description and the previous synthesized results. Notably, we further integrate GUESS with the proposed dynamic multi-condition fusion mechanism to dynamically balance the cooperative effects of the given textual condition and synthesized coarse motion prompt in different generation stages. Extensive experiments on large-scale datasets verify that GUESS outperforms existing state-of-the-art methods by large margins in terms of accuracy, realisticness, and diversity. Code is available at https://github.com/Xuehao-Gao/GUESS.
翻訳日:2024-01-09 11:27:49 公開日:2024-01-06
# LLMを理解する: トレーニングから推論への包括的概要

Understanding LLMs: A Comprehensive Overview from Training to Inference ( http://arxiv.org/abs/2401.02038v2 )

ライセンス: Link先を確認
Yiheng Liu, Hao He, Tianle Han, Xu Zhang, Mengyuan Liu, Jiaming Tian, Yutong Zhang, Jiaqi Wang, Xiaohui Gao, Tianyang Zhong, Yi Pan, Shaochen Xu, Zihao Wu, Zhengliang Liu, Xin Zhang, Shu Zhang, Xintao Hu, Tuo Zhang, Ning Qiang, Tianming Liu, Bao Ge(参考訳) ChatGPTの導入により、下流タスクに対処するためのLarge Language Models (LLM)の利用が大幅に増加した。 このコンテキストでは、コスト効率の高いトレーニングとデプロイメントに重点が置かれています。 LLMの低コストなトレーニングと展開は、将来の開発トレンドを表している。 本稿では,この新興トレンドに対応する大規模言語モデル学習技術と推論展開技術の進化を概観する。 トレーニングに関する議論には、データ前処理、トレーニングアーキテクチャ、事前トレーニングタスク、並列トレーニング、モデル微調整に関連する関連コンテンツなど、さまざまな側面が含まれている。 推論に関しては,モデル圧縮,並列計算,メモリスケジューリング,構造最適化などのトピックを取り上げている。 LLMの利用についても検討し、今後の開発に関する洞察を提供する。

The introduction of ChatGPT has led to a significant increase in the utilization of Large Language Models (LLMs) for addressing downstream tasks. There's an increasing focus on cost-efficient training and deployment within this context. Low-cost training and deployment of LLMs represent the future development trend. This paper reviews the evolution of large language model training techniques and inference deployment technologies aligned with this emerging trend. The discussion on training includes various aspects, including data preprocessing, training architecture, pre-training tasks, parallel training, and relevant content related to model fine-tuning. On the inference side, the paper covers topics such as model compression, parallel computation, memory scheduling, and structural optimization. It also explores LLMs' utilization and provides insights into their future development.
翻訳日:2024-01-09 11:26:52 公開日:2024-01-06
# 連続学習:ビデオ表現のための「忘れない勝利」サブネットワーク

Continual Learning: Forget-free Winning Subnetworks for Video Representations ( http://arxiv.org/abs/2312.11973v3 )

ライセンス: Link先を確認
Haeyong Kang, Jaehong Yoon, Sung Ju Hwang, and Chang D. Yoo(参考訳) 大規模で密集したネットワーク内で効率的なサブネットワークが存在することを強調する宝くじチケット仮説(lth)に触発され、様々な連続学習タスクにおいて、適切なスパーシティ条件下でのタスクパフォーマンスの観点から高いパフォーマンスの勝利サブネットワーク(wsn)が考慮される。 タスクインクリメンタルラーニング(TIL)のシナリオにおいて、既存のネットワークからの重みを利用して効率的な学習を実現する。 FSCIL(Few-Shot Class Incremental Learning)では、データサンプル不足時の過度な適合を防止するために、SoftNet(SoftNet)と呼ばれるWSNのバリエーションが設計されている。 さらに,ビデオインクリメンタルラーニング(VIL)では,WSN重みの疎再利用が検討されている。 WSNにおけるフーリエサブニューラル演算子(FSO)の使用について考察する。 ビデオのコンパクトエンコーディングを可能にし、様々な帯域で再利用可能なサブネットを識別する。 我々は、VIL、TIL、FSCILを含む継続学習のための異なるアーキテクチャフレームワークにFSOを統合した。 FSOの有効性を総合的に検証し,様々な畳み込み表現レベルでのタスク性能を著しく向上させた。 具体的には、FSOはTILおよびFSCILの高層性能とVILの低層性能を向上させる

Inspired by the Lottery Ticket Hypothesis (LTH), which highlights the existence of efficient subnetworks within larger, dense networks, a high-performing Winning Subnetwork (WSN) in terms of task performance under appropriate sparsity conditions is considered for various continual learning tasks. It leverages pre-existing weights from dense networks to achieve efficient learning in Task Incremental Learning (TIL) scenarios. In Few-Shot Class Incremental Learning (FSCIL), a variation of WSN referred to as the Soft subnetwork (SoftNet) is designed to prevent overfitting when the data samples are scarce. Furthermore, the sparse reuse of WSN weights is considered for Video Incremental Learning (VIL). The use of Fourier Subneural Operator (FSO) within WSN is considered. It enables compact encoding of videos and identifies reusable subnetworks across varying bandwidths. We have integrated FSO into different architectural frameworks for continual learning, including VIL, TIL, and FSCIL. Our comprehensive experiments demonstrate FSO's effectiveness, significantly improving task performance at various convolutional representational levels. Specifically, FSO enhances higher-layer performance in TIL and FSCIL and lower-layer performance in VIL
翻訳日:2024-01-09 11:25:35 公開日:2024-01-06