このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20231015となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 材料の自動改札
Automatic Bill of Materials ( http://arxiv.org/abs/2310.09742v1 ) ライセンス: Link先を確認 | Nicholas Boucher, Ross Anderson, | (参考訳) ソフトウェアサプライチェーンのセキュリティを確保するには、上流の依存関係を確実に識別する必要がある。
本稿では,コンパイル時にバイナリに依存性メタデータを埋め込む手法であるAutomatic Bill of Materials(ABOM)を提案する。
ABOMは開発者が依存関係の名前とバージョンを明示的に列挙する代わりに、個別の入力ソースコードファイルのハッシュをコンパイラが出力するバイナリに埋め込む。
ハッシュは圧縮ブルームフィルタ (Compressed Bloom Filters) に格納される。これは空間効率の高い確率的データ構造で、偽陰性の可能性なしに依存関係の存在をクエリできる。
エコシステム全体で活用されれば、ABOMは、現実世界の言語に依存しないソフトウェアで高速サプライチェーン攻撃検出のための、ゼロタッチで後方互換性のあるドロップインソリューションを提供する。
Ensuring the security of software supply chains requires reliable identification of upstream dependencies. We present the Automatic Bill of Materials, or ABOM, a technique for embedding dependency metadata in binaries at compile time. Rather than relying on developers to explicitly enumerate dependency names and versions, ABOM embeds a hash of each distinct input source code file into the binary emitted by a compiler. Hashes are stored in Compressed Bloom Filters, highly space-efficient probabilistic data structures, which enable querying for the presence of dependencies without the possibility of false negatives. If leveraged across the ecosystem, ABOMs provide a zero-touch, backwards-compatible, drop-in solution for fast supply chain attack detection in real-world, language-independent software. | 翻訳日:2024-03-19 02:23:27 公開日:2023-10-15 |
# パケットデータからのフローリカバリの改善
Improved Flow Recovery from Packet Data ( http://arxiv.org/abs/2310.09834v1 ) ライセンス: Link先を確認 | Anthony Kenyon, David Elizondo, Lipika Deka, | (参考訳) ネットワーク侵入検出で使用されるような典型的なイベントデータセットは、数十万、時には数百万の離散パケットイベントで構成されている。
これらのデータセットは、自然界において高次元、ステートフル、タイムシリーズであり、複雑な局所的および時間的特徴関連を持つ傾向がある。
パケットデータは、パケットフローレコードのような低次元の要約データに抽象化することができ、パケットデータの時間的複雑さの一部を緩和でき、より少ない技術による特徴サブセットを作成することができる。
このデータは、機械学習とサイバー脅威検出技術のためのトレーニングデータとして有用である。
データはリアルタイムで、または過去のパケットトレースアーカイブから収集することができる。
本稿では,パケットデータからフローレコードと要約メタデータを高精度かつ堅牢に抽出する方法に焦点を当てる。
私たちは、現在のメソッドの制限、それらがデータセットに与える影響、そしてこれらの欠陥が学習モデルにどのように影響するかを特定します。
最後に,現状改善のための手法を提案し,本研究を支援するための概念実証ツールを提案する。
Typical event datasets such as those used in network intrusion detection comprise hundreds of thousands, sometimes millions, of discrete packet events. These datasets tend to be high dimensional, stateful, and time-series in nature, holding complex local and temporal feature associations. Packet data can be abstracted into lower dimensional summary data, such as packet flow records, where some of the temporal complexities of packet data can be mitigated, and smaller well-engineered feature subsets can be created. This data can be invaluable as training data for machine learning and cyber threat detection techniques. Data can be collected in real-time, or from historical packet trace archives. In this paper we focus on how flow records and summary metadata can be extracted from packet data with high accuracy and robustness. We identify limitations in current methods, how they may impact datasets, and how these flaws may impact learning models. Finally, we propose methods to improve the state of the art and introduce proof of concept tools to support this work. | 翻訳日:2024-03-19 02:23:27 公開日:2023-10-15 |
# Tigrigna に対する大語彙自発音声認識 Large Vocabulary Spontaneous Speech Recognition for Tigrigna ( http://arxiv.org/abs/2402.04254v1 ) ライセンス: Link先を確認 | Ataklti Kahsu, Solomon Teferra | (参考訳) 本論文は, 言語モデルの開発にスリムツールが用いられる間, カーネギーメロン大学自動音声認識開発ツール (sphinx) を用いて音声認識システムの音響モデルを開発した。
キーワード自動音声認識ティグリグナ言語 This thesis proposes and describes a research attempt at designing and developing a speaker independent spontaneous automatic speech recognition system for Tigrigna The acoustic model of the Speech Recognition System is developed using Carnegie Mellon University Automatic Speech Recognition development tool (Sphinx) while the SRIM tool is used for the development of the language model. Keywords Automatic Speech Recognition Tigrigna language | 翻訳日:2024-02-11 15:27:59 公開日:2023-10-15 |
# インド・コルカタにおける2型糖尿病危険因子のジェンダーベース比較研究 : 機械学習によるアプローチ Gender-Based Comparative Study of Type 2 Diabetes Risk Factors in Kolkata, India: A Machine Learning Approach ( http://arxiv.org/abs/2311.10731v1 ) ライセンス: Link先を確認 | Rahul Jain, Anoushka Saha, Gourav Daga, Durba Bhattacharya, Madhura Das Gupta, Sourav Chowdhury, Suparna Roychowdhury | (参考訳) 2型糖尿病は世界的な健康上の問題であり、そのリスク要因を総合的に評価する必要がある。
本研究は,インド・西ベンガル州コルカタの男性および女性における2型糖尿病発症リスクに対する年齢,ライフスタイル,BMI,ウェイトの高さの差があるかどうかを,コルカタのベル・ヴュー診療所外来で調査した。
糖尿病のリスクを予測するために、ロジスティック回帰、ランダムフォレスト、サポートベクター分類器などのさまざまな機械学習モデルが使用され、異なる予測器に基づいてパフォーマンスを比較した。
以上の結果から,男女ともに糖尿病の発症リスクが有意に増加することが示唆された。
運動とBMIは男性2型糖尿病のリスクに有意な影響が認められたが、女性2人とも統計的に重要でないことが判明した。
男女ともに,WhtRに基づく予測モデルは,BMIによる予測よりもリスク評価において優れた性能を示した。
本研究は,2型糖尿病のリスクファクターにおける性差を浮き彫りにして,より標的とした医療介入や公衆衛生戦略に活用できる有用な洞察を提供する。 Type 2 diabetes mellitus represents a prevalent and widespread global health concern, necessitating a comprehensive assessment of its risk factors. This study aimed towards learning whether there is any differential impact of age, Lifestyle, BMI and Waist to height ratio on the risk of Type 2 diabetes mellitus in males and females in Kolkata, West Bengal, India based on a sample observed from the out-patient consultation department of Belle Vue Clinic in Kolkata. Various machine learning models like Logistic Regression, Random Forest, and Support Vector Classifier, were used to predict the risk of diabetes, and performance was compared based on different predictors. Our findings indicate a significant age-related increase in risk of diabetes for both males and females. Although exercising and BMI was found to have significant impact on the risk of Type 2 diabetes in males, in females both turned out to be statistically insignificant. For both males and females, predictive models based on WhtR demonstrated superior performance in risk assessment compared to those based on BMI. This study sheds light on the gender-specific differences in the risk factors for Type 2 diabetes, offering valuable insights that can be used towards more targeted healthcare interventions and public health strategies. | 翻訳日:2024-01-15 15:57:30 公開日:2023-10-15 |
# データ分析を自動化するための軽量知識表現 Lightweight Knowledge Representations for Automating Data Analysis ( http://arxiv.org/abs/2311.12848v1 ) ライセンス: Link先を確認 | Marko Sterbentz, Cameron Barrie, Donna Hooshmand, Shubham Shahi, Abhratanu Dutta, Harper Pack, Andong Li Zhao, Andrew Paley, Alexander Einarsson, Kristian Hammond | (参考訳) データサイエンスの主な目標は、データから有意義な情報を導き出すことである。
これを実現するために、データサイエンティストは分析可能性の空間を開発し、ドメインの知識、利用可能なデータ、それらのデータ上で実行可能な操作、データに供給されるアルゴリズムやモデル、そしてこれらすべてのファセットがどのように絡み合うかを使って、その情報目標に達する。
この作業では、データサイエンスパイプラインの重要な側面であるデータ分析を自動化するための第一歩を踏み出します。
本稿では、ドメインとデータにまたがるデータ分析操作の拡張可能な分類法と、この分析分類を実際のデータに関連付けるドメイン固有知識の定式化方法を提案する。
8つの異なるドメインに対するドメインラベリングと合わせて、回答可能な質問と関連する分析計画のスペースを自動的に生成するシステムを実装して、分析分類の機能を検証します。
このようにして、複雑な解析と検索を可能にするデータ上の情報空間を生成し、完全な自動データ解析の道を開く。 The principal goal of data science is to derive meaningful information from data. To do this, data scientists develop a space of analytic possibilities and from it reach their information goals by using their knowledge of the domain, the available data, the operations that can be performed on those data, the algorithms/models that are fed the data, and how all of these facets interweave. In this work, we take the first steps towards automating a key aspect of the data science pipeline: data analysis. We present an extensible taxonomy of data analytic operations that scopes across domains and data, as well as a method for codifying domain-specific knowledge that links this analytics taxonomy to actual data. We validate the functionality of our analytics taxonomy by implementing a system that leverages it, alongside domain labelings for 8 distinct domains, to automatically generate a space of answerable questions and associated analytic plans. In this way, we produce information spaces over data that enable complex analyses and search over this data and pave the way for fully automated data analysis. | 翻訳日:2024-01-15 15:21:11 公開日:2023-10-15 |
# デジタルワールドのセキュア:人工知能(AI)対応マルウェアと侵入検知によるスマートインフラストラクチャとデジタル産業の保護 Securing the Digital World: Protecting smart infrastructures and digital industries with Artificial Intelligence (AI)-enabled malware and intrusion detection ( http://arxiv.org/abs/2401.01342v1 ) ライセンス: Link先を確認 | Marc Schmitt | (参考訳) 過去数十年は前例のない技術的進歩によって特徴づけられ、その多くは人工知能(AI)や機械学習(ML)といった近代的な技術によって支えられている。
世界はかつてないほどデジタルに接続されてきたが、大きな課題に直面している。
サイバー犯罪は、政府、企業、市民社会に対する世界的な脅威として浮上している。
デジタル技術の普及と常に変化する技術基盤が組み合わさって、サイバー犯罪者の複雑な強力な遊び場が生まれ、機械学習とディープラーニングに基づくインテリジェントな脅威検出システムへの需要が急増した。
本稿では、現代のデジタルエコシステムを保護するため、AIによるサイバー脅威検出について検討する。
主な焦点は、異常ベースのマルウェア検出とネットワーク侵入検出のためのMLベースの分類器とアンサンブルの評価と、それらのモデルをネットワークセキュリティ、モバイルセキュリティ、IoTセキュリティのコンテキストに統合する方法である。
この議論は、AI対応のサイバーセキュリティソリューションを既存のエンタープライズシステムやITインフラストラクチャにデプロイし、統合する際の課題を強調している。
最後に、この論文は、現代のデジタル産業、インフラ、エコシステムのセキュリティとレジリエンスをさらに高めるための将来の研究指針を提供する。 The last decades have been characterized by unprecedented technological advances, many of them powered by modern technologies such as Artificial Intelligence (AI) and Machine Learning (ML). The world has become more digitally connected than ever, but we face major challenges. One of the most significant is cybercrime, which has emerged as a global threat to governments, businesses, and civil societies. The pervasiveness of digital technologies combined with a constantly shifting technological foundation has created a complex and powerful playground for cybercriminals, which triggered a surge in demand for intelligent threat detection systems based on machine and deep learning. This paper investigates AI-based cyber threat detection to protect our modern digital ecosystems. The primary focus is on evaluating ML-based classifiers and ensembles for anomaly-based malware detection and network intrusion detection and how to integrate those models in the context of network security, mobile security, and IoT security. The discussion highlights the challenges when deploying and integrating AI-enabled cybersecurity solutions into existing enterprise systems and IT infrastructures, including options to overcome those challenges. Finally, the paper provides future research directions to further increase the security and resilience of our modern digital industries, infrastructures, and ecosystems. | 翻訳日:2024-01-15 10:07:38 公開日:2023-10-15 |
# XAIの公正性に関する批判的調査 A Critical Survey on Fairness Benefits of XAI ( http://arxiv.org/abs/2310.13007v1 ) ライセンス: Link先を確認 | Luca Deck, Jakob Schoeffer, Maria De-Arteaga, Niklas K\"uhl | (参考訳) 本稿では,説明可能なai(xai)と公平性の関係に関する典型的な主張を分析し,これら2つの概念間の多次元関係を解消する。
体系的な文献レビューとその後の質的内容分析に基づいて,XAIの公正性に関する175論文から7つの古文書を抽出した。
我々はこれらの主張に関して重要な注意事項を提示し、特定の公正なデシダラタに対するXAIの可能性と限界に関する今後の議論のエントリポイントを提供する。
文献では、XAIがいくつかのフェアネス・デシダラタの有効性を示すことが多いが、これらのデシダラタとXAIの能力の相違に気づく。
我々は,XAIを,アルゴリズムフェアネスの多次元社会技術的課題にアプローチするための多くのツールの1つとして捉え,どのようなXAI手法がどのフェアネス・デシディラトゥムに対処できるかを正確に示すことを推奨する。 In this critical survey, we analyze typical claims on the relationship between explainable AI (XAI) and fairness to disentangle the multidimensional relationship between these two concepts. Based on a systematic literature review and a subsequent qualitative content analysis, we identify seven archetypal claims from 175 papers on the alleged fairness benefits of XAI. We present crucial caveats with respect to these claims and provide an entry point for future discussions around the potentials and limitations of XAI for specific fairness desiderata. While the literature often suggests XAI to be an enabler for several fairness desiderata, we notice a misalignment between these desiderata and the capabilities of XAI. We encourage to conceive XAI as one of many tools to approach the multidimensional, sociotechnical challenge of algorithmic fairness and to be more specific about how exactly what kind of XAI method enables whom to address which fairness desideratum. | 翻訳日:2023-10-29 16:10:16 公開日:2023-10-15 |
# 冷却誘起原子再構成による原子空洞結合の増大 Increased Atom-Cavity Coupling through Cooling-Induced Atomic Reorganization ( http://arxiv.org/abs/2310.17090v1 ) ライセンス: Link先を確認 | Chi Shu, Simone Colombo, Zeyang Li, Albert Adiyatullin, Enrique Mendez, Edwin Pedrozo-Pe\~nafiel, and Vladan Vuleti\'c | (参考訳) 光学キャビティへの原子の強い結合は、キャビティがメロジカルに有用な集合原子絡み合いと高忠実度測定を可能にするため、光学格子時計を改善することができる。
この目的のためには、動きの広がりを抑制するためにアンサンブルを冷却し、原子-キャビティカップリングの最大化と均質化を有利に行う必要がある。
両目標を同時に達成できる手法として,キャビティを介するラマンサイドバンド冷却法を提案する。
200msでは、平均振動数<nx> = 0.23(7) で171yb原子を冷却し、時計遷移 1s0 -> 3p0 の光 {\pi}パルス忠実度を 93% とした。
冷却中、原子は最大原子キャビティ結合を持つ位置に自己組織化され、量子計測の応用性が向上する。 The strong coupling of atoms to optical cavities can improve optical lattice clocks as the cavity enables metrologically useful collective atomic entanglement and high-fidelity measurement. To this end, it is necessary to cool the ensemble to suppress motional broadening, and advantageous to maximize and homogenize the atom-cavity coupling. We demonstrate resolved Raman sideband cooling via the cavity as a method that can simultaneously achieve both goals. In 200 ms, we cool 171Yb atoms to an average vibration number <nx> = 0.23(7) in the tightly binding direction, resulting in 93% optical {\pi}-pulse fidelity on the clock transition 1S0 -> 3P0. During cooling, the atoms self-organize into locations with maximal atom-cavity-coupling, which will improve quantum metrology applications. | 翻訳日:2023-10-29 16:00:38 公開日:2023-10-15 |
# 誘導電動機の異常検出に基づく予測保守モデル:リアルタイムIoTデータを用いた機械学習アプローチ Predictive Maintenance Model Based on Anomaly Detection in Induction Motors: A Machine Learning Approach Using Real-Time IoT Data ( http://arxiv.org/abs/2310.14949v1 ) ライセンス: Link先を確認 | Sergio F. Chevtchenko, Monalisa C. M. dos Santos, Diego M. Vieira, Ricardo L. Mota, Elisson Rocha, Bruna V. Cruz, Danilo Ara\'ujo, Ermeson Andrade | (参考訳) モノのインターネット(IoT)デバイスのサポートにより、劣化現象からデータを取得し、データ駆動モデルの設計を行い、産業機器で異常検出を行うことができる。
このアプローチは潜在的な異常を識別するだけでなく、予測メンテナンスポリシを構築するための第一歩としても機能する。
本研究では,ポンプ,圧縮機,ファン,その他の産業機械で使用される誘導電動機の新しい異常検出システムを提案する。
この研究は、計算コストの低い前処理技術と機械学習(ML)モデルの組み合わせを評価する。
我々は、Fast Fourier Transform (FFT)、Wavelet Transform (WT)、binningなどの前処理技術を組み合わせて、生データから特徴を抽出する方法としてよく知られている。
また,複数の競合パラメータ(異常検出率,偽陽性率,解の推論速度)の最適バランスを保証することを目的とした。
この目的のために、評価モデル上で多目的最適化と解析を行う。
分類メトリクスと計算労力に関して、どのモデルが最も良い結果が得られるかを選択するために、パレート最適解が提示される。
モデルを検証するために公開データセットを使用するこの分野のほとんどの研究とは異なり、低コストで容易に利用できるIoTセンサーを組み合わせたエンドツーエンドのソリューションを提案する。
この手法は誘導電動機からカスタムデータセットを取得することで検証される。
また,これらのセンサからの振動,温度,騒音データをMLモデルへの入力として融合する。
そこで我々は,将来,異なる産業分野に適用可能な方法論を提案することを目的とする。 With the support of Internet of Things (IoT) devices, it is possible to acquire data from degradation phenomena and design data-driven models to perform anomaly detection in industrial equipment. This approach not only identifies potential anomalies but can also serve as a first step toward building predictive maintenance policies. In this work, we demonstrate a novel anomaly detection system on induction motors used in pumps, compressors, fans, and other industrial machines. This work evaluates a combination of pre-processing techniques and machine learning (ML) models with a low computational cost. We use a combination of pre-processing techniques such as Fast Fourier Transform (FFT), Wavelet Transform (WT), and binning, which are well-known approaches for extracting features from raw data. We also aim to guarantee an optimal balance between multiple conflicting parameters, such as anomaly detection rate, false positive rate, and inference speed of the solution. To this end, multiobjective optimization and analysis are performed on the evaluated models. Pareto-optimal solutions are presented to select which models have the best results regarding classification metrics and computational effort. Differently from most works in this field that use publicly available datasets to validate their models, we propose an end-to-end solution combining low-cost and readily available IoT sensors. The approach is validated by acquiring a custom dataset from induction motors. Also, we fuse vibration, temperature, and noise data from these sensors as the input to the proposed ML model. Therefore, we aim to propose a methodology general enough to be applied in different industrial contexts in the future. | 翻訳日:2023-10-29 15:58:58 公開日:2023-10-15 |
# 複雑連続状態空間のための特別深部残留ポリシー安全強化学習ベース制御器 Specialized Deep Residual Policy Safe Reinforcement Learning-Based Controller for Complex and Continuous State-Action Spaces ( http://arxiv.org/abs/2310.14788v1 ) ライセンス: Link先を確認 | Ammar N. Abbas, Georgios C. Chasparis, and John D. Kelleher | (参考訳) 従来のコントローラは、問題の物理に関する事前の知識に依存し、力学のモデリングを必要とし、異常な状況に適応するのに苦労するため、制限がある。
深層強化学習は、環境探索を通じて最適制御ポリシーを学習することで、これらの問題に対処する可能性がある。
安全クリティカルな環境では、ランダムに探索することは現実的ではなく、従来のコントローラーをブラックボックスモデルに置き換えることも望ましくない。
また、連続状態と作用空間では、探索空間が制約されない限り高価である。
これらの課題に対処するために,複雑かつ連続的な状態対応空間に適応した学習アプローチのサイクルを取り入れた,専門的な深層政策安全な強化学習を提案する。
残留ポリシー学習は、強化学習エージェントが従来のコントローラと協調して行動するハイブリッド制御アーキテクチャを学習することができる。
学習のサイクルは、専門家の軌道を通じてポリシーを開始し、それに関する探索を導く。
さらに、入力出力隠れマルコフモデルによる特殊化は、強化学習エージェントが必要であり、活性化される領域(異常など)内に存在するポリシーを最適化するのに役立つ。
提案手法はテネシー・イーストマンプロセス制御で検証される。 Traditional controllers have limitations as they rely on prior knowledge about the physics of the problem, require modeling of dynamics, and struggle to adapt to abnormal situations. Deep reinforcement learning has the potential to address these problems by learning optimal control policies through exploration in an environment. For safety-critical environments, it is impractical to explore randomly, and replacing conventional controllers with black-box models is also undesirable. Also, it is expensive in continuous state and action spaces, unless the search space is constrained. To address these challenges we propose a specialized deep residual policy safe reinforcement learning with a cycle of learning approach adapted for complex and continuous state-action spaces. Residual policy learning allows learning a hybrid control architecture where the reinforcement learning agent acts in synchronous collaboration with the conventional controller. The cycle of learning initiates the policy through the expert trajectory and guides the exploration around it. Further, the specialization through the input-output hidden Markov model helps to optimize policy that lies within the region of interest (such as abnormality), where the reinforcement learning agent is required and is activated. The proposed solution is validated on the Tennessee Eastman process control. | 翻訳日:2023-10-29 15:57:30 公開日:2023-10-15 |
# Digital Deception: ソーシャルエンジニアリングとフィッシングにおける創造的人工知能 Digital Deception: Generative Artificial Intelligence in Social Engineering and Phishing ( http://arxiv.org/abs/2310.13715v1 ) ライセンス: Link先を確認 | Marc Schmitt, Ivan Flechais | (参考訳) 人工知能(AI)と機械学習(ML)の進歩は、私たちのデジタルインタラクションの有用性とセキュリティの両方に重大な影響を与える。
本稿では,社会工学(SE)攻撃における生成AIの変革的役割について考察する。
我々は、社会工学とAI能力の体系的なレビューを行い、社会工学の理論を用いて、生成AIがSE攻撃の影響を増幅する3つの柱を識別する: 現実的コンテンツ創造、高度なターゲットとパーソナライゼーション、自動攻撃基盤。
これらの要素を、AI駆動型SE攻撃(Generative AI Social Engineering Framework)の複雑な性質を研究するために設計された概念モデルに統合する。
我々は、これらのリスクを緩和するための人間的意義と潜在的な対策をさらに探究する。
本研究は,この新たなパラダイムに関連するリスクや人的影響,対策について,より深く理解し,より安全で信頼性の高い人間とコンピュータの相互作用に寄与することを目的としている。 The advancement of Artificial Intelligence (AI) and Machine Learning (ML) has profound implications for both the utility and security of our digital interactions. This paper investigates the transformative role of Generative AI in Social Engineering (SE) attacks. We conduct a systematic review of social engineering and AI capabilities and use a theory of social engineering to identify three pillars where Generative AI amplifies the impact of SE attacks: Realistic Content Creation, Advanced Targeting and Personalization, and Automated Attack Infrastructure. We integrate these elements into a conceptual model designed to investigate the complex nature of AI-driven SE attacks - the Generative AI Social Engineering Framework. We further explore human implications and potential countermeasures to mitigate these risks. Our study aims to foster a deeper understanding of the risks, human implications, and countermeasures associated with this emerging paradigm, thereby contributing to a more secure and trustworthy human-computer interaction. | 翻訳日:2023-10-29 15:57:08 公開日:2023-10-15 |
# 脆弱性検出、分類、修復のためのchatgpt: どこまであるのか? ChatGPT for Vulnerability Detection, Classification, and Repair: How Far Are We? ( http://arxiv.org/abs/2310.09810v1 ) ライセンス: Link先を確認 | Michael Fu, Chakkrit Tantithamthavorn, Van Nguyen, Trung Le | (参考訳) ChatGPT(gpt-3.5-turboとgpt-4)のような大規模言語モデル(LLM)は、コードレビューやコード生成といったソースコードに関連する様々なソフトウェアエンジニアリングタスクにおいて顕著な進歩を見せた。
本稿では,ChatGPTに対して,機能およびラインレベルの脆弱性予測,脆弱性分類,重度推定,脆弱性修復の4つの主要な課題について,総合的研究を行う。
chatgptを,ソフトウェア脆弱性のために設計された最先端言語モデルと比較する。
190,000以上のc/c++関数を特徴とする大規模な実世界のデータセットを用いた経験的評価を通じて、chatgptは限定的なパフォーマンスを達成し、脆弱性コンテキストで他の言語モデルに後れを取っていることがわかった。
実験の結果は、脆弱性予測タスクの難しい性質を強調し、ドメイン固有の専門知識を必要とする。
ChatGPTのかなりのモデルスケールは、ソースコード事前訓練された言語モデル(例えばCodeBERT)を14,000倍に上回るが、微調整のプロセスはChatGPTが脆弱性予測タスクを一般化するために必須である。
研究したデータセット、ChatGPTの実験プロンプト、およびhttps://github.com/awsm-research/ChatGPT4Vulでの実験結果を公開する。 Large language models (LLMs) like ChatGPT (i.e., gpt-3.5-turbo and gpt-4) exhibited remarkable advancement in a range of software engineering tasks associated with source code such as code review and code generation. In this paper, we undertake a comprehensive study by instructing ChatGPT for four prevalent vulnerability tasks: function and line-level vulnerability prediction, vulnerability classification, severity estimation, and vulnerability repair. We compare ChatGPT with state-of-the-art language models designed for software vulnerability purposes. Through an empirical assessment employing extensive real-world datasets featuring over 190,000 C/C++ functions, we found that ChatGPT achieves limited performance, trailing behind other language models in vulnerability contexts by a significant margin. The experimental outcomes highlight the challenging nature of vulnerability prediction tasks, requiring domain-specific expertise. Despite ChatGPT's substantial model scale, exceeding that of source code-pre-trained language models (e.g., CodeBERT) by a factor of 14,000, the process of fine-tuning remains imperative for ChatGPT to generalize for vulnerability prediction tasks. We publish the studied dataset, experimental prompts for ChatGPT, and experimental results at https://github.com/awsm-research/ChatGPT4Vul. | 翻訳日:2023-10-23 02:30:13 公開日:2023-10-15 |
# ImageArg-2023:マルチモーダル・引数マイニングにおける最初の共有タスクの概要 Overview of ImageArg-2023: The First Shared Task in Multimodal Argument Mining ( http://arxiv.org/abs/2310.12172v1 ) ライセンス: Link先を確認 | Zhexiong Liu, Mohamed Elarby, Yang Zhong, Diane Litman | (参考訳) 本稿では,第10回Argument Mining on EMNLP 2023ワークショップと共同で,最初のマルチモーダルなArgument Mining共有タスクであるImageArg共有タスクの概要を紹介する。
共有タスクは,(1)Subtask-A:Argument Stance Classification,(2)Subtask-B: Image Persuasiveness Classificationの2つのサブタスクからなる。
前者は、物議を醸す話題(銃規制や中絶など)に向けて、画像とテキストを含むツイートのスタンスを決定する。
後者は、画像がツイートテキストをより説得力のあるものにするかどうかを決定する。
共有タスクは6カ国9チームからSubtask-A申請31件、Subtask-B申請21件を受け取った。
subtask-a の上位は 0.8647 の f1-score を達成し、subtask-b の上位は 0.5561 の f1-score を達成した。 This paper presents an overview of the ImageArg shared task, the first multimodal Argument Mining shared task co-located with the 10th Workshop on Argument Mining at EMNLP 2023. The shared task comprises two classification subtasks - (1) Subtask-A: Argument Stance Classification; (2) Subtask-B: Image Persuasiveness Classification. The former determines the stance of a tweet containing an image and a piece of text toward a controversial topic (e.g., gun control and abortion). The latter determines whether the image makes the tweet text more persuasive. The shared task received 31 submissions for Subtask-A and 21 submissions for Subtask-B from 9 different teams across 6 countries. The top submission in Subtask-A achieved an F1-score of 0.8647 while the best submission in Subtask-B achieved an F1-score of 0.5561. | 翻訳日:2023-10-20 18:39:46 公開日:2023-10-15 |
# quditsの非古典性距離指標について On the nonclassicality distance indicator of qudits ( http://arxiv.org/abs/2310.12173v1 ) ライセンス: Link先を確認 | Arsen Khvedelidze and Astghik Torosyan | (参考訳) 有限次元量子系の状態の非古典性距離インジケータは、「古典性状態」の集合からの遠隔度で状態非古典性を評価する。
後者は、ウィグナー関数が非負である状態と同一視される。
qudit固有値の単純性における対応するウィグナー関数の正のポリトープを導入し、区分関数としての非古典距離指標の表現を導出する。
結果はqutritケースで例示されます。 We consider the nonclassicality distance indicator of a state in finite-dimensional quantum systems which is evaluating a state nonclassicality by its remoteness from the set of "classical states". The latter are identified with those states whose Wigner function is non-negative. The corresponding Wigner function's positivity polytope in the simplex of qudit eigenvalues is introduced and the representation for the nonclassicality distance indicator as a piecewise function is derived. The results are exemplified by the qutrit case. | 翻訳日:2023-10-20 18:26:07 公開日:2023-10-15 |
# 逆レンダリングのためのニューラルマイクロファセットフィールド Neural Microfacet Fields for Inverse Rendering ( http://arxiv.org/abs/2303.17806v3 ) ライセンス: Link先を確認 | Alexander Mai, Dor Verbin, Falko Kuester, Sara Fridovich-Keil | (参考訳) 本稿では,シーン画像から材料,幾何学,環境照明を復元するニューラルマイクロファセット場を提案する。
本手法では, 各試料を(潜在的に不透明な)表面として扱うことにより, ボリューム設定内にマイクロファセット反射率モデルを用いる。
表面ベースのモンテカルロレンダリングをボリューム設定で使用することで、表面ベースの光輸送における数十年の研究と、ビュー合成のためのボリュームレンダリングの最近の進歩を組み合わせることで、逆レンダリングを効率的に行うことができる。
提案手法は, 逆レンダリング, 高忠実度幾何, 高周波照明の詳細を捉え, その新しいビュー合成結果は, 照明や材料を回復しない最先端の手法と同等である。 We present Neural Microfacet Fields, a method for recovering materials, geometry, and environment illumination from images of a scene. Our method uses a microfacet reflectance model within a volumetric setting by treating each sample along the ray as a (potentially non-opaque) surface. Using surface-based Monte Carlo rendering in a volumetric setting enables our method to perform inverse rendering efficiently by combining decades of research in surface-based light transport with recent advances in volume rendering for view synthesis. Our approach outperforms prior work in inverse rendering, capturing high fidelity geometry and high frequency illumination details; its novel view synthesis results are on par with state-of-the-art methods that do not recover illumination or materials. | 翻訳日:2023-10-18 22:08:48 公開日:2023-10-15 |
# ACES: オートテリック言語モデルとセマンティック記述子による多様なプログラミングパズルの生成 ACES: generating diverse programming puzzles with autotelic language models and semantic descriptors ( http://arxiv.org/abs/2310.10692v1 ) ライセンス: Link先を確認 | Julien Pourcel, C\'edric Colas, Pierre-Yves Oudeyer, Laetitia Teodorescu | (参考訳) 解決すべき新しい興味深い問題の発見と選択は好奇心、科学、イノベーションの中心にある。
ここでは、ピソンプログラミングパズルのオープンエンド空間の文脈における自動問題生成について検討する。
既存の生成モデルはしばしば、明示的な多様性の最適化なしに参照分布をモデル化することを目的としている。
多様性を明示的に最適化する他の方法は、限られた手符号化表現空間でも、興味深いバリエーションの人間の知覚と一致しないような解釈不能な埋め込み空間でもそうである。
ACES(Autotelic Code Exploration via Semantic Descriptors)では,大きな言語モデル(LLM)が生成するセマンティック記述子を利用して,興味ある多様性を直接最適化し,少数ショットベースの生成を行う。
各パズルは10次元にラベル付けされ、それぞれがそれを解くのに必要なプログラミングスキルをキャプチャする。
ACESは、抽象的なセマンティック空間を探索するために、新しく実現可能な目標を生成し、追求する。
一連の実験を通じて, acesは, 既存の多様性を最大化するアルゴリズムよりも, 多様なパズルを発見できることを示した。
さらに,この多様性がパズル解法モデルの学習に応用できるかどうかについても検討した。 Finding and selecting new and interesting problems to solve is at the heart of curiosity, science and innovation. We here study automated problem generation in the context of the open-ended space of python programming puzzles. Existing generative models often aim at modeling a reference distribution without any explicit diversity optimization. Other methods explicitly optimizing for diversity do so either in limited hand-coded representation spaces or in uninterpretable learned embedding spaces that may not align with human perceptions of interesting variations. With ACES (Autotelic Code Exploration via Semantic descriptors), we introduce a new autotelic generation method that leverages semantic descriptors produced by a large language model (LLM) to directly optimize for interesting diversity, as well as few-shot-based generation. Each puzzle is labeled along 10 dimensions, each capturing a programming skill required to solve it. ACES generates and pursues novel and feasible goals to explore that abstract semantic space, slowly discovering a diversity of solvable programming puzzles in any given run. Across a set of experiments, we show that ACES discovers a richer diversity of puzzles than existing diversity-maximizing algorithms as measured across a range of diversity metrics. We further study whether and in which conditions this diversity can translate into the successful training of puzzle solving models. | 翻訳日:2023-10-18 19:46:37 公開日:2023-10-15 |
# 拡散モデルを用いたディジタルVLSI回路のMLモデルの精度向上:合成データ生成に関する研究 Enhancing ML model accuracy for Digital VLSI circuits using diffusion models: A study on synthetic data generation ( http://arxiv.org/abs/2310.10691v1 ) ライセンス: Link先を確認 | Prasha Srivastava, Pawan Kumar, Zia Abbas | (参考訳) 生成AIはここ数年で顕著な成長を遂げており、拡散モデルは画像生成の最先端にある。
本研究では,電子回路の人工データ生成における拡散モデルの適用について,通常,トレーニングデータに制限がある場合,性能評価や設計,テストなどのタスクにおいて,その後の機械学習モデルの精度を高めるために検討した。
我々は,22nmCMOS技術ノードを用いたHSPICE設計環境におけるシミュレーションを用いて,提案した拡散モデルのための代表的実データを得る。
本結果は,拡散モデルを用いた合成データの実データとの密接な類似性を示した。
生成したデータの品質を検証し、デジタル回路におけるVLSI設計の予測解析にデータ拡張が確実に有効であることを示す。 Generative AI has seen remarkable growth over the past few years, with diffusion models being state-of-the-art for image generation. This study investigates the use of diffusion models in generating artificial data generation for electronic circuits for enhancing the accuracy of subsequent machine learning models in tasks such as performance assessment, design, and testing when training data is usually known to be very limited. We utilize simulations in the HSPICE design environment with 22nm CMOS technology nodes to obtain representative real training data for our proposed diffusion model. Our results demonstrate the close resemblance of synthetic data using diffusion model to real data. We validate the quality of generated data, and demonstrate that data augmentation certainly effective in predictive analysis of VLSI design for digital circuits. | 翻訳日:2023-10-18 19:46:12 公開日:2023-10-15 |
# インコンテキスト学生モデリングのための大規模言語モデル--ワンショット観察による視覚プログラミングにおける学生の行動の合成 Large Language Models for In-Context Student Modeling: Synthesizing Student's Behavior in Visual Programming from One-Shot Observation ( http://arxiv.org/abs/2310.10690v1 ) ライセンス: Link先を確認 | Manh Hung Nguyen, Sebastian Tschiatschek, Adish Singla | (参考訳) 学生モデリングは多くの教育技術の中心であり、将来の学習成果の予測と目標とする教育戦略を可能にする。
しかし,オープンエンド学習環境は,学生が提示する多様な行動や,十分に定義された学習スキルが欠如していることから,生徒を正確にモデル化する上で課題となる。
これらの課題にアプローチするために,オープンエンド学習環境における学習者モデルに対する大規模言語モデル(llm)の適用について検討する。
学生の行動の合成にLLMを利用する新しいフレームワーク LLM-SS を導入する。
より具体的には、特定の学生が参照タスクを観察として解決しようとする試みを考えると、目標は対象タスクに対する学生の試みを合成することである。
我々のフレームワークは異なるLLMと組み合わせることができ、ドメイン固有の専門知識を使って、ドメインの背景や学生の振る舞いに対する理解を深めることができます。
我々は,既存の学生の視覚プログラミングにおける試行合成ベンチマークであるSingsSynベンチマークを用いて,LLM-SSに基づくいくつかの具体的な手法を評価する。
実験結果から,StudentSynベンチマークのベースライン手法と比較して有意に改善した。
さらに,Llama2-70Bモデルを用いた手法は,ベースモデルと比較して顕著に改善され,最先端のGPT-4モデルと同等となる。 Student modeling is central to many educational technologies as it enables the prediction of future learning outcomes and targeted instructional strategies. However, open-ended learning environments pose challenges for accurately modeling students due to the diverse behaviors exhibited by students and the absence of a well-defined set of learning skills. To approach these challenges, we explore the application of Large Language Models (LLMs) for in-context student modeling in open-ended learning environments. We introduce a novel framework, LLM-SS, that leverages LLMs for synthesizing student's behavior. More concretely, given a particular student's solving attempt on a reference task as observation, the goal is to synthesize the student's attempt on a target task. Our framework can be combined with different LLMs; moreover, we fine-tune LLMs using domain-specific expertise to boost their understanding of domain background and student behaviors. We evaluate several concrete methods based on LLM-SS using the StudentSyn benchmark, an existing student's attempt synthesis benchmark in visual programming. Experimental results show a significant improvement compared to baseline methods included in the StudentSyn benchmark. Furthermore, our method using the fine-tuned Llama2-70B model improves noticeably compared to using the base model and becomes on par with using the state-of-the-art GPT-4 model. | 翻訳日:2023-10-18 19:45:58 公開日:2023-10-15 |
# 異常検出のためのグラフフェアリング畳み込みネットワーク Graph Fairing Convolutional Networks for Anomaly Detection ( http://arxiv.org/abs/2010.10274v3 ) ライセンス: Link先を確認 | Mahsa Mesgaran and A. Ben Hamza | (参考訳) グラフ畳み込みは、グラフ構造化データ上の多くのディープニューラルネットワークの基本的な構成要素である。
本稿では,半教師付き異常検出のためのスキップ接続を用いた単純なグラフ畳み込みネットワークを提案する。
提案する階層的伝播則は,幾何学処理における暗黙的フェアリングの概念を理論的に動機付けており,隣接ノードからの情報を集約するグラフ畳み込みモジュールと,階層的近傍表現を結合するスキップ接続モジュールを備える。
この伝播則はジャコビ法による暗黙のフェアリング方程式の反復解から導かれる。
ネットワーク層間の接続をスキップすることで,遠隔グラフノードから情報を取得することに加えて,識別ノード表現の学習にグラフ構造とノード特徴の両方を活用する。
これらのスキップ接続は,提案するネットワークアーキテクチャで設計的に統合される。
本モデルの有効性は,5つのベンチマークデータセットに対する広範な実験により実証され,強力なベースライン法に対して,より優れた,あるいは同等な異常検出結果が得られた。
また,接続をスキップすることでモデルの性能が向上することを示す。 Graph convolution is a fundamental building block for many deep neural networks on graph-structured data. In this paper, we introduce a simple, yet very effective graph convolutional network with skip connections for semi-supervised anomaly detection. The proposed layerwise propagation rule of our model is theoretically motivated by the concept of implicit fairing in geometry processing, and comprises a graph convolution module for aggregating information from immediate node neighbors and a skip connection module for combining layer-wise neighborhood representations. This propagation rule is derived from the iterative solution of the implicit fairing equation via the Jacobi method. In addition to capturing information from distant graph nodes through skip connections between the network's layers, our approach exploits both the graph structure and node features for learning discriminative node representations. These skip connections are integrated by design in our proposed network architecture. The effectiveness of our model is demonstrated through extensive experiments on five benchmark datasets, achieving better or comparable anomaly detection results against strong baseline methods. We also demonstrate through an ablation study that skip connection helps improve the model performance. | 翻訳日:2023-10-18 07:27:19 公開日:2023-10-15 |
# 条件付き確率勾配降下の漸近解析 Asymptotic Analysis of Conditioned Stochastic Gradient Descent ( http://arxiv.org/abs/2006.02745v5 ) ライセンス: Link先を確認 | R\'emi Leluc and Fran\c{c}ois Portier | (参考訳) 本稿では,勾配方向の事前条件付けに基づいて,sgdと呼ばれる確率的勾配降下(sgd)アルゴリズムの一般クラスについて検討する。
マーチンゲールツールを用いた離散時間手法を用いて,確率的一階法や二階法を含む幅広い条件付き行列に対して,反復列の再スケールの弱収束を軽度に仮定する。
独立興味を持つかもしれない収束結果もほぼ確実に提示される。
興味深いことに、漸近正規性の結果は確率的等連続性から成り、条件付き行列が逆ヘッシアンの推定であるとき、アルゴリズムは漸近的に最適である。 In this paper, we investigate a general class of stochastic gradient descent (SGD) algorithms, called Conditioned SGD, based on a preconditioning of the gradient direction. Using a discrete-time approach with martingale tools, we establish under mild assumptions the weak convergence of the rescaled sequence of iterates for a broad class of conditioning matrices including stochastic first-order and second-order methods. Almost sure convergence results, which may be of independent interest, are also presented. Interestingly, the asymptotic normality result consists in a stochastic equicontinuity property so when the conditioning matrix is an estimate of the inverse Hessian, the algorithm is asymptotically optimal. | 翻訳日:2023-10-18 07:26:42 公開日:2023-10-15 |
# 平均重み付き単語ベクトル特徴を用いた感性分析 Sentiment Analysis Using Averaged Weighted Word Vector Features ( http://arxiv.org/abs/2002.05606v2 ) ライセンス: Link先を確認 | Ali Erkan and Tunga Gungor | (参考訳) 人々はworld wide webを多用し、製品、サービス、旅行先などのエンティティと経験を共有している。
オンラインフィードバックをレビューやコメント形式で提供するテキストは、消費者の判断に不可欠である。
これらのコメントは、製品やサービスに関する満足度を測定するために使われる価値ある情報源を生み出します。
感性分析は、そのようなテキスト断片で表される意見を特定するタスクである。
本研究では,異なる種類の単語ベクトルを組み合わせてレビューの極性を学習し,推定する2つの手法を開発する。
我々は、単語ベクトルからの平均レビューベクトルを開発し、正および負の感度タグ付きレビューで単語周波数を用いたレビューベクトルに重みを付加する。
本手法を,感情分析の標準ベンチマークとして使用する,異なる領域の複数のデータセットに適用した。
我々は,既存の手法と技術を融合させ,文献のアプローチとの比較を行った。
その結果,我々のアプローチのパフォーマンスは最先端の成功率を上回っていることがわかった。 People use the world wide web heavily to share their experience with entities such as products, services, or travel destinations. Texts that provide online feedback in the form of reviews and comments are essential to make consumer decisions. These comments create a valuable source that may be used to measure satisfaction related to products or services. Sentiment analysis is the task of identifying opinions expressed in such text fragments. In this work, we develop two methods that combine different types of word vectors to learn and estimate polarity of reviews. We develop average review vectors from word vectors and add weights to this review vectors using word frequencies in positive and negative sensitivity-tagged reviews. We applied the methods to several datasets from different domains that are used as standard benchmarks for sentiment analysis. We ensemble the techniques with each other and existing methods, and we make a comparison with the approaches in the literature. The results show that the performances of our approaches outperform the state-of-the-art success rates. | 翻訳日:2023-10-18 07:26:06 公開日:2023-10-15 |
# 時間順多体相互作用の推論 Inference of time-ordered multibody interactions ( http://arxiv.org/abs/2111.14611v2 ) ライセンス: Link先を確認 | Unai Alvarez-Rodriguez, Luka V. Petrovi\'c, Ingo Scholtes | (参考訳) 時間順の多体相互作用を導入し、時間的および多体依存を表わす複雑なシステムを記述する。
まず,多変量マルコフ鎖の動力学を時間順序多体相互作用のアンサンブルに分解する方法を示す。
次に,ノード状態のシステムレベルダイナミクスをキャプチャしたデータからそれらの相互作用を抽出するアルゴリズムと,相互作用アンサンブルの複雑性を特徴付ける尺度を提案する。
最後に, 統計的誤差に対するアルゴリズムのロバスト性と, その効率性について実験的に検証した。 We introduce time-ordered multibody interactions to describe complex systems manifesting temporal as well as multibody dependencies. First, we show how the dynamics of multivariate Markov chains can be decomposed in ensembles of time-ordered multibody interactions. Then, we present an algorithm to extract those interactions from data capturing the system-level dynamics of node states and a measure to characterize the complexity of interaction ensembles. Finally, we experimentally validate the robustness of our algorithm against statistical errors and its efficiency at inferring parsimonious interaction ensembles. | 翻訳日:2023-10-18 07:20:23 公開日:2023-10-15 |
# TFLEX: 時間的知識グラフを用いた複雑な推論のための時間的特徴論理埋め込みフレームワーク TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph ( http://arxiv.org/abs/2205.14307v3 ) ライセンス: Link先を確認 | Xueyuan Lin, Chengjin Xu, Haihong E, Fenglong Su, Gengxian Zhou, Tianyi Hu, Ningyuan Li, Mingzhi Sun, Haoran Luo | (参考訳) 知識グラフ(KG)に対するマルチホップ論理推論は、多くの人工知能タスクにおいて基本的な役割を果たす。
静的なKGを推論するための最近の複雑なクエリ埋め込み(CQE)手法は、時間的知識グラフ(TKG)が完全には研究されていない。
TKGに対する推論には2つの課題がある。
1. クエリはエンティティやタイムスタンプに答えるべきです。
2. 演算子は、エンティティセット上のセットロジックとタイムスタンプセット上の時間ロジックの両方を考慮するべきである。
このギャップを埋めるために、TKGのマルチホップ論理的推論問題を定義する。
生成した3つのデータセットから,時間的複雑なクエリに対応するための時間的特徴論理埋め込みフレームワークTFLEXを提案する。
ベクトル論理を用いて時間的特徴論理埋め込みの論理部分を計算し、エンティティセット上の一階論理(FOL)の全ての操作を自然にモデル化する。
さらに,タイムスタンプセット上のベクトル論理を拡張し,(後,前,間)3つの余分な時間演算子に対応する。
多数のクエリパターンの実験により,本手法の有効性が示された。 Multi-hop logical reasoning over knowledge graph (KG) plays a fundamental role in many artificial intelligence tasks. Recent complex query embedding (CQE) methods for reasoning focus on static KGs, while temporal knowledge graphs (TKGs) have not been fully explored. Reasoning over TKGs has two challenges: 1. The query should answer entities or timestamps; 2. The operators should consider both set logic on entity set and temporal logic on timestamp set. To bridge this gap, we define the multi-hop logical reasoning problem on TKGs. With generated three datasets, we propose the first temporal CQE named Temporal Feature-Logic Embedding framework (TFLEX) to answer the temporal complex queries. We utilize vector logic to compute the logic part of Temporal Feature-Logic embeddings, thus naturally modeling all First-Order Logic (FOL) operations on entity set. In addition, our framework extends vector logic on timestamp set to cope with three extra temporal operators (After, Before and Between). Experiments on numerous query patterns demonstrate the effectiveness of our method. | 翻訳日:2023-10-18 07:10:57 公開日:2023-10-15 |
# 幾何学的相対エントロピーと偏心R'enyi発散 Geometric relative entropies and barycentric R\'enyi divergences ( http://arxiv.org/abs/2207.14282v4 ) ライセンス: Link先を確認 | Mil\'an Mosonyi, Gergely Bunth, P\'eter Vrana | (参考訳) 単調量子相対エントロピーを定義する体系的な方法と、単調量子相対エントロピーの集合から始まる(多重変量)量子R\'enyiの発散を与える。
情報理論における中心的な重要性にもかかわらず、古典的相対エントロピーの2つの加法的および単トン量子拡張のみが知られている。
ここでは、同じ性質を持つ与えられたものから単調および加法的量子相対エントロピーを構築するための一般的な手順を与える。特に、梅垣相対エントロピーから始めると、フルランク状態において、梅垣とベラブキン・スタスツキーの間を補間する単調および加法的量子相対エントロピーの新しい1パラメータの族を与える。
異なる方向において、古典的変分公式の一般化を用いて、量子相対エントロピーの任意の有限集合に対応する多変量量子 R\'enyi 量を $(D^{q_x})_{x\in X}$ と符号付き確率測度 $P$, as $$ Q_P^{\mathrm{b},\mathbf{q}}(((\rho_x)_{x\in X}):=\sup_{\tau\ge 0}\left\{\text{Tr}\,\tau-\sum_xP(x)D^{q_x}(\tau\|\rho_x)\right\} と定義する。
P$が確率測度であるときに、単調量子相対エントロピーが単調R'enyi量を定義することを示す。
固有正規化により、上記の量の負対数により、2変数の場合 (x=\{0,1\}$, $p(0)=\alpha$) における古典 r\'enyi $\alpha$-divergence の量子拡張が得られる。
D^{q_0}$と$D^{q_1}$の両方が単調で加法的な量子相対エントロピーであり、そのうちの少なくとも一方が梅垣相対エントロピーより厳密に大きい場合、結果として生じる準中心 R\'enyi の発散は、対数ユークリッドと最大 R\'enyi の発散の間に厳密にあり、従って以前に研究された任意の量子 R'enyi の発散とは異なる。 We give systematic ways of defining monotone quantum relative entropies and (multi-variate) quantum R\'enyi divergences starting from a set of monotone quantum relative entropies. Despite its central importance in information theory, only two additive and monotone quantum extensions of the classical relative entropy have been known so far, the Umegaki and the Belavkin-Staszewski relative entropies. Here we give a general procedure to construct monotone and additive quantum relative entropies from a given one with the same properties; in particular, when starting from the Umegaki relative entropy, this gives a new one-parameter family of monotone and additive quantum relative entropies interpolating between the Umegaki and the Belavkin-Staszewski ones on full-rank states. In a different direction, we use a generalization of a classical variational formula to define multi-variate quantum R\'enyi quantities corresponding to any finite set of quantum relative entropies $(D^{q_x})_{x\in X}$ and signed probability measure $P$, as $$ Q_P^{\mathrm{b},\mathbf{q}}((\rho_x)_{x\in X}):=\sup_{\tau\ge 0}\left\{\text{Tr}\,\tau-\sum_xP(x)D^{q_x}(\tau\|\rho_x)\right\}. $$ We show that monotone quantum relative entropies define monotone R\'enyi quantities whenever $P$ is a probability measure. With the proper normalization, the negative logarithm of the above quantity gives a quantum extension of the classical R\'enyi $\alpha$-divergence in the 2-variable case ($X=\{0,1\}$, $P(0)=\alpha$). We show that if both $D^{q_0}$ and $D^{q_1}$ are monotone and additive quantum relative entropies, and at least one of them is strictly larger than the Umegaki relative entropy then the resulting barycentric R\'enyi divergences are strictly between the log-Euclidean and the maximal R\'enyi divergences, and hence they are different from any previously studied quantum R\'enyi divergence. | 翻訳日:2023-10-18 06:59:30 公開日:2023-10-15 |
# デジタル・ツインズによる6g時代の産業 4.0 Digital Twins for Industry 4.0 in the 6G Era ( http://arxiv.org/abs/2210.08970v3 ) ライセンス: Link先を確認 | Bin Han, Mohammad Asif Habibi, Bjoern Richerzhagen, Kim Schindhelm, Florian Zeiger, Fabrizio Lamberti, Filippo Gabriele Prattic\`o, Karthik Upadhya, Charalampos Korovesis, Ioannis-Prodromos Belikaidis, Panagiotis Demestichas, Siyu Yuan, and Hans D. Schotten | (参考訳) 最近、多くの国で第5世代(5G)モバイル通信システムが展開され、ワイヤレスコミュニティは次世代第6世代(6G)に目を向けている。
5Gを産業のユースケースに焦点をあてた6Gは、将来のインテリジェント産業のインフラ的バックボーンとして構想されている。
特に6GとDigital Twins(DT)の新興技術の組み合わせは、Industrial 4.0 (I4.0) システムの次の進化を示唆する。
本稿では, 6G 搭載産業用 DT システムの研究領域について調査する。
本研究は, 6G産業DTエコシステムの新たなビジョンとして, 6G時代における産業DTの野心と応用の可能性について考察し, 新たな課題と重要な実現技術を明らかにする。
導入されたエコシステムは、人間、マシン、およびデータインフラストラクチャ間のギャップを埋め、多数の新しいアプリケーションシナリオを可能にする。 Having the Fifth Generation (5G) mobile communication system recently rolled out in many countries, the wireless community is now setting its eyes on the next era of Sixth Generation (6G). Inheriting from 5G its focus on industrial use cases, 6G is envisaged to become the infrastructural backbone of future intelligent industry. Especially, a combination of 6G and the emerging technologies of Digital Twins (DT) will give impetus to the next evolution of Industry 4.0 (I4.0) systems. This article provides a survey in the research area of 6G-empowered industrial DT system. With a novel vision of 6G industrial DT ecosystem, this survey discusses the ambitions and potential applications of industrial DT in the 6G era, identifying the emerging challenges as well as the key enabling technologies. The introduced ecosystem is supposed to bridge the gaps between humans, machines, and the data infrastructure, and therewith enable numerous novel application scenarios. | 翻訳日:2023-10-18 06:52:48 公開日:2023-10-15 |
# データ駆動神経科学 - データ収集とベンチマークについて Data-Driven Network Neuroscience: On Data Collection and Benchmark ( http://arxiv.org/abs/2211.12421v4 ) ライセンス: Link先を確認 | Jiaxing Xu, Yunhan Yang, David Tse Jung Huang, Sophi Shilpa Gururajapathy, Yiping Ke, Miao Qiao, Alan Wang, Haribalan Kumar, Josh McGeown, Eryn Kwon | (参考訳) 本稿では,神経科学,機械学習,グラフ分析の交点研究のための機能的脳ネットワークデータの包括的かつ高品質な収集について述べる。
解剖学的および機能的mri画像は、脳の機能的結合を理解するために用いられており、特にアルツハイマー病、パーキンソン病、自閉症などの神経変性疾患の同定に重要である。
近年、機械学習とグラフ分析を用いた脳ネットワークの形での脳の研究が、特にこれらの状態の早期発生を予測するために人気が高まっている。
グラフとして表される脳ネットワークは、従来の検査方法では捉えられないような豊富な構造と位置情報を保持している。
しかし、公開アクセス可能な脳ネットワークデータの欠如は、研究者がデータ駆動の探索を妨げている。
主な難点の1つは、複雑なドメイン固有の前処理ステップと、mri画像から脳ネットワークへのデータ変換に必要な徹底的な計算である。
我々は、公開データベースとプライベートソースから大量のMRI画像を収集し、ドメインの専門家と協力して適切な設計選択を行い、MRIイメージを前処理して脳ネットワークデータセットのコレクションを作成することで、このギャップを埋める。
データセットは6つの異なるソースから始まり、4つの脳の状態をカバーし、合計で2,702人の被験者で構成されている。
グラフデータセットを12の機械学習モデルでテストし、ベースラインを提供し、最近のグラフ解析モデルでデータ品質を検証する。
この学際分野における参入障壁を低くし、研究を促進するために、我々は脳ネットワークデータと、https://doi.org/10.17608/k6.auckland.21397377およびhttps://github.com/brainnetuoa/data_driven_network_neuroscienceのコードを含む完全な前処理の詳細をリリースする。 This paper presents a comprehensive and quality collection of functional human brain network data for potential research in the intersection of neuroscience, machine learning, and graph analytics. Anatomical and functional MRI images have been used to understand the functional connectivity of the human brain and are particularly important in identifying underlying neurodegenerative conditions such as Alzheimer's, Parkinson's, and Autism. Recently, the study of the brain in the form of brain networks using machine learning and graph analytics has become increasingly popular, especially to predict the early onset of these conditions. A brain network, represented as a graph, retains rich structural and positional information that traditional examination methods are unable to capture. However, the lack of publicly accessible brain network data prevents researchers from data-driven explorations. One of the main difficulties lies in the complicated domain-specific preprocessing steps and the exhaustive computation required to convert the data from MRI images into brain networks. We bridge this gap by collecting a large amount of MRI images from public databases and a private source, working with domain experts to make sensible design choices, and preprocessing the MRI images to produce a collection of brain network datasets. The datasets originate from 6 different sources, cover 4 brain conditions, and consist of a total of 2,702 subjects. We test our graph datasets on 12 machine learning models to provide baselines and validate the data quality on a recent graph analysis model. To lower the barrier to entry and promote the research in this interdisciplinary field, we release our brain network data and complete preprocessing details including codes at https://doi.org/10.17608/k6.auckland.21397377 and https://github.com/brainnetuoa/data_driven_network_neuroscience. | 翻訳日:2023-10-18 06:40:48 公開日:2023-10-15 |
# Dense Passage Retrievalのためのクエリ・アズ・コンテクスト事前学習 Query-as-context Pre-training for Dense Passage Retrieval ( http://arxiv.org/abs/2212.09598v3 ) ライセンス: Link先を確認 | Xing Wu, Guangyuan Ma, Wanhui Qian, Zijia Lin, Songlin Hu | (参考訳) 近年,文脈教師付き事前学習を用いて,高密度経路探索の性能向上を図る手法が開発されている。
これらの方法は、弱相関対の可能性を考慮することなく、単に同じ文書からの2つの節が関連していると考える。
そこで本稿では,この問題を軽減するための簡易かつ効果的な事前学習手法であるquery-as-context pre-trainingを提案する。
Query-as-context プリトレーニングでは、パスから派生したクエリが、そのパスに関連しやすく、パスクエリペアが形成されることを前提としている。
これらのパスクエリペアは、コントラスト的または生成的コンテキスト管理事前トレーニングで使用される。
事前訓練されたモデルは、大規模通過探索ベンチマークとドメイン外ゼロショットベンチマークで評価される。
実験結果から,クエリ・アズ・コンテクスト事前学習はトレーニングを高速化し,その効果と効率性を示した。
私たちのコードはhttps://github.com/caskcsg/ir/tree/main/cotmae-qcで利用可能です。 Recently, methods have been developed to improve the performance of dense passage retrieval by using context-supervised pre-training. These methods simply consider two passages from the same document to be relevant, without taking into account the possibility of weakly correlated pairs. Thus, this paper proposes query-as-context pre-training, a simple yet effective pre-training technique to alleviate the issue. Query-as-context pre-training assumes that the query derived from a passage is more likely to be relevant to that passage and forms a passage-query pair. These passage-query pairs are then used in contrastive or generative context-supervised pre-training. The pre-trained models are evaluated on large-scale passage retrieval benchmarks and out-of-domain zero-shot benchmarks. Experimental results show that query-as-context pre-training brings considerable gains and meanwhile speeds up training, demonstrating its effectiveness and efficiency. Our code will be available at https://github.com/caskcsg/ir/tree/main/cotmae-qc . | 翻訳日:2023-10-18 06:30:46 公開日:2023-10-15 |
# powderworld:リッチなタスク分散による一般化を理解するプラットフォーム Powderworld: A Platform for Understanding Generalization via Rich Task Distributions ( http://arxiv.org/abs/2211.13051v3 ) ライセンス: Link先を確認 | Kevin Frans, Phillip Isola | (参考訳) 強化学習の大きな課題の1つは、新しいタスクに一般化する能力である。
しかし、一般的なエージェントは訓練するために豊富な多様なタスクを必要とする。
そのようなタスクのための'基礎環境'を設計するのは難しい -- 理想的な環境は、様々な創発的な現象、表現力のあるタスク空間、高速なランタイムをサポートするだろう。
この研究ボトルネックに対処するために、この研究は、GPU上で直接実行される軽量で表現力のあるシミュレーション環境であるPowderworldを提示する。
powderworldでは、世界モデリングのためのものと強化学習のためのものという、2つのモチベーションのある課題が提示されている。
それぞれが一般化を調べるための手動で設計されたテストタスクを含んでいる。
実験により、環境の複雑さを増大させることで、世界モデルや特定の強化学習エージェントの一般化が向上するが、高分散環境における学習を阻害する可能性が示唆された。
Powderworldは、同じコアルールから生じる多様なタスクのソースを提供することで、一般化の研究を支援することを目指している。 One of the grand challenges of reinforcement learning is the ability to generalize to new tasks. However, general agents require a set of rich, diverse tasks to train on. Designing a `foundation environment' for such tasks is tricky -- the ideal environment would support a range of emergent phenomena, an expressive task space, and fast runtime. To take a step towards addressing this research bottleneck, this work presents Powderworld, a lightweight yet expressive simulation environment running directly on the GPU. Within Powderworld, two motivating challenges distributions are presented, one for world-modelling and one for reinforcement learning. Each contains hand-designed test tasks to examine generalization. Experiments indicate that increasing the environment's complexity improves generalization for world models and certain reinforcement learning agents, yet may inhibit learning in high-variance environments. Powderworld aims to support the study of generalization by providing a source of diverse tasks arising from the same core rules. | 翻訳日:2023-10-18 06:28:22 公開日:2023-10-15 |
# 超伝導導波路qedにおける長距離量子ビットのベル状態とn$-partite $w$状態の生成 Generating Bell states and $N$-partite $W$ states of long-distance qubits in superconducting waveguide QED ( http://arxiv.org/abs/2302.06204v2 ) ライセンス: Link先を確認 | Guo-Qiang Zhang, Wei Feng, Wei Xiong, Da Xu, Qi-Ping Su, and Chui-Ping Yang | (参考訳) 我々は、SC導波管量子電磁力学(QED)システムにおいて、SC量子ビットをオープンマイクロ波伝送線に結合する長距離超伝導(SC)量子ビットのベル状態と$N$-partite$W$状態を生成する方法を示す。
2量子ビットの場合、2つの長距離量子ビットのベル状態は、適切なシステムパラメータを選択することでシステムのダーク状態となる。
1つのマイクロ波パルスが2つの量子ビットのうちの1つを駆動すると、2つの量子ビットは基底状態からベル状態へと進化する。
さらに、このスキームをマルチキュービットの場合にも拡張する。
我々は、$N$長距離量子ビットの$W$状態も生成可能であることを示す。
ベル状態と$w$状態の両方が導波路(すなわち、システムの暗い状態)から分離されるため、それらは安定しており、量子ビットのデコヒーレンスを伴わない理想の場合、非常に長い寿命を持つ。
理想的な場合とは対照的に、キュービットのデコヒーレンスの存在はベルと$W$状態の寿命を制限する。
本研究は、導波路量子ネットワークにおける長距離ノードの絡み合いに使用できるsc導波路qedにおけるベル状態およびn$-partite $w$状態を生成するための新しいスキームを提供する。 We show how to generate Bell states and $N$-partite $W$ states of long-distance superconducting (SC) qubits in a SC waveguide quantum electrodynamical (QED) system, where SC qubits are coupled to an open microwave transmission line. In the two-qubit case, the Bell state of two long-distance qubits can be a dark state of the system by choosing appropriate system parameters. If one proper microwave pulse drives one of two qubits, the two qubits will evolve from their ground states to a Bell state. Further, we extend this scheme to the multi-qubit case. We show that $W$ states of $N$ long-distance qubits can also be generated. Because both the Bell and $W$ states are decoupled from the waveguide (i.e., dark states of the system), they are steady and have very long lifetimes in the ideal case without decoherence of qubits. In contrast to the ideal case, the presence of decoherence of qubits limits the lifetimes of the Bell and $W$ states. Our study provides a novel scheme for generating Bell states and $N$-partite $W$ states in SC waveguide QED, which can be used to entangle long-distance nodes in waveguide quantum networks. | 翻訳日:2023-10-18 06:10:57 公開日:2023-10-15 |
# 原子キャビティ系におけるコヒーレント完全吸収に基づくマルチチャネル全光スイッチング Multi-channel all-optical switching based on coherent perfect absorption in atom-cavity system ( http://arxiv.org/abs/2302.05609v2 ) ライセンス: Link先を確認 | Liyong Wang and Yifu Zhu | (参考訳) 空洞量子力学(CQED)系における線形および非線形状態におけるブロードバンドコヒーレント完全吸収(CPA)に基づく高効率・ブロードバンド・マルチチャネル全光スイッチング方式を提案する。
光キャビティの両端から結合された2つの信号場は、集合的な強い結合条件下で2つの別々の原子遷移を同時に励起し、3つの偏光子固有状態を生成する。
CPA基準を満たすと、複数のチャネルの出力フィールド強度がゼロとなる。
しかし、破壊的な量子干渉は多極子励起に調整された自由空間弱制御レーザーによって引き起こされる。
その結果、制御磁場が偏光子共鳴をオン/オフすると、CQEDシステムは完全光吸収器/反射器として機能する。
特に, 非線形励振方式において広帯域全光スイッチを実現するために提案手法を用いることができる。
提案手法は、全光ルーティング、全光通信ネットワーク、および様々な量子論理要素を構築するのに有用である。 We propose a high-efficiency, broadband, multi-channel all-optical switching scheme based on broadband coherent perfect absorption (CPA) in linear and nonlinear regimes in cavity quantum electrodynamics (CQED) system. Two signal fields coupled from two ends of an optical cavity excite two separate atomic transitions simultaneously under the collective strong coupling condition and produce three polariton eigenstates which can be tuned freely by varying system parameters. The output field intensities of multiple channels are zero when the CPA criterion is satisfied. However, destructive quantum interference can be induced by a free-space weak control laser tuned to the multi-polariton excitations. As a consequence, the CQED system acts as a perfect light absorber/reflector as the control field is turned on/off the polariton resonances. In particular, the proposed scheme may be used to realize broadband multi-throw all-optical switching in the nonlinear excitation regime. The proposed scheme is useful for constructing all-optical routing, all-optical communication networks and various quantum logic elements. | 翻訳日:2023-10-18 06:10:33 公開日:2023-10-15 |
# 量子ゼノダイナミクスの半古典的極限 The semiclassical limit of a quantum Zeno dynamics ( http://arxiv.org/abs/2302.02673v3 ) ライセンス: Link先を確認 | Fabio Deelan Cunden, Paolo Facchi, Marilena Ligab\`o | (参考訳) 空洞量子電磁力学の設定における量子ゼノダイナミクスに動機づけられ、減少するプランク定数 $\hbar\to0$ と大きな量子数 $n\to\infty$ の半古典的極限において、切断モーメント作用素に対応する記号の族を漸近的に研究する。
適切なトポロジーにおいて、極限は不連続な記号 $p\chi_d(x,p)$ であり、ここで$\chi_d$ は位相空間における古典的に許容される領域 $d$ の特性関数である。
洗練された解析により、記号は関数 $p\chi_D^{(N)}(x,p)$ に漸近的に近づき、$\chi_D^{(N)}$ は統合されたAiry関数に関連する $\chi_D$ の滑らかなバージョンである。
また, 動的観点からの限界についても考察する。 Motivated by a quantum Zeno dynamics in a cavity quantum electrodynamics setting, we study the asymptotics of a family of symbols corresponding to a truncated momentum operator, in the semiclassical limit of vanishing Planck constant $\hbar\to0$ and large quantum number $N\to\infty$, with $\hbar N$ kept fixed. In a suitable topology, the limit is the discontinuous symbol $p\chi_D(x,p)$ where $\chi_D$ is the characteristic function of the classically permitted region $D$ in phase space. A refined analysis shows that the symbol is asymptotically close to the function $p\chi_D^{(N)}(x,p)$, where $\chi_D^{(N)}$ is a smooth version of $\chi_D$ related to the integrated Airy function. We also discuss the limit from a dynamical point of view. | 翻訳日:2023-10-18 06:09:08 公開日:2023-10-15 |
# 周波数変換を用いたディープラーニングに基づく時系列解析の検討 A Survey on Deep Learning based Time Series Analysis with Frequency Transformation ( http://arxiv.org/abs/2302.02173v4 ) ライセンス: Link先を確認 | Kun Yi and Qi Zhang and Longbing Cao and Shoujin Wang and Guodong Long and Liang Hu and Hui He and Zhendong Niu and Wei Fan and Hui Xiong | (参考訳) 近年、周波数変換(FT)が深層学習モデルに組み込まれ、時系列解析における最先端の精度と効率を大幅に向上させている。
高効率性やグローバルな視点といったFTの利点は、様々な時系列タスクやアプリケーションで急速に探求され、時系列分析のための新しいディープラーニングパラダイムとしてのFTの有望な可能性を示している。
この新興分野での注目の高まりと研究の急増にもかかわらず、ftによるディープラーニングベースの時系列モデルの体系的なレビューと詳細な分析が欠如している。
また、FTが時系列解析を拡張できる理由や、その分野における制限については不明である。
そこで本研究では,ftを用いた深層学習に基づく時系列解析における最近の研究成果を体系的に調査し,概説する。
具体的には、FTを取り入れた現在のモデル、FTを利用するニューラルネットワークのタイプ、深層時系列解析におけるFT対応モデルの代表的アプローチについて検討する。
本稿では,この分野における既存の手法を分類する新たな分類法を提案し,時系列解析のための深層学習モデルにFTを取り入れた多様なアプローチについて概説する。
最後に、時系列モデリングにおけるFTの利点と限界を強調し、時系列分析のコミュニティにさらに貢献できる将来的な研究方向を特定する。 Recently, frequency transformation (FT) has been increasingly incorporated into deep learning models to significantly enhance state-of-the-art accuracy and efficiency in time series analysis. The advantages of FT, such as high efficiency and a global view, have been rapidly explored and exploited in various time series tasks and applications, demonstrating the promising potential of FT as a new deep learning paradigm for time series analysis. Despite the growing attention and the proliferation of research in this emerging field, there is currently a lack of a systematic review and in-depth analysis of deep learning-based time series models with FT. It is also unclear why FT can enhance time series analysis and what its limitations in the field are. To address these gaps, we present a comprehensive review that systematically investigates and summarizes the recent research advancements in deep learning-based time series analysis with FT. Specifically, we explore the primary approaches used in current models that incorporate FT, the types of neural networks that leverage FT, and the representative FT-equipped models in deep time series analysis. We propose a novel taxonomy to categorize the existing methods in this field, providing a structured overview of the diverse approaches employed in incorporating FT into deep learning models for time series analysis. Finally, we highlight the advantages and limitations of FT for time series modeling and identify potential future research directions that can further contribute to the community of time series analysis. | 翻訳日:2023-10-18 06:08:50 公開日:2023-10-15 |
# 事前訓練されたlmによるパワー一般時系列分析 One Fits All:Power General Time Series Analysis by Pretrained LM ( http://arxiv.org/abs/2302.11939v6 ) ライセンス: Link先を確認 | Tian Zhou, PeiSong Niu, Xue Wang, Liang Sun, Rong Jin | (参考訳) 自然言語処理 (NLP) やコンピュータビジョン (CV) において, 事前学習モデルに大きな成功をおさめてきたが, 時系列解析の進歩は限られている。
異なるタスクを実行するために統一モデルを使用するNLPやCVとは異なり、特別に設計されたアプローチは、分類、異常検出、予測、少数ショット学習などの時系列分析タスクにおいて依然として支配的である。
時系列分析のための事前訓練されたモデルの開発を妨げる主な課題は、トレーニングのための大量のデータがないことである。
本研究では,数十億のトークンから事前学習した言語やCVモデルを時系列解析に活用することで,この問題に対処する。
具体的には、事前学習言語や画像モデルにおける残余ブロックの自己注意層やフィードフォワード層の変更を控える。
このモデルはFPT(Frozen Pretrained Transformer)と呼ばれ、時系列を含む全ての主要なタスクを微調整することで評価される。
その結果、自然言語や画像で事前学習されたモデルが、図1に示すように、すべての時系列分析タスクで同等あるいは最先端のパフォーマンスをもたらすことが示されています。
また,この自己注意モジュールの動作が原則成分分析(PCA)と類似していることが理論的にも実証的にも証明された。これはトランスフォーマーがドメインギャップをいかに橋渡しするかを説明するのに役立ち,事前学習したトランスフォーマーの普遍性を理解するための重要なステップである。このコードはhttps://github.com/DAMO-DI-ML/One_Fits_Allで公開されている。 Although we have witnessed great success of pre-trained models in natural language processing (NLP) and computer vision (CV), limited progress has been made for general time series analysis. Unlike NLP and CV where a unified model can be used to perform different tasks, specially designed approach still dominates in each time series analysis task such as classification, anomaly detection, forecasting, and few-shot learning. The main challenge that blocks the development of pre-trained model for time series analysis is the lack of a large amount of data for training. In this work, we address this challenge by leveraging language or CV models, pre-trained from billions of tokens, for time series analysis. Specifically, we refrain from altering the self-attention and feedforward layers of the residual blocks in the pre-trained language or image model. This model, known as the Frozen Pretrained Transformer (FPT), is evaluated through fine-tuning on all major types of tasks involving time series. Our results demonstrate that pre-trained models on natural language or images can lead to a comparable or state-of-the-art performance in all main time series analysis tasks, as illustrated in Figure 1. We also found both theoretically and empirically that the self-attention module behaviors similarly to principle component analysis (PCA), an observation that helps explains how transformer bridges the domain gap and a crucial step towards understanding the universality of a pre-trained transformer.The code is publicly available at https://github.com/DAMO-DI-ML/One_Fits_All. | 翻訳日:2023-10-18 05:58:35 公開日:2023-10-15 |
# 透かし拡散モデルのためのレシピ A Recipe for Watermarking Diffusion Models ( http://arxiv.org/abs/2303.10137v2 ) ライセンス: Link先を確認 | Yunqing Zhao, Tianyu Pang, Chao Du, Xiao Yang, Ngai-Man Cheung, Min Lin | (参考訳) 拡散モデル(dms)は生成的タスクにおいて有利な可能性を示している。
フォトリアリスティック画像の生成や編集など、DMを下流のアプリケーションに組み込むことには幅広い関心がある。
しかし、dmsの実用的な展開と前例のない力は著作権保護や生成コンテンツの監視といった法的問題を引き起こす。
この点において、ウォーターマーキングは著作権保護とコンテンツ監視の証明済みのソリューションであるが、DMの文献では過小評価されている。
具体的には、DMはより長い線路からサンプルを生成し、新しく設計されたマルチモーダル構造を持つ可能性がある。
そこで本研究では,スクラッチや微調整からのトレーニングを通じて,最先端dms(例えば安定拡散)を効率的に透かし出すためのレシピを総合的に解析し,導出する。
われわれのレシピは単純だが、実装の詳細を実証的に改善し、将来の透かしDM研究の基礎を提供する。
コードはhttps://github.com/yunqing-me/WatermarkDMで入手できる。 Diffusion models (DMs) have demonstrated advantageous potential on generative tasks. Widespread interest exists in incorporating DMs into downstream applications, such as producing or editing photorealistic images. However, practical deployment and unprecedented power of DMs raise legal issues, including copyright protection and monitoring of generated content. In this regard, watermarking has been a proven solution for copyright protection and content monitoring, but it is underexplored in the DMs literature. Specifically, DMs generate samples from longer tracks and may have newly designed multimodal structures, necessitating the modification of conventional watermarking pipelines. To this end, we conduct comprehensive analyses and derive a recipe for efficiently watermarking state-of-the-art DMs (e.g., Stable Diffusion), via training from scratch or finetuning. Our recipe is straightforward but involves empirically ablated implementation details, providing a foundation for future research on watermarking DMs. The code is available at https://github.com/yunqing-me/WatermarkDM. | 翻訳日:2023-10-18 05:49:58 公開日:2023-10-15 |
# 非局所計算とブラックホール内部 Non-local computation and the black hole interior ( http://arxiv.org/abs/2304.11184v2 ) ライセンス: Link先を確認 | Alex May and Michelle Xu | (参考訳) 両面のブラックホールでは、反対の漸近領域から落ちてくる系がブラックホールの内部で衝突し相互作用する。
それぞれの漸近領域を記述する2つのcftは相互作用しないが、この場合である。
ここでは、地平線相互作用の背後にあるこれらを非局所量子計算に関連付ける。
これにより、これらの相互作用に関する量子回路の視点が得られ、ブラックホールの内側と任意の次元にある特定の極端表面の過去の相互作用がいつでも適用される。
我々はさらに,一方のサイドアドバンスジオメトリーにおけるバルクインタラクションと非局所計算の間に議論された接続を再検討し,その接続をより正確にするための新たな視点を提供するために,いくつかの手法を再利用した。 In a two sided black hole, systems falling in from opposite asymptotic regions can meet inside the black hole and interact. This is the case even while the two CFTs describing each asymptotic region are non-interacting. Here, we relate these behind the horizon interactions to non-local quantum computations. This gives a quantum circuit perspective on these interactions, which applies whenever the interaction occurs in the past of a certain extremal surface that sits inside the black hole and in arbitrary dimension. We further revisit the connection discussed earlier between bulk interactions in one sided AdS geometries and non-local computation, and recycle some of our techniques to offer a new perspective on making that connection precise. | 翻訳日:2023-10-18 05:41:10 公開日:2023-10-15 |
# 低リソース地震探査のための伝搬構造を持つ一貫したコントラスト伝達フレームワーク A Unified Contrastive Transfer Framework with Propagation Structure for Boosting Low-Resource Rumor Detection ( http://arxiv.org/abs/2304.01492v4 ) ライセンス: Link先を確認 | Hongzhan Lin, Jing Ma, Ruichao Yang, Zhiwei Yang, Mingfei Cheng | (参考訳) 事実は、ニュースや人気の話題とともに広まる巨大な噂によって著しく妨げられている。
モデルトレーニングのために同じドメインから集めた十分なコーパスがあるため、既存の噂検出アルゴリズムは昨日のニュースで有望なパフォーマンスを示している。
しかし、十分な訓練データや事前の専門家知識が欠如しているため、予期せぬ出来事、特に異なる言語(低資源体制)で伝播した出来事に関する噂を見つけるのが苦手である。
本稿では,噂データから得られた特徴を,少数のアノテーションを用いた低リソース化に適応させることで,噂を検出するための一貫したコントラッシブトランスファーフレームワークを提案する。
より具体的には、まずソーシャルメディア上で流布された噂を、ユーザの意見の相互作用を強化するための無向的トポロジーとして表現し、次いで、統合されたコントラストパラダイムを介してマルチスケールグラフ畳み込みネットワークを訓練し、ポストセマンティクスと伝播構造から効果的な手がかりを同時に抽出する。
我々のモデルは、言語アライメントと新しいドメイン適応型コントラスト学習機構を通じて、ドメインおよび/または言語問題の障壁を明示的に破る。
対象イベントに注釈を付けて表現学習を高度に一般化するため,うわさ表示信号は,その分布の均一性と密接な相関関係にあることを明らかにした。
対象イベントを識別して表現を統一できる,3つのイベントレベルデータ拡張戦略を備えたターゲットワイドコントラストトレーニング機構を設計する。
実世界のマイクロブログプラットフォームから収集した4つの低リソースデータセットによる大規模な実験により、我々のフレームワークは最先端の手法よりもはるかに優れた性能を示し、早期に噂を検出する能力を示している。 The truth is significantly hampered by massive rumors that spread along with breaking news or popular topics. Since there is sufficient corpus gathered from the same domain for model training, existing rumor detection algorithms show promising performance on yesterday's news. However, due to a lack of substantial training data and prior expert knowledge, they are poor at spotting rumors concerning unforeseen events, especially those propagated in different languages (i.e., low-resource regimes). In this paper, we propose a unified contrastive transfer framework to detect rumors by adapting the features learned from well-resourced rumor data to that of the low-resourced with only few-shot annotations. More specifically, we first represent rumor circulated on social media as an undirected topology for enhancing the interaction of user opinions, and then train a Multi-scale Graph Convolutional Network via a unified contrastive paradigm to mine effective clues simultaneously from post semantics and propagation structure. Our model explicitly breaks the barriers of the domain and/or language issues, via language alignment and a novel domain-adaptive contrastive learning mechanism. To well-generalize the representation learning using a small set of annotated target events, we reveal that rumor-indicative signal is closely correlated with the uniformity of the distribution of these events. We design a target-wise contrastive training mechanism with three event-level data augmentation strategies, capable of unifying the representations by distinguishing target events. Extensive experiments conducted on four low-resource datasets collected from real-world microblog platforms demonstrate that our framework achieves much better performance than state-of-the-art methods and exhibits a superior capacity for detecting rumors at early stages. | 翻訳日:2023-10-18 05:39:36 公開日:2023-10-15 |
# 大規模モデル生成モデルからの最適空間デコンボリューションとメッセージ再構成 Optimal Spatial Deconvolution and Message Reconstruction from a Large Generative Model of Models ( http://arxiv.org/abs/2303.16045v2 ) ライセンス: Link先を確認 | Hector Zenil, Alyssa Adams, and Felipe S. Abrah\~ao | (参考訳) 本稿では,任意の事前確率分布に依存しない汎用モデルのモデルを構築するために,人工知能へのアプローチの原理に基づく不定信号デコンボリューション法を提案する。
信号やメッセージがエンコードされたり、埋め込まれたり、生成されたりする空間の次元や長さなど、非ランダムなデータが物理的性質に関する情報をエンコードする方法について検討する。
多次元空間再構成法は情報理論とアルゴリズムの確率に基づいており、任意に選択された符号化-復号法、計算可能あるいは半計算可能なアルゴリズム複雑性近似法、計算モデルが無知であることを証明している。
本論文は, 符号化理論の応用において有用であり, 特に, 事前知識が得られず, 返却メッセージが送信できない未知発生源からのメッセージの復号化など, ゼロ知識の一方向通信チャネルにおいて有用である。
我々は,この手法が暗号,信号処理,因果分解,生命,技術信号検出において大きな価値を持つ可能性を主張する。 We introduce a univariate signal deconvolution method based on the principles of an approach to Artificial General Intelligence in order to build a general-purpose model of models independent of any arbitrarily assumed prior probability distribution. We investigate how non-random data may encode information about the physical properties, such as dimensions and length scales of the space in which a signal or message may have been originally encoded, embedded, or generated. Our multidimensional space reconstruction method is based on information theory and algorithmic probability, so that it is proven to be agnostic vis-a-vis the arbitrarily chosen encoding-decoding scheme, computable or semi-computable method of approximation to algorithmic complexity, and computational model. The results presented in this paper are useful for applications in coding theory, particularly in zero-knowledge one-way communication channels, such as in deciphering messages from unknown generating sources about which no prior knowledge is available and to which no return message can be sent. We argue that this method has the potential to be of great value in cryptography, signal processing, causal deconvolution, life and technosignature detection. | 翻訳日:2023-10-18 05:37:28 公開日:2023-10-15 |
# 多値量子ニューロン Multi-Valued Quantum Neurons ( http://arxiv.org/abs/2305.02018v3 ) ライセンス: Link先を確認 | M. W. AlMasri | (参考訳) 多値量子論理は、量子状態のバーグマン表現を用いて体系的に定式化される。
このアプローチでは、真理値は自然に単位円上に置かれるユニタリのユニークな根として表される。
したがって、多値量子ニューロンは複素数体上の多重値しきい値論理の原理に基づいている。
MVQNの訓練は、単位円に沿った運動に還元される。
多値量子ニューロンに基づく量子ニューラルネットワーク(QNN)は、複雑な重み、入力、単位のルートで符号化された出力と、複素平面を単位円にマッピングする活性化関数で構築することができる。
このようなニューラルネットワークは、同じ数のニューロンと層を持つバイナリ入力に基づく量子ニューラルネットワークと比較して、高速収束と高機能を享受する。
可能な実用的な応用は、光や分子スピンquditsのような多レベル系の軌道角運動量(oam)から構築された量子ニューラルネットワークを用いることができる。 The multiple-valued quantum logic is formulated in a systematic way using the Bargmann representation of quantum states. In this approach, the truth values are represented naturally as unique roots of unity placed on the unit circle. Consequently, multi-valued quantum neurons are based on the principles of multiple-valued threshold logic over the field of complex numbers. The training of MVQN is reduced to the movement along the unit circle. A quantum neural network (QNN) based on multi-valued quantum neurons can be constructed with complex weights, inputs, and outputs encoded by roots of unity and an activation function that maps the complex plane into the unit circle. Such neural networks enjoy fast convergence and higher functionalities compared with quantum neural networks based on binary input with the same number of neurons and layers. Possible practical applications can be found using the quantum neural networks built from orbital angular momentum (OAM) of light or multi-level systems such as molecular spin qudits. | 翻訳日:2023-10-18 05:31:07 公開日:2023-10-15 |
# H2CGL:衝突予測のための循環ネットワークのモデリングダイナミクス H2CGL: Modeling Dynamics of Citation Network for Impact Prediction ( http://arxiv.org/abs/2305.01572v3 ) ライセンス: Link先を確認 | Guoxiu He, Zhikai Xue, Zhuoren Jiang, Yangyang Kang, Star Zhao, Wei Lu | (参考訳) 紙の潜在的な影響は、何個の引用を受け取るかによって定量化されることが多い。
しかし、最も一般的に使われているモデルは、新しく出版された論文の影響を過小評価し、引用ネットワークのこのダイナミクスをグラフにカプセル化できないことがある。
本研究では,対象論文の階層的および異質なグラフを年次視点で構築する。
構築されたグラフは、対象論文の科学的文脈情報の年次ダイナミクスを記録することができる。
そこで,新しいグラフニューラルネットワークである階層的および不均質なコントラストグラフ学習モデル(h2cgl)を提案する。
h2cglは、各年度の異種情報を別々に集約し、高引用された論文と参照、引用、対象論文の関係を優先する。
その後、重み付きジンを使って、長年にわたって不均一な部分グラフ間のダイナミクスをキャプチャする。
さらに、コントラスト学習を活用して、グラフ表現を潜在的引用により敏感にする。
特に、大きな引用ギャップを有する対象紙の共引用または共引用用紙を硬い負の試料とし、低引用用紙をランダムに落として正のサンプルを生成することができる。
2つの学術データセットに関する広範な実験の結果は、提案されているh2cglが、以前の論文と新しい論文の両方のベースラインアプローチを大きく上回っていることを示している。
さらなる分析は、提案されたモジュールの重要性を強調している。
私たちのコードと設定はGithub(https://github.com/ECNU-Text-Computing/H2CGL)で公開されています。 The potential impact of a paper is often quantified by how many citations it will receive. However, most commonly used models may underestimate the influence of newly published papers over time, and fail to encapsulate this dynamics of citation network into the graph. In this study, we construct hierarchical and heterogeneous graphs for target papers with an annual perspective. The constructed graphs can record the annual dynamics of target papers' scientific context information. Then, a novel graph neural network, Hierarchical and Heterogeneous Contrastive Graph Learning Model (H2CGL), is proposed to incorporate heterogeneity and dynamics of the citation network. H2CGL separately aggregates the heterogeneous information for each year and prioritizes the highly-cited papers and relationships among references, citations, and the target paper. It then employs a weighted GIN to capture dynamics between heterogeneous subgraphs over years. Moreover, it leverages contrastive learning to make the graph representations more sensitive to potential citations. Particularly, co-cited or co-citing papers of the target paper with large citation gap are taken as hard negative samples, while randomly dropping low-cited papers could generate positive samples. Extensive experimental results on two scholarly datasets demonstrate that the proposed H2CGL significantly outperforms a series of baseline approaches for both previously and freshly published papers. Additional analyses highlight the significance of the proposed modules. Our codes and settings have been released on Github (https://github.com/ECNU-Text-Computing/H2CGL) | 翻訳日:2023-10-18 05:30:46 公開日:2023-10-15 |
# 安定端におけるロジスティック回帰に対する勾配降下の暗黙的バイアス Implicit Bias of Gradient Descent for Logistic Regression at the Edge of Stability ( http://arxiv.org/abs/2305.11788v2 ) ライセンス: Link先を確認 | Jingfeng Wu, Vladimir Braverman, Jason D. Lee | (参考訳) 近年の機械学習最適化では、勾配降下(GD)が安定性の端(EoS)[Cohen, et al., 2021]で動作し、ステップサイズが大きくなるとGDの反復による非単調な損失が発生することが観察されている。
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数ステップGDの収束と暗黙バイアスについて検討する。
局所的な振動が存在するにもかかわらず、ロジスティック損失は、長時間のスケールで \emph{any} 定数の GD によって最小化できることを示す。
さらに, \emph{any} 定数がステップ化すると,gdイテレートは最大マージン方向(ハードマージンsvm方向)に射影すると無限になりがちで,最大マージン方向の直交補関数に射影するときに強い凸ポテンシャルを最小化する固定ベクトルに収束する。
対照的に、EoS体制においては、GD反復剤は指数的損失の下で破滅的に分散し、ロジスティック損失の優位性を示す。
これらの理論的な結果は数値シミュレーションと一致し、ステップ化が十分小さい場合にのみ適用できるロジスティック回帰に対するgdの収束と暗黙のバイアスに関する既存の理論を補完する。 Recent research has observed that in machine learning optimization, gradient descent (GD) often operates at the edge of stability (EoS) [Cohen, et al., 2021], where the stepsizes are set to be large, resulting in non-monotonic losses induced by the GD iterates. This paper studies the convergence and implicit bias of constant-stepsize GD for logistic regression on linearly separable data in the EoS regime. Despite the presence of local oscillations, we prove that the logistic loss can be minimized by GD with \emph{any} constant stepsize over a long time scale. Furthermore, we prove that with \emph{any} constant stepsize, the GD iterates tend to infinity when projected to a max-margin direction (the hard-margin SVM direction) and converge to a fixed vector that minimizes a strongly convex potential when projected to the orthogonal complement of the max-margin direction. In contrast, we also show that in the EoS regime, GD iterates may diverge catastrophically under the exponential loss, highlighting the superiority of the logistic loss. These theoretical findings are in line with numerical simulations and complement existing theories on the convergence and implicit bias of GD for logistic regression, which are only applicable when the stepsizes are sufficiently small. | 翻訳日:2023-10-18 05:20:23 公開日:2023-10-15 |
# 指数グラフを超えて:有限時間収束による分散学習のための通信効率の高いトポロジー Beyond Exponential Graph: Communication-Efficient Topologies for Decentralized Learning via Finite-time Convergence ( http://arxiv.org/abs/2305.11420v2 ) ライセンス: Link先を確認 | Yuki Takezawa, Ryoma Sato, Han Bao, Kenta Niwa, Makoto Yamada | (参考訳) 分散学習は、並列計算とプライバシ保護におけるその応用に注目が集まっている。
最近の多くの研究は、より高速なコンセンサス率(スペクトルギャップ)を持つネットワークトポロジーは、分散学習においてより良い収束率と精度をもたらすと述べている。
しかし、例えば指数グラフのような高速なコンセンサスレートを持つトポロジーは、一般的に大きな最大次数を持ち、大きな通信コストがかかる。
したがって、高速なコンセンサス率と小さい最大度の両方を持つ位相を求めることが重要である。
本研究では,高速なコンセンサス率とBase-$(k + 1)$ Graphと呼ばれる最小次を併用した新しいトポロジーを提案する。
既存のトポロジとは異なり、base-$(k + 1)$ graph は全てのノードが任意のノード数と最大次数 k に対して有限個の反復の後に正確なコンセンサスに達することができる。
この好ましい性質のおかげで、Base-$(k + 1)$ Graph は指数グラフよりも高速収束率と通信効率の高い分散 SGD (DSGD) を提供する。
そこで我々は,Base-$(k + 1)$ Graph を用いて様々なトポロジを用いた実験を行い,既存のトポロジよりも高い通信効率で,分散学習を実現できることを示した。 Decentralized learning has recently been attracting increasing attention for its applications in parallel computation and privacy preservation. Many recent studies stated that the underlying network topology with a faster consensus rate (a.k.a. spectral gap) leads to a better convergence rate and accuracy for decentralized learning. However, a topology with a fast consensus rate, e.g., the exponential graph, generally has a large maximum degree, which incurs significant communication costs. Thus, seeking topologies with both a fast consensus rate and small maximum degree is important. In this study, we propose a novel topology combining both a fast consensus rate and small maximum degree called the Base-$(k + 1)$ Graph. Unlike the existing topologies, the Base-$(k + 1)$ Graph enables all nodes to reach the exact consensus after a finite number of iterations for any number of nodes and maximum degree k. Thanks to this favorable property, the Base-$(k + 1)$ Graph endows Decentralized SGD (DSGD) with both a faster convergence rate and more communication efficiency than the exponential graph. We conducted experiments with various topologies, demonstrating that the Base-$(k + 1)$ Graph enables various decentralized learning methods to achieve higher accuracy with better communication efficiency than the existing topologies. | 翻訳日:2023-10-18 05:19:53 公開日:2023-10-15 |
# superdialseg:教師付き対話セグメンテーションのための大規模データセット SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation ( http://arxiv.org/abs/2305.08371v2 ) ライセンス: Link先を確認 | Junfeng Jiang, Chengzhang Dong, Sadao Kurohashi, Akiko Aizawa | (参考訳) 対話セグメンテーションは対話システムにとって重要な課題であり、会話テキストの理解を深める。
教師なし対話のセグメンテーション手法が近年進歩しているにもかかわらず、その性能は訓練のための明示的な教師付き信号の欠如によって制限されている。
さらに、会話におけるセグメンテーションポイントの正確な定義は依然として困難な問題であり、手作業によるアノテーションの収集が困難になる。
本稿では,2つの対話コーパスに基づく9,478の対話を含むsuperdialsegと呼ばれる大規模教師付きデータセットをリリースし,その有用な対話関連アノテーションを継承することで,対話セグメンテーションポイントを実現可能な定義を行う。
さらに,対話セグメンテーションタスクの5つのカテゴリにまたがる18のモデルを含むベンチマークを,いくつかの適切な評価指標で提供する。
実証的研究により、教師付き学習はドメイン内データセットやSuperDialsegでトレーニングされたモデルに極めて効果的であることが示され、ドメイン外のデータに対して優れた一般化能力が得られる。
また,テストセット上で人間による検証を行い,Kappaスコアから自動構築したデータセットの品質を確認した。
私たちの仕事は対話セグメンテーションの分野で重要な一歩だと信じています。
私たちのコードとデータは、https://github.com/Coldog2333/SuperDialsegから参照できます。 Dialogue segmentation is a crucial task for dialogue systems allowing a better understanding of conversational texts. Despite recent progress in unsupervised dialogue segmentation methods, their performances are limited by the lack of explicit supervised signals for training. Furthermore, the precise definition of segmentation points in conversations still remains as a challenging problem, increasing the difficulty of collecting manual annotations. In this paper, we provide a feasible definition of dialogue segmentation points with the help of document-grounded dialogues and release a large-scale supervised dataset called SuperDialseg, containing 9,478 dialogues based on two prevalent document-grounded dialogue corpora, and also inherit their useful dialogue-related annotations. Moreover, we provide a benchmark including 18 models across five categories for the dialogue segmentation task with several proper evaluation metrics. Empirical studies show that supervised learning is extremely effective in in-domain datasets and models trained on SuperDialseg can achieve good generalization ability on out-of-domain data. Additionally, we also conducted human verification on the test set and the Kappa score confirmed the quality of our automatically constructed dataset. We believe our work is an important step forward in the field of dialogue segmentation. Our codes and data can be found from: https://github.com/Coldog2333/SuperDialseg. | 翻訳日:2023-10-18 05:18:18 公開日:2023-10-15 |
# あなたの説明は信頼できますか?
xaiと敵対的攻撃によるテキスト分類におけるライムの安定性の検討 Are Your Explanations Reliable? Investigating the Stability of LIME in Explaining Text Classifiers by Marrying XAI and Adversarial Attack ( http://arxiv.org/abs/2305.12351v2 ) ライセンス: Link先を確認 | Christopher Burger, Lingwei Chen, Thai Le | (参考訳) LIMEは、医療やファイナンスなど、重要な機械学習アプリケーションに統合される説明可能なAI(XAI)フレームワークにおいて、最も一般的なツールの1つとして登場した。
しかし、テキスト空間の制約のため、特にテキストデータの文脈において、その安定性はほとんど探求されていない。
そこで本研究では,まず,テキストデータに対するlimeの固有不安定性を評価し,ベースラインを確立するとともに,テキスト入力を摂動させ,テキスト摂動最適化問題としてlimeの安定性を問う説明を操る新しいアルゴリズムであるxaifoolerを提案する。
XAIFoolerは、テキストセマンティクスとオリジナルの予測を小さな摂動で保存する制約に準拠しており、説明類似度尺度のすべての要件を満たすXAIFoolerの最適化を導く重要な部分としてランクバイアスオーバーラップ(RBO)を導入している。
実世界のテキストデータセットに関する大規模な実験により、XAIFoolerはLIMEの説明を高いセマンティックな保存性で操作する能力において、すべてのベースラインを大幅に上回ることを示した。 LIME has emerged as one of the most commonly referenced tools in explainable AI (XAI) frameworks that is integrated into critical machine learning applications--e.g., healthcare and finance. However, its stability remains little explored, especially in the context of text data, due to the unique text-space constraints. To address these challenges, in this paper, we first evaluate the inherent instability of LIME on text data to establish a baseline, and then propose a novel algorithm XAIFooler to perturb text inputs and manipulate explanations that casts investigation on the stability of LIME as a text perturbation optimization problem. XAIFooler conforms to the constraints to preserve text semantics and original prediction with small perturbations, and introduces Rank-biased Overlap (RBO) as a key part to guide the optimization of XAIFooler that satisfies all the requirements for explanation similarity measure. Extensive experiments on real-world text datasets demonstrate that XAIFooler significantly outperforms all baselines by large margins in its ability to manipulate LIME's explanations with high semantic preservability. | 翻訳日:2023-10-18 05:08:47 公開日:2023-10-15 |
# gibbs状態生成のための変分量子アルゴリズム Variational Quantum Algorithms for Gibbs State Preparation ( http://arxiv.org/abs/2305.17713v2 ) ライセンス: Link先を確認 | Mirko Consiglio | (参考訳) ノイズの多い中間スケール量子(NISQ)デバイス上で相互作用する量子多体系のギブス状態を作成することは、量子状態における熱力学的性質を探索するための重要な課題である。
熱化や平衡外熱力学などの理解プロトコルや、忠実に準備されたギブス状態からのサンプリングは、量子アルゴリズムに有用なリソースを提供する方法を作ることができる。
変分量子アルゴリズム(VQA)はギブス状態の効率的な準備において最も有望であるが、NISQコンピュータ上でギブス状態の効率的な決定と準備に応用できる多くの異なるアプローチがある。
本稿では,Gibs状態を生成するアルゴリズムを簡潔に概説する。例えば,システム環境結合のハミルトン的発展,量子空想時間進化,ヘルムホルツ自由エネルギーをコスト関数として利用した現代のVQAなどである。
さらに,consiglioら (arxiv:2303.11276) が開発した最新の変分ギブス状態生成アルゴリズムのベンチマークを行い,スピン1/2 1次元 xy$モデルに適用した。 Preparing the Gibbs state of an interacting quantum many-body system on noisy intermediate-scale quantum (NISQ) devices is a crucial task for exploring the thermodynamic properties in the quantum regime. It encompasses understanding protocols such as thermalization and out-of-equilibrium thermodynamics, as well as sampling from faithfully prepared Gibbs states could pave the way to providing useful resources for quantum algorithms. Variational quantum algorithms (VQAs) show the most promise in effciently preparing Gibbs states, however, there are many different approaches that could be applied to effectively determine and prepare Gibbs states on a NISQ computer. In this paper, we provide a concise overview of the algorithms capable of preparing Gibbs states, including joint Hamiltonian evolution of a system-environment coupling, quantum imaginary time evolution, and modern VQAs utilizing the Helmholtz free energy as a cost function, among others. Furthermore, we perform a benchmark of one of the latest variational Gibbs state preparation algorithms, developed by Consiglio et al. (arXiv:2303.11276), by applying it to the spin 1/2 one-dimensional $XY$ model. | 翻訳日:2023-10-18 05:00:24 公開日:2023-10-15 |
# VoxDet: 新しいインスタンス検出のためのVoxel Learning VoxDet: Voxel Learning for Novel Instance Detection ( http://arxiv.org/abs/2305.17220v4 ) ライセンス: Link先を確認 | Bowen Li, Jiashun Wang, Yaoyu Hu, Chen Wang, Sebastian Scherer | (参考訳) マルチビューテンプレートに基づくunseenインスタンスの検出は、そのオープンワールドの性質上、難しい問題である。
2次元表現とマッチング技術に主に依存する伝統的な方法論は、ポーズのバリエーションやオクルージョンを扱うのに不十分であることが多い。
この問題を解決するために,我々は,強力な3次元ボクセル表現と信頼性の高いボクセルマッチング機構をフルに活用した,先駆的な3次元幾何認識フレームワークvoxdetを紹介する。
VoxDetはまず、マルチビュー2D画像を効果的に3Dボクセル特徴に変換するテンプレートボクセルアグリゲーション(TVA)モジュールを提案する。
関連するカメラポーズを活用することで、これらの機能はコンパクトな3dテンプレートvoxelに集約される。
新規なインスタンス検出では、このボクセル表現は閉塞に対する抵抗性を高め、変動を生じさせる。
また,TVAの2D-3Dマッピングを事前学習する上で,3次元再構成の目的が有効であることが判明した。
次に、VoxDetはテンプレートのvoxelと迅速に連携するために、Query Voxel Matching (QVM)モジュールを組み込んでいる。
2dクエリはまず、学習した2d-3dマッピングでvoxel表現に変換される。
3次元ボクセル表現は幾何学をエンコードするので、まず相対回転を推定し、配置されたボクセルを比較することで精度と効率が向上する。
メソッドに加えて,最初のインスタンス検出ベンチマークであるrobotoolsも導入し,20個のユニークなインスタンスをカメラのextrinsicでビデオ記録する。
RoboToolsはまた、9kボックスのアノテーションで24の難解なシナリオを提供する。
要求されるLineMod-Occlusion、YCB-video、RoboToolsベンチマークにおいて、VoxDetは高速で様々な2Dベースラインを著しく上回っている。
我々の知る限りでは、VoxDetは暗黙の3D知識を2D斬新なインスタンス検出タスクに取り入れた最初の企業です。 Detecting unseen instances based on multi-view templates is a challenging problem due to its open-world nature. Traditional methodologies, which primarily rely on 2D representations and matching techniques, are often inadequate in handling pose variations and occlusions. To solve this, we introduce VoxDet, a pioneer 3D geometry-aware framework that fully utilizes the strong 3D voxel representation and reliable voxel matching mechanism. VoxDet first ingeniously proposes template voxel aggregation (TVA) module, effectively transforming multi-view 2D images into 3D voxel features. By leveraging associated camera poses, these features are aggregated into a compact 3D template voxel. In novel instance detection, this voxel representation demonstrates heightened resilience to occlusion and pose variations. We also discover that a 3D reconstruction objective helps to pre-train the 2D-3D mapping in TVA. Second, to quickly align with the template voxel, VoxDet incorporates a Query Voxel Matching (QVM) module. The 2D queries are first converted into their voxel representation with the learned 2D-3D mapping. We find that since the 3D voxel representations encode the geometry, we can first estimate the relative rotation and then compare the aligned voxels, leading to improved accuracy and efficiency. In addition to method, we also introduce the first instance detection benchmark, RoboTools, where 20 unique instances are video-recorded with camera extrinsic. RoboTools also provides 24 challenging cluttered scenarios with more than 9k box annotations. Exhaustive experiments are conducted on the demanding LineMod-Occlusion, YCB-video, and RoboTools benchmarks, where VoxDet outperforms various 2D baselines remarkably with faster speed. To the best of our knowledge, VoxDet is the first to incorporate implicit 3D knowledge for 2D novel instance detection tasks. | 翻訳日:2023-10-18 05:00:03 公開日:2023-10-15 |
# 多頭注意のための強度柱の探索 Finding the Pillars of Strength for Multi-Head Attention ( http://arxiv.org/abs/2305.14380v2 ) ライセンス: Link先を確認 | Jinjie Ni, Rui Mao, Zonglin Yang, Han Lei, Erik Cambria | (参考訳) 近年の研究では、冗長性や過パラメータ化といったマルチヘッド注意(MHA)の問題が指摘されている。
特に、MHAの頭はもともと異なる表現部分空間からの情報に対応するように設計されていたが、以前の研究では、一部の注意頭は類似した特徴を学習し、性能を損なうことなく刈り取られる可能性があることが判明した。
最小冗長性の特徴選択に触発されて、最小リソースで最も代表的で独特な特徴に注目することは、上記の問題を緩和し、より効率的かつ効率的なMHAをもたらすと仮定する。
特に,各群が本質的かつ特有な特徴部分集合に注目する,グループ注意頭という,グループ注意頭という,自己教師付きグループ制約を訓練したグループ頭注意を提案する。
さらに,冗長な頭部を除去し,軽量の変圧器を実現するための投票手続きを提案する。
さらに,提案手法は,パラメータをかなり圧縮しながら,三つの確固としたタスクに対して大幅な性能向上を実現する。 Recent studies have revealed some issues of Multi-Head Attention (MHA), e.g., redundancy and over-parameterization. Specifically, the heads of MHA were originally designed to attend to information from different representation subspaces, whereas prior studies found that some attention heads likely learn similar features and can be pruned without harming performance. Inspired by the minimum-redundancy feature selection, we assume that focusing on the most representative and distinctive features with minimum resources can mitigate the above issues and lead to more effective and efficient MHAs. In particular, we propose Grouped Head Attention, trained with a self-supervised group constraint that group attention heads, where each group focuses on an essential but distinctive feature subset. We additionally propose a Voting-to-Stay procedure to remove redundant heads, thus achieving a transformer with lighter weights. Moreover, our method achieves significant performance gains on three well-established tasks while considerably compressing parameters. | 翻訳日:2023-10-18 04:57:46 公開日:2023-10-15 |
# 3分間のデータから学習と一般化:物理制約と不確実性を考慮したニューラル確率微分方程式 How to Learn and Generalize From Three Minutes of Data: Physics-Constrained and Uncertainty-Aware Neural Stochastic Differential Equations ( http://arxiv.org/abs/2306.06335v2 ) ライセンス: Link先を確認 | Franck Djeumou and Cyrus Neary and Ufuk Topcu | (参考訳) 本稿では、ニューラルネットワークによってドリフト項と拡散項がパラメータ化されるSDEを用いて、制御力学モデルを学ぶためのフレームワークとアルゴリズムを提案する。
我々は,事前の物理学知識を帰納的バイアスとして活用するためにドリフト項を構築し,学習モデルの予測の不確実性に対する距離認識推定を表す拡散項を設計した。
提案するニューラルsdesはモデル予測制御アルゴリズムで使用するのに十分な速さで評価できるし、モデルに基づく強化学習のシミュレータとして使うことができる。
さらに、状態空間の限られた領域をカバーする小さなデータセットでトレーニングされた場合でも、長時間の地平線を越えて正確な予測を行う。
手動で収集した3分間の飛行データを用いてトレーニングされたニューラルSDEは、ヘキサコプターの速度とオイラー角を正確に追跡し、トレーニングデータセットで観測された最大値のほぼ2倍の速度で、攻撃的な軌道を正確に追跡するモデルベースの制御ポリシーを実行します。 We present a framework and algorithms to learn controlled dynamics models using neural stochastic differential equations (SDEs) -- SDEs whose drift and diffusion terms are both parametrized by neural networks. We construct the drift term to leverage a priori physics knowledge as inductive bias, and we design the diffusion term to represent a distance-aware estimate of the uncertainty in the learned model's predictions -- it matches the system's underlying stochasticity when evaluated on states near those from the training dataset, and it predicts highly stochastic dynamics when evaluated on states beyond the training regime. The proposed neural SDEs can be evaluated quickly enough for use in model predictive control algorithms, or they can be used as simulators for model-based reinforcement learning. Furthermore, they make accurate predictions over long time horizons, even when trained on small datasets that cover limited regions of the state space. We demonstrate these capabilities through experiments on simulated robotic systems, as well as by using them to model and control a hexacopter's flight dynamics: A neural SDE trained using only three minutes of manually collected flight data results in a model-based control policy that accurately tracks aggressive trajectories that push the hexacopter's velocity and Euler angles to nearly double the maximum values observed in the training dataset. | 翻訳日:2023-10-18 04:50:54 公開日:2023-10-15 |
# GCT-TTE:旅行時間推定のためのグラフ畳み込み変換器 GCT-TTE: Graph Convolutional Transformer for Travel Time Estimation ( http://arxiv.org/abs/2306.04324v2 ) ライセンス: Link先を確認 | Vladimir Mashurov, Vaagn Chopurian, Vadim Porvatov, Arseny Ivanov, Natalia Semenova | (参考訳) 本稿では,移動時間推定問題に対する新しいトランスベースモデルを提案する。
提案したGCT-TTEアーキテクチャの重要な特徴は、入力経路の異なる特性をキャプチャする異なるデータモダリティの利用である。
モデル構成に関する広範な研究とともに、パス認識およびパス盲点設定のための実際のベースラインを十分に実装し、評価した。
検討した計算実験により,いずれのデータセットにおいても最先端モデルに勝るパイプラインの実現可能性を確認した。
さらに、gct-tteはユーザ定義のルートでさらに実験可能なwebサービスとしてデプロイされた。 This paper introduces a new transformer-based model for the problem of travel time estimation. The key feature of the proposed GCT-TTE architecture is the utilization of different data modalities capturing different properties of an input path. Along with the extensive study regarding the model configuration, we implemented and evaluated a sufficient number of actual baselines for path-aware and path-blind settings. The conducted computational experiments have confirmed the viability of our pipeline, which outperformed state-of-the-art models on both considered datasets. Additionally, GCT-TTE was deployed as a web service accessible for further experiments with user-defined routes. | 翻訳日:2023-10-18 04:50:07 公開日:2023-10-15 |
# グラフニューラルネットにおける構造格差のデミスティフィケーション:全てのサイズが満たせるか? Demystifying Structural Disparity in Graph Neural Networks: Can One Size Fit All? ( http://arxiv.org/abs/2306.01323v3 ) ライセンス: Link先を確認 | Haitao Mao, Zhikai Chen, Wei Jin, Haoyu Han, Yao Ma, Tong Zhao, Neil Shah, Jiliang Tang | (参考訳) グラフニューラルネットワーク(gnns)に関する最近の研究は、ホモ親和性グラフと特定の親和性グラフの両方で構造パターンを捉えることの有効性を実証的および理論的に証明している。
特に、ほとんどの実世界のホモフィルグラフとヘテロフィルグラフは、ホモフィルグラフとヘテロフィルグラフの両方の構造パターンの混合ノードで構成され、構造的な相違を示す。
しかし、GNNの性能解析は、例えば、ヘテロ親和性グラフにおけるホモ親和性ノードのような異なる構造パターンを示すノードに対して、かなり限定的である。
本研究では, ノード分類上のグラフニューラルネットワーク(GNN)が, 異種グラフ内のホモ親和性ノードや異種グラフ内のヘテロ親和性ノードに対して, 反対のノード集合上で苦労しながら良好に動作し, 性能の相違を示すことを示す。
我々はGNNが異なる構造パターンを示す試験ノードに与える影響を理論的および経験的に同定した。
次に,GNN に対する厳密で非I.d PAC-Bayesian 一般化法を提案する。
さらに,(1)深層gnnの有効性を解明し,(2)グラフアウトオブ・ディストリビューション問題に対する過剰な分布シフト因子を明らかにし,それに応じて新しいシナリオを提案することにより,新たな知見の実用的意義を示す。 Recent studies on Graph Neural Networks(GNNs) provide both empirical and theoretical evidence supporting their effectiveness in capturing structural patterns on both homophilic and certain heterophilic graphs. Notably, most real-world homophilic and heterophilic graphs are comprised of a mixture of nodes in both homophilic and heterophilic structural patterns, exhibiting a structural disparity. However, the analysis of GNN performance with respect to nodes exhibiting different structural patterns, e.g., homophilic nodes in heterophilic graphs, remains rather limited. In the present study, we provide evidence that Graph Neural Networks(GNNs) on node classification typically perform admirably on homophilic nodes within homophilic graphs and heterophilic nodes within heterophilic graphs while struggling on the opposite node set, exhibiting a performance disparity. We theoretically and empirically identify effects of GNNs on testing nodes exhibiting distinct structural patterns. We then propose a rigorous, non-i.i.d PAC-Bayesian generalization bound for GNNs, revealing reasons for the performance disparity, namely the aggregated feature distance and homophily ratio difference between training and testing nodes. Furthermore, we demonstrate the practical implications of our new findings via (1) elucidating the effectiveness of deeper GNNs; and (2) revealing an over-looked distribution shift factor on graph out-of-distribution problem and proposing a new scenario accordingly. | 翻訳日:2023-10-18 04:49:01 公開日:2023-10-15 |
# FedCSD: コードスメル検出のためのフェデレートラーニングベースのアプローチ FedCSD: A Federated Learning Based Approach for Code-Smell Detection ( http://arxiv.org/abs/2306.00038v2 ) ライセンス: Link先を確認 | Sadi Alawadi, Khalid Alkharabsheh, Fahed Alkhabbas, Victor Kebande, Feras M. Awaysheh, Fabio Palomba, Mohammed Awad | (参考訳) 本稿では,federated learning code smell detection(fedcsd)アプローチを提案する。
これらのアサーションは、3つの実験によってサポートされており、異なるコードの臭いシナリオの検出と検証を目的とした3つの手動検証データセットを著しく活用している。
実験1では、集中型トレーニング実験を対象とし、データセット2が最も低い精度(92.30%)で嗅覚が少なく、データセット1とデータセット3はわずかな差(それぞれ98.90%と99.5%)で最高精度を達成した。
続いて、クロス評価に関するexperiment 2では、各mlモデルを1つのデータセットでトレーニングし、他の2つのデータセットで評価した。
この実験の結果、モデルの精度(最も低い精度:63.80\%)が大幅に低下し、トレーニングデータセットには臭いが少なくなり、モデルの性能に顕著なリフレクション(技術的負債)があることが示された。
最後に、最後の実験と第3の実験では、データセットを10社に分割することで、私たちのアプローチを評価しました。
mlモデルは同社のサイトでトレーニングされ、モデル更新された重みはすべてサーバに転送された。
最終的に98.34%の精度が、100回のトレーニングラウンドで10社でトレーニングされたグローバルモデルによって達成された。
その結果,グローバルモデルの包括的知識,トレーニングコストの低減,データのプライバシの保持,技術的負債の回避を優先して無視できる,集中型モデルの最高精度と比較して,グローバルモデルの正確性に若干の差があることが判明した。 This paper proposes a Federated Learning Code Smell Detection (FedCSD) approach that allows organizations to collaboratively train federated ML models while preserving their data privacy. These assertions have been supported by three experiments that have significantly leveraged three manually validated datasets aimed at detecting and examining different code smell scenarios. In experiment 1, which was concerned with a centralized training experiment, dataset two achieved the lowest accuracy (92.30%) with fewer smells, while datasets one and three achieved the highest accuracy with a slight difference (98.90% and 99.5%, respectively). This was followed by experiment 2, which was concerned with cross-evaluation, where each ML model was trained using one dataset, which was then evaluated over the other two datasets. Results from this experiment show a significant drop in the model's accuracy (lowest accuracy: 63.80\%) where fewer smells exist in the training dataset, which has a noticeable reflection (technical debt) on the model's performance. Finally, the last and third experiments evaluate our approach by splitting the dataset into 10 companies. The ML model was trained on the company's site, then all model-updated weights were transferred to the server. Ultimately, an accuracy of 98.34% was achieved by the global model that has been trained using 10 companies for 100 training rounds. The results reveal a slight difference in the global model's accuracy compared to the highest accuracy of the centralized model, which can be ignored in favour of the global model's comprehensive knowledge, lower training cost, preservation of data privacy, and avoidance of the technical debt problem. | 翻訳日:2023-10-18 04:48:30 公開日:2023-10-15 |
# MOVES:静的再構成を用いたラベルフリー環境での移動可能なLiDARシーンセグメンテーション MOVES: Movable and Moving LiDAR Scene Segmentation in Label-Free settings using Static Reconstruction ( http://arxiv.org/abs/2306.14812v2 ) ライセンス: Link先を確認 | Prashant Kumar, Dhruv Makwana, Onkar Susladkar, Anurag Mittal, Prem Kumar Kalra | (参考訳) 非定常物体の正確な静的構造再構成とセグメンテーションは、自律ナビゲーションアプリケーションにとって極めて重要である。
これらのアプリケーションは、LiDARスキャンを静的構造のみからなるものと仮定する。
しかし実世界では、LiDARスキャンは静止しない動的構造体と可動物体からなる。
現在のソリューションでは、セグメント情報を使用して、LiDARスキャンから移動構造を分離、削除している。
この戦略は、セグメンテーション情報が利用できないいくつかの重要なユースケースで失敗する。
このようなシナリオでは、移動物体や物体の運動の不確実性が高い移動物体は検出から逃れることができる。
これは上記の前提に反する。
我々は, 移動物体だけでなく, 移動物体もセグメント化情報なしでセグメントアウトする, 新たなganベースの逆モデルであるmovesを提案する。
我々は、動的LiDARスキャンを対応する静的スキャンに正確に変換することで、これを実現する。
これは動的オブジェクトと対応するオクルージョンを、動的オブジェクトによってオクルードされた静的構造に置き換えることで得られる。
対応する静的なLiDAR対を利用する。 Accurate static structure reconstruction and segmentation of non-stationary objects is of vital importance for autonomous navigation applications. These applications assume a LiDAR scan to consist of only static structures. In the real world however, LiDAR scans consist of non-stationary dynamic structures - moving and movable objects. Current solutions use segmentation information to isolate and remove moving structures from LiDAR scan. This strategy fails in several important use-cases where segmentation information is not available. In such scenarios, moving objects and objects with high uncertainty in their motion i.e. movable objects, may escape detection. This violates the above assumption. We present MOVES, a novel GAN based adversarial model that segments out moving as well as movable objects in the absence of segmentation information. We achieve this by accurately transforming a dynamic LiDAR scan to its corresponding static scan. This is obtained by replacing dynamic objects and corresponding occlusions with static structures which were occluded by dynamic objects. We leverage corresponding static-dynamic LiDAR pairs. | 翻訳日:2023-10-18 04:40:00 公開日:2023-10-15 |
# 局所運動の効率向上のための適応型ウィンドウプルーニング Adaptive Window Pruning for Efficient Local Motion Deblurring ( http://arxiv.org/abs/2306.14268v2 ) ライセンス: Link先を確認 | Haoying Li, Jixin Zhao, Shangchen Zhou, Huajun Feng, Chongyi Li, Chen Change Loy | (参考訳) 局所的な動きのぼかしは、露光中の移動物体と静止背景との混合により、実世界の写真で一般的に発生する。
既存の画像デブロアリング法は主に大域的なデブロアリングに焦点を合わせ、局所的にぼやけた画像の背景のシャープさに不注意に影響を与え、特に高解像度画像においてシャープピクセルに不要な計算を無駄にする。
本稿では,局所ぼやけた高分解能画像を適応的かつ効率的に復元することを目的とする。
本稿では,適応型ウィンドウプルーニングトランス (AdaWPT) ブロック上に構築したローカルモーションデブロアリング・ビジョントランス (LMD-ViT) を提案する。
ローカルな領域に集中して計算を減らすため、adawptは不要なウィンドウをプルーンし、アクティブなウィンドウがデブローリングプロセスにのみ関与できるようにする。
プルーニング動作は、Gumbel-Softmax再パラメータ化による再構成損失と、注釈付きブラーマスクで導かれるプルーニング損失を用いて、エンドツーエンドにトレーニングされた信頼予測器によって予測されるブラーリネスの信頼性に依存する。
本手法は, 最先端手法と比較して, 鋭い領域を歪ませることなく, 局所的な動きのぼやけを効果的に除去する。
さらに,本手法はFLOPを66%削減し,Transformerベースのデブロアリング法に比べて2倍以上の推論速度向上を実現している。
コードと注釈付きのぼやけたマスクを公開します。 Local motion blur commonly occurs in real-world photography due to the mixing between moving objects and stationary backgrounds during exposure. Existing image deblurring methods predominantly focus on global deblurring, inadvertently affecting the sharpness of backgrounds in locally blurred images and wasting unnecessary computation on sharp pixels, especially for high-resolution images. This paper aims to adaptively and efficiently restore high-resolution locally blurred images. We propose a local motion deblurring vision Transformer (LMD-ViT) built on adaptive window pruning Transformer blocks (AdaWPT). To focus deblurring on local regions and reduce computation, AdaWPT prunes unnecessary windows, only allowing the active windows to be involved in the deblurring processes. The pruning operation relies on the blurriness confidence predicted by a confidence predictor that is trained end-to-end using a reconstruction loss with Gumbel-Softmax re-parameterization and a pruning loss guided by annotated blur masks. Our method removes local motion blur effectively without distorting sharp regions, demonstrated by its exceptional perceptual and quantitative improvements compared to state-of-the-art methods. In addition, our approach substantially reduces FLOPs by 66% and achieves more than a twofold increase in inference speed compared to Transformer-based deblurring methods. We will make our code and annotated blur masks publicly available. | 翻訳日:2023-10-18 04:39:44 公開日:2023-10-15 |
# CLUE: オフライン強化学習のための校正潜在ガイダンス CLUE: Calibrated Latent Guidance for Offline Reinforcement Learning ( http://arxiv.org/abs/2306.13412v2 ) ライセンス: Link先を確認 | Jinxin Liu, Lipeng Zu, Li He, Donglin Wang | (参考訳) オフライン強化学習(rl)は、事前収集およびラベル付きデータセットから最適なポリシーを学習することを目的としている。
しかし、オフラインRLは、オフラインデータの遷移ごとに外因的な報酬を指定/手作りする大きな負担を被っている。
労働集約的ラベリングの救済策として,少数の専門家データを用いたオフラインrlタスクの付与と,限られた専門家データによる内在的な報酬の促進を提案する。
これを実現するために,条件付き変分オートエンコーダを用いて潜在空間を学習し,内在的な報酬を潜在空間上で直接評価できるような潜在空間を学習する,\textbf{c}alibrated \textbf{l}atent g\textbf{u}idanc\textbf{e} (clue) を導入する。
CLUEのキーとなる考え方は、専門家データの埋め込みをキャリブレーションされた文脈表現に強制することで、本質的な報酬を専門家の意図と一致させることである。
スパース逆オフラインRLタスク、オフライン模倣学習(IL)タスク、教師なしオフラインRLタスクにおいて、エキスパート主導の本質的な報酬をインスタンス化する。
実験的に、CLUEはスパース逆オフラインRL性能を効果的に改善し、最先端のオフラインILベースラインより優れ、静的な報酬なしオフラインデータから多様なスキルを発見できることがわかった。 Offline reinforcement learning (RL) aims to learn an optimal policy from pre-collected and labeled datasets, which eliminates the time-consuming data collection in online RL. However, offline RL still bears a large burden of specifying/handcrafting extrinsic rewards for each transition in the offline data. As a remedy for the labor-intensive labeling, we propose to endow offline RL tasks with a few expert data and utilize the limited expert data to drive intrinsic rewards, thus eliminating the need for extrinsic rewards. To achieve that, we introduce \textbf{C}alibrated \textbf{L}atent g\textbf{U}idanc\textbf{E} (CLUE), which utilizes a conditional variational auto-encoder to learn a latent space such that intrinsic rewards can be directly qualified over the latent space. CLUE's key idea is to align the intrinsic rewards consistent with the expert intention via enforcing the embeddings of expert data to a calibrated contextual representation. We instantiate the expert-driven intrinsic rewards in sparse-reward offline RL tasks, offline imitation learning (IL) tasks, and unsupervised offline RL tasks. Empirically, we find that CLUE can effectively improve the sparse-reward offline RL performance, outperform the state-of-the-art offline IL baselines, and discover diverse skills from static reward-free offline data. | 翻訳日:2023-10-18 04:39:16 公開日:2023-10-15 |
# 候補応答分布に着目したデータベース読解用ケンブリッジ・マルチコース質問の解析 Analysis of the Cambridge Multiple-Choice Questions Reading Dataset with a Focus on Candidate Response Distribution ( http://arxiv.org/abs/2306.13047v4 ) ライセンス: Link先を確認 | Adian Liusie, Vatsal Raina, Andrew Mullooly, Kate Knill, Mark J. F. Gales | (参考訳) 複数の選択試験が様々な分野やタスクの候補者を評価するために広く使われている。
質問の品質を低下させるため、新しく提案された質問は、実世界の試験に配備される前に、テスト前の評価段階を通過することが多い。
現在、この評価プロセスは手動で集中しており、質問開発サイクルの遅延につながる可能性がある。
このプロセスの自動化による合理化は効率を大幅に向上させるが、十分な事前テスト分析情報を備えたデータセットが現在不足している。
本稿では,ケンブリッジ大学プレス・アンド・アセスメント(cambridge university press & assessment)が公開するケンブリッジ・マルチチョイス・クエスチョン・リーディング・データベース(cambridge multi-choice questions reading database)のサブセットを分析した。
候補分布マッチングのタスクを導入し、タスクの評価指標をいくつか提案し、RACE++でトレーニングされた自動システムをタスクのベースラインとして活用できることを実証する。
さらに、これらの自動システムは、性能の低い乱れを検知するなど、実際の事前評価作業に利用でき、この検出システムは、候補がほとんどいない不適切な乱れを自動で識別できる。 Multiple choice exams are widely used to assess candidates across a diverse range of domains and tasks. To moderate question quality, newly proposed questions often pass through pre-test evaluation stages before being deployed into real-world exams. Currently, this evaluation process is manually intensive, which can lead to time lags in the question development cycle. Streamlining this process via automation can significantly enhance efficiency, however, there's a current lack of datasets with adequate pre-test analysis information. In this paper we analyse a subset of the public Cambridge Multiple-Choice Questions Reading Database released by Cambridge University Press & Assessment; a multiple-choice comprehension dataset of questions at different target levels, with corresponding candidate selection distributions. We introduce the task of candidate distribution matching, propose several evaluation metrics for the task, and demonstrate that automatic systems trained on RACE++ can be leveraged as baselines for our task. We further demonstrate that these automatic systems can be used for practical pre-test evaluation tasks such as detecting underperforming distractors, where our detection systems can automatically identify poor distractors that few candidates select. | 翻訳日:2023-10-18 04:38:44 公開日:2023-10-15 |
# 正規化ロバストMDPとリスク感性MDP--等価性、政策勾配、サンプル複雑度 Regularized Robust MDPs and Risk-Sensitive MDPs: Equivalence, Policy Gradient, and Sample Complexity ( http://arxiv.org/abs/2306.11626v3 ) ライセンス: Link先を確認 | Runyu Zhang, Yang Hu, Na Li | (参考訳) ロバスト・マルコフ決定プロセス(MDP)とリスクに敏感なMDPは、不確実性の存在下で意思決定を行う強力なツールである。
以前の取り組みは、特定の定式化における等価性を明らかにすることによって、彼らのつながりを確立することを目指してきた。
本稿では,従来のマルコフリスク尺度 (Ruszczy\'nski 2010) と若干異なる方法でリスクを評価できるリスク敏感型MDPの新しい定式化について紹介し,標準RMDPを特別事例として含む正規化されたロバストMDP(RMDP)問題と等価性を確立する。
この等価性を利用して, 両問題に対する政策勾配定理を導出し, 直接パラメータ化を伴う表式設定下での厳密な政策勾配法の勾配支配と大域収束を証明した。
これはマルコーフのリスク尺度とは対照的で、非優越性(huang et al. 2021)の可能性がある。
また,kl-divergence regularization term(またはエントロピーリスク測度を持つリスクに敏感なmdp)を持つ特定の正規化rmdp問題に対して,サンプルベースのオフライン学習アルゴリズム,すなわちロバスト適応z反復(rfzi)を提案する。
本稿では,同値性による設計の合理化と制約の少ない仮定を示し,サンプルの複雑さを解析する。 Robust Markov Decision Processes (MDPs) and risk-sensitive MDPs are both powerful tools for making decisions in the presence of uncertainties. Previous efforts have aimed to establish their connections, revealing equivalences in specific formulations. This paper introduces a new formulation for risk-sensitive MDPs, which assesses risk in a slightly different manner compared to the classical Markov risk measure (Ruszczy\'nski 2010), and establishes its equivalence with a class of regularized robust MDP (RMDP) problems, including the standard RMDP as a special case. Leveraging this equivalence, we further derive the policy gradient theorem for both problems, proving gradient domination and global convergence of the exact policy gradient method under the tabular setting with direct parameterization. This forms a sharp contrast to the Markov risk measure, known to be potentially non-gradient-dominant (Huang et al. 2021). We also propose a sample-based offline learning algorithm, namely the robust fitted-Z iteration (RFZI), for a specific regularized RMDP problem with a KL-divergence regularization term (or equivalently the risk-sensitive MDP with an entropy risk measure). We showcase its streamlined design and less stringent assumptions due to the equivalence and analyze its sample complexity. | 翻訳日:2023-10-18 04:37:49 公開日:2023-10-15 |
# BPNet:3Dポイントクラウド上のB\'ezierプリミティブセグメンテーション BPNet: B\'ezier Primitive Segmentation on 3D Point Clouds ( http://arxiv.org/abs/2307.04013v2 ) ライセンス: Link先を確認 | Rao Fu, Cheng Wen, Qian Li, Xiao Xiao, Pierre Alliez | (参考訳) 本稿では,3Dポイントクラウド上のB\'ezierプリミティブセグメンテーションを学習するための,新しいエンドツーエンドディープラーニングフレームワークBPNetを提案する。
既存の作品は異なるプリミティブタイプを別々に扱うため、それらは有限形状のカテゴリに制限される。
この問題に対処するため、点雲上の一般化原始セグメント化を求める。
NURBSモデル上のB\'ezier分解からインスピレーションを得て、プリミティブ型をキャストするガイドポイントクラウドセグメンテーションに転送する。
カスケードアーキテクチャ上で同時にb\'ezierプリミティブセグメンテーションと幾何フィッティングを学ぶための統合最適化フレームワークを提案する。
具体的には,プリミティブセグメンテーションを改善するソフト投票調整器を導入し,クラスタポイント機能への自動重み付け埋め込みモジュールを提案する。
また,異なるプリミティブを持つ複数のcadモデルを同時に処理できる再構築モジュールを提案する。
本研究では,abc合成データセットと実スキャンデータセットについて広範な実験を行い,そのアプローチを異なるベースライン法と比較した。
実験では,推定速度が大幅に速く,従来の作業よりもセグメンテーションにおいて優れた性能を示した。 This paper proposes BPNet, a novel end-to-end deep learning framework to learn B\'ezier primitive segmentation on 3D point clouds. The existing works treat different primitive types separately, thus limiting them to finite shape categories. To address this issue, we seek a generalized primitive segmentation on point clouds. Taking inspiration from B\'ezier decomposition on NURBS models, we transfer it to guide point cloud segmentation casting off primitive types. A joint optimization framework is proposed to learn B\'ezier primitive segmentation and geometric fitting simultaneously on a cascaded architecture. Specifically, we introduce a soft voting regularizer to improve primitive segmentation and propose an auto-weight embedding module to cluster point features, making the network more robust and generic. We also introduce a reconstruction module where we successfully process multiple CAD models with different primitives simultaneously. We conducted extensive experiments on the synthetic ABC dataset and real-scan datasets to validate and compare our approach with different baseline methods. Experiments show superior performance over previous work in terms of segmentation, with a substantially faster inference speed. | 翻訳日:2023-10-18 04:29:26 公開日:2023-10-15 |
# CosSIF: 合成医用画像データセットのクラス間変動を克服するコサイン類似画像フィルタリング CosSIF: Cosine similarity-based image filtering to overcome low inter-class variation in synthetic medical image datasets ( http://arxiv.org/abs/2307.13842v2 ) ライセンス: Link先を確認 | Mominul Islam, Hasib Zunair, Nabeel Mohammed | (参考訳) 医用画像分析のための効果的なディープラーニングモデルの作成は複雑な作業であり、特に医用画像データセットがクラス間の大きな変動を欠く場合である。
この課題は、GAN(Generative Adversarial Network)を用いて合成画像を生成するためにそのようなデータセットを使用する場合、GANの出力が入力データに大きく依存するため、さらに増大する。
本研究では,Cosine similarity-based Image Filtering (CosSIF) と呼ばれる新しいフィルタリングアルゴリズムを提案する。
我々はCosSIFを利用して、FBGT前フィルタリング(FBGT)とFAGT後フィルタリング(FAGT)の2つの異なるフィルタリング手法を開発した。
FBGTは、GANのトレーニングデータセットとして利用する前に、他のクラスのイメージと類似性を示す実際のイメージを削除する。
一方、FAGTは、GANの訓練に使用する実画像と比較して、識別性の低い合成画像の除去に重点を置いている。
実験結果から,FAGT法とFBGT法を現代の変圧器と畳み込み型ネットワークで併用することにより,各種評価指標においてかなりの性能向上が得られた。
ISIC-2016データセット上のFAGTの実装は、感度が1.59%、AUCが1.88%のベースラインメソッドを超えている。
さらに、HAM10000データセットでは、FABTの適用は13.75%のリコール率でベースラインアプローチよりも優れており、FAGTの唯一の実装により、94.44%の精度が得られる。 Crafting effective deep learning models for medical image analysis is a complex task, particularly in cases where the medical image dataset lacks significant inter-class variation. This challenge is further aggravated when employing such datasets to generate synthetic images using generative adversarial networks (GANs), as the output of GANs heavily relies on the input data. In this research, we propose a novel filtering algorithm called Cosine Similarity-based Image Filtering (CosSIF). We leverage CosSIF to develop two distinct filtering methods: Filtering Before GAN Training (FBGT) and Filtering After GAN Training (FAGT). FBGT involves the removal of real images that exhibit similarities to images of other classes before utilizing them as the training dataset for a GAN. On the other hand, FAGT focuses on eliminating synthetic images with less discriminative features compared to real images used for training the GAN. Experimental results reveal that employing either the FAGT or FBGT method with modern transformer and convolutional-based networks leads to substantial performance gains in various evaluation metrics. FAGT implementation on the ISIC-2016 dataset surpasses the baseline method in terms of sensitivity by 1.59% and AUC by 1.88%. Furthermore, for the HAM10000 dataset, applying FABT outperforms the baseline approach in terms of recall by 13.75%, and with the sole implementation of FAGT, achieves a maximum accuracy of 94.44%. | 翻訳日:2023-10-18 04:18:56 公開日:2023-10-15 |
# 人間と畳み込みニューラルネットワークはシーン分類中に類似した領域に出席する:タスクとイメージタイプの影響 Do humans and Convolutional Neural Networks attend to similar areas during scene classification: Effects of task and image type ( http://arxiv.org/abs/2307.13345v2 ) ライセンス: Link先を確認 | Romy M\"uller, Marcel D\"urschmidt, Julian Ullrich, Carsten Knoll, Sascha Weber, Steffen Seitz | (参考訳) convolutional neural networks(cnn)のようなディープラーニングモデルは強力なイメージ分類器だが、人間と同様のイメージ領域に順応するかどうかを決定する要因は何だろう?
これまでの研究は技術的要因に焦点を当ててきたが、人間の注意に影響する要因についてはほとんど知られていない。
本研究では,人間とCNNの類似性を調節するために,人間の注意マップを抽出するタスクが画像特性とどのように相互作用するかを検討した。
人間の課題の意図は,カテゴリー分け中の自然視から,手動領域の選択まで様々であった。
さらに,分類対象のタイプは,特徴的,健全なオブジェクト,オブジェクト配置からなる屋内シーン,あるいはそのカテゴリを定義しないランドスケープのいずれかを用いて変化した。
このような人間の注意マップは、説明可能な人工知能(Grad-CAM)によって明らかにされたCNNの注意マップと比較された。
人間の作業の影響は画像タイプに強く依存しており、オブジェクトに対して、人間の手作業による選択はcnnと最もよく似た地図を作成したが、特定の眼球運動タスクは影響が少ない。
室内の場面では自発的な視線がほとんど似ていないが、風景では全ての作業において類似度が同じほど低かった。
これらの結果をよりよく理解するために、異なる人間の注意マップを互いに比較した。
本研究は,人間とcnnの注目度を比較する際に,人間的要因を考慮に入れることの重要性を強調する。 Deep Learning models like Convolutional Neural Networks (CNN) are powerful image classifiers, but what factors determine whether they attend to similar image areas as humans do? While previous studies have focused on technological factors, little is known about the role of factors that affect human attention. In the present study, we investigated how the tasks used to elicit human attention maps interact with image characteristics in modulating the similarity between humans and CNN. We varied the intentionality of human tasks, ranging from spontaneous gaze during categorization over intentional gaze-pointing up to manual area selection. Moreover, we varied the type of image to be categorized, using either singular, salient objects, indoor scenes consisting of object arrangements, or landscapes without distinct objects defining the category. The human attention maps generated in this way were compared to the CNN attention maps revealed by explainable artificial intelligence (Grad-CAM). The influence of human tasks strongly depended on image type: For objects, human manual selection produced maps that were most similar to CNN, while the specific eye movement task has little impact. For indoor scenes, spontaneous gaze produced the least similarity, while for landscapes, similarity was equally low across all human tasks. To better understand these results, we also compared the different human attention maps to each other. Our results highlight the importance of taking human factors into account when comparing the attention of humans and CNN. | 翻訳日:2023-10-18 04:18:08 公開日:2023-10-15 |
# 時間グラフベンチマークの実証評価 An Empirical Evaluation of Temporal Graph Benchmark ( http://arxiv.org/abs/2307.12510v5 ) ライセンス: Link先を確認 | Le Yu | (参考訳) 本稿では,動的グラフライブラリ(DyGLib)をTGBに拡張することにより,時間グラフベンチマーク(TGB)の実証評価を行う。
TGBと比較して、より徹底的な比較のための11の人気のある動的グラフ学習方法を含む。
実験の結果,(1)様々なデータセットにおける性能変化をそれぞれ異なるモデルで表現し,(2)dyglibを用いた場合,tgbで報告された結果と比較して,いくつかのベースラインの性能が著しく向上することがわかった。
本研究は,TGB上での動的グラフ学習手法の評価における研究者の取り組みの容易化と,フォローアップ研究に直接参照可能な結果の提供を目的とする。
このプロジェクトで使われるリソースはすべてhttps://github.com/yule-BUAA/DyGLib_TGBで公開されている。
この作業は進行中であり、コミュニティからのフィードバックは改善に歓迎されています。 In this paper, we conduct an empirical evaluation of Temporal Graph Benchmark (TGB) by extending our Dynamic Graph Library (DyGLib) to TGB. Compared with TGB, we include eleven popular dynamic graph learning methods for more exhaustive comparisons. Through the experiments, we find that (1) different models depict varying performance across various datasets, which is in line with previous observations; (2) the performance of some baselines can be significantly improved over the reported results in TGB when using DyGLib. This work aims to ease the researchers' efforts in evaluating various dynamic graph learning methods on TGB and attempts to offer results that can be directly referenced in the follow-up research. All the used resources in this project are publicly available at https://github.com/yule-BUAA/DyGLib_TGB. This work is in progress, and feedback from the community is welcomed for improvements. | 翻訳日:2023-10-18 04:17:44 公開日:2023-10-15 |
# ニューラルネットワークを用いた腫瘍ダイナミックモデリングと総合生存予測のための説明可能なディープラーニング Explainable Deep Learning for Tumor Dynamic Modeling and Overall Survival Prediction using Neural-ODE ( http://arxiv.org/abs/2308.01362v2 ) ライセンス: Link先を確認 | Mark Laurie and James Lu | (参考訳) 腫瘍ダイナミックモデリングは腫瘍学薬の開発に広く応用されているが、予測性を高め、パーソナライズされた治療を可能にし、意思決定を改善する必要がある。
本稿では,TDNODEを薬理学的インフォームドニューラルネットワークとして利用し,縦断的腫瘍サイズデータからモデル発見を可能にすることを提案する。
我々は,TDNODEが既存のモデルの重要な限界を克服し,乱れたデータから偏りのない予測を行うことを示す。
エンコーダ・デコーダアーキテクチャは、時間に関して一般化された均一性の基本的な性質を持つ基礎となる動的法則を表現するように設計されている。
したがって、モデリング形式はエンコーダ出力を運動速度指標として解釈し、逆時間を物理単位として解釈することができる。
得られた指標を用いて,患者の全身生存率(OS)を高精度に予測できることを示す。
提案したモデリング形式は,腫瘍疾患モデルにマルチモーダルな動的データセットを統合するための原則的手法を提供する。 While tumor dynamic modeling has been widely applied to support the development of oncology drugs, there remains a need to increase predictivity, enable personalized therapy, and improve decision-making. We propose the use of Tumor Dynamic Neural-ODE (TDNODE) as a pharmacology-informed neural network to enable model discovery from longitudinal tumor size data. We show that TDNODE overcomes a key limitation of existing models in its ability to make unbiased predictions from truncated data. The encoder-decoder architecture is designed to express an underlying dynamical law which possesses the fundamental property of generalized homogeneity with respect to time. Thus, the modeling formalism enables the encoder output to be interpreted as kinetic rate metrics, with inverse time as the physical unit. We show that the generated metrics can be used to predict patients' overall survival (OS) with high accuracy. The proposed modeling formalism provides a principled way to integrate multimodal dynamical datasets in oncology disease modeling. | 翻訳日:2023-10-18 04:08:12 公開日:2023-10-15 |
# 関係指向型:因果知識対応型AGIに向けて Relation-Oriented: Toward Causal Knowledge-Aligned AGI ( http://arxiv.org/abs/2307.16387v8 ) ライセンス: Link先を確認 | Jia Li, Xiang Li | (参考訳) 現在、観察指向パラダイムは、時間的非線形効果との関係を考慮しないAIベースのモデルを含む関係学習モデルを支配している。
代わりに、このパラダイムは「時間次元」を線形観測タイムラインとして単純化し、特定のタイムスタンプによる効果の事前識別を必要とする。
このような制約は動的効果に対する識別可能性の難しさをもたらし、それによってモデル化された関係の潜在的に重要な時間的非線形性を見落としてしまう。
さらに、時間的特徴空間の多次元的性質は無視され、関係モデルの堅牢性と一般化性を著しく損なう固有のバイアスが導入された。
この制限は、大規模なAIベースの因果的応用において特に顕著である。
これらの問題を次元的枠組みのレンズを通して調べると、知識の関連性に関する理解と現在のモデリングパラダイムの間に根本的な相違が同定される。
これに対処するために,因果的知識協調型人工知能(agi)の開発を促進することを目的とした,新たな関係指向パラダイムが提案されている。
手法として,提案したリレーショナルインデックス表現学習(RIRL)を有効性実験により検証した。 Observation-Oriented paradigm currently dominates relationship learning models, including AI-based ones, which inherently do not account for relationships with temporally nonlinear effects. Instead, this paradigm simplifies the "temporal dimension" to be a linear observational timeline, necessitating the prior identification of effects with specific timestamps. Such constraints lead to identifiability difficulties for dynamical effects, thereby overlooking the potentially crucial temporal nonlinearity of the modeled relationship. Moreover, the multi-dimensional nature of Temporal Feature Space is largely disregarded, introducing inherent biases that seriously compromise the robustness and generalizability of relationship models. This limitation is particularly pronounced in large AI-based causal applications. Examining these issues through the lens of a dimensionality framework, a fundamental misalignment is identified between our relation-indexing comprehension of knowledge and the current modeling paradigm. To address this, a new Relation-Oriented} paradigm is raised, aimed at facilitating the development of causal knowledge-aligned Artificial General Intelligence (AGI). As its methodological counterpart, the proposed Relation-Indexed Representation Learning (RIRL) is validated through efficacy experiments. | 翻訳日:2023-10-18 04:07:55 公開日:2023-10-15 |
# グローバル最適適応測定による量子状態の最小消費最小識別 Minimum-consumption discrimination of quantum states via globally optimal adaptive measurements ( http://arxiv.org/abs/2307.16347v2 ) ライセンス: Link先を確認 | Boxuan Tian, Wenzhe Yan, Zhibo Hou, Guo-Yong Xiang, Chuan-Feng Li and Guang-Can Guo | (参考訳) 平均リソース消費量の削減は、固定許容誤差率$\varepsilon$に対して非直交量子状態を識別する中心的課題である。
このタスクのグローバル最適固定局所射影計測(gofl)は、以前の最小誤差識別タスク [prl 118, 030502 (2017)] と異なることが判明した。
最終最小平均消費を達成するために,更新された後続確率を,任意の誤差率条件と任意の一方向測定制限の下で微妙に利用し,収束的反復関係によって解決できる汎用的最適適応戦略 (goa) を開発した。
まず,従来のGOFLと比較して16.6コピー(24%)を節約する局所的境界として,局所的測定制限の下でのGOAを解いた。
より強力な2コピー集団測定が可能となると、GOAは3.9コピー(6.0%)で局所境界を破る実験を行った。
適応性と集団測定の両方を活用することで、我々の研究は最小消費量子状態の識別に向けた重要なステップとなる。 Reducing the average resource consumption is the central quest in discriminating non-orthogonal quantum states for a fixed admissible error rate $\varepsilon$. The globally optimal fixed local projective measurement (GOFL) for this task is found to be different from that for previous minimum-error discrimination tasks [PRL 118, 030502 (2017)]. To achieve the ultimate minimum average consumption, here we develop a general globally optimal adaptive strategy (GOA) by subtly using the updated posterior probability, which works under any error rate requirement and any one-way measurement restrictions, and can be solved by a convergent iterative relation. First, under the local measurement restrictions, our GOA is solved to serve as the local bound, which saves 16.6 copies (24%) compared with the previously best GOFL. When the more powerful two-copy collective measurements are allowed, our GOA is experimentally demonstrated to beat the local bound by 3.9 copies (6.0%). By exploiting both adaptivity and collective measurements, our work marks an important step towards minimum-consumption quantum state discrimination. | 翻訳日:2023-10-18 04:07:37 公開日:2023-10-15 |
# 大規模言語モデルコード生成のロバスト性と信頼性に関する研究 A Study on Robustness and Reliability of Large Language Model Code Generation ( http://arxiv.org/abs/2308.10335v3 ) ライセンス: Link先を確認 | Li Zhong, Zilong Wang | (参考訳) 近年,大規模言語モデル (LLM) は,自然言語の理解とプログラミングコード生成に極めて優れた能力を示している。
コーディング問題に遭遇する際、LLMに相談するのは、ソフトウェアエンジニアがよく行うプラクティスである。
構文エラーを回避し、コードを意図した意味と整合させる努力がなされているが、LLMからのコード生成の信頼性と堅牢性はまだ十分に研究されていない。
実行可能なコードは、特に現実世界のソフトウェア開発のコンテキストにおいて、信頼性が高く堅牢なコードと等価ではない。
生成されたコードにおけるAPIの誤用は、リソースリークやプログラムクラッシュといった深刻な問題を引き起こす可能性がある。
さらに悪いことに、llmコード生成サービスのユーザは、実際にはこれらのコードに対して最も脆弱な開発者であり、正しいように思える -- 彼らは常にllmがコードを生成するapiに精通していない初心者開発者である。
したがって、LLMが生成したコードの誤用をほとんど知ることができず、現実世界のソフトウェアに適用される誤ったコードをさらに容易にする。
既存のコード評価ベンチマークとデータセットは、コーディング面接のプログラミング質問のような小さなタスクの作成にフォーカスしているが、これは開発者がllmに実際のコーディング支援を求める問題から逸脱している。
そこで本研究では,LLMが生成するコードの信頼性とロバスト性を評価するためのデータセットRobostAPIを提案する。
StackOverflowから24の代表的なJava APIで1208のコーディング質問を収集します。
これらのAPIの一般的な誤用パターンを要約し,現在普及しているLCMを評価した。
GPT-4では,生成コードの62%にAPI誤用があり,実際のソフトウェアにコードが導入されると予期せぬ結果が生じる。 Recently, the large language models (LLMs) have shown extraordinary ability in understanding natural language and generating programming code. It has been a common practice of software engineers to consult LLMs when encountering coding questions. Although efforts have been made to avoid syntax errors and align the code with the intended semantics, the reliability and robustness of the code generationfrom LLMs have not yet been thoroughly studied. The executable code is not equivalent to the reliable and robust code, especially in the context of real-world software development. The misuse of APIs in the generated code could lead to severe problem, such as resource leaks, program crashes. To make things worse, the users of LLM code generation services are actually the developers that are most vulnerable to these code that seems right -- They are always novice developers that are not familiar with the APIs that LLMs generate code for them. Therefore, they could hardly tell the misuse in the code generated by LLMs, which further facilitates the incorrect code applied in real-world software. Existing code evaluation benchmark and datasets focus on crafting small tasks such as programming questions in coding interviews, which however deviates from the problem that developers would ask LLM for real-world coding help. To fill the missing piece, in this work, we propose a dataset RobustAPI for evaluating the reliability and robustness of code generated by LLMs. We collect 1208 coding questions from StackOverflow on 24 representative Java APIs. We summarize thecommon misuse patterns of these APIs and evaluate them oncurrent popular LLMs. The evaluation results show that evenfor GPT-4, 62% of the generated code contains API misuses,which would cause unexpected consequences if the code isintroduced into real-world software. | 翻訳日:2023-10-18 04:00:53 公開日:2023-10-15 |
# 大きなグラフ上のマルコフ連鎖の経路収束 Path convergence of Markov chains on large graphs ( http://arxiv.org/abs/2308.09214v2 ) ライセンス: Link先を確認 | Siva Athreya, Soumik Pal, Raghav Somani, Raghavendra Tripathi | (参考訳) 有限非ラベルグラフ上の自然確率過程の2つのクラスを考える。
これらは重み付きグラフの隣接行列上のユークリッド確率最適化アルゴリズムと、重み付きグラフ上の確率ブロックモデル上のメトロポリスMCMCアルゴリズムの修正版である。
どちらの場合も、グラフのサイズが無限大になるにつれて、確率過程のランダムな軌跡は測度値グラフンの空間上の決定論的曲線に収束することを示す。
測度値グラフは lov\'{a}sz と szegedy によって \cite{lovasz2010decorated} で導入され、同じグラフェン極限をもたらす2つの無限交換可能な配列を区別できるグラフの概念を洗練したものである。
我々はこの空間の新しいメトリクスを導入し、極限定理に対する収束の自然な概念を提供する。
この概念は無限交換可能配列の収束と同値である。
適切な仮定と特定の時間スケーリングの下で、メトロポリス連鎖は、頂点の数が無限大になるにつれて拡散限界を認める。
次に、適切に定式化されたゼロノイズ極限において、この拡散の隣接行列の確率過程は、始点{oh2023} に導入されたグラトン空間上の決定論的勾配フロー曲線に収束することを示す。
このアプローチの新たな特徴は、ある制限状態におけるメトロポリス連鎖に対して正確な指数収束速度を提供することである。
指数的ランダムグラフモデルでよく使われる自然のメトロポリス連鎖とグラトン上の勾配流の間の関係は、我々の知る限りでは、文献でも新しいものである。 We consider two classes of natural stochastic processes on finite unlabeled graphs. These are Euclidean stochastic optimization algorithms on the adjacency matrix of weighted graphs and a modified version of the Metropolis MCMC algorithm on stochastic block models over unweighted graphs. In both cases we show that, as the size of the graph goes to infinity, the random trajectories of the stochastic processes converge to deterministic curves on the space of measure-valued graphons. Measure-valued graphons, introduced by Lov\'{a}sz and Szegedy in \cite{lovasz2010decorated}, are a refinement of the concept of graphons that can distinguish between two infinite exchangeable arrays that give rise to the same graphon limit. We introduce new metrics on this space which provide us with a natural notion of convergence for our limit theorems. This notion is equivalent to the convergence of infinite-exchangeable arrays. Under suitable assumptions and a specified time-scaling, the Metropolis chain admits a diffusion limit as the number of vertices go to infinity. We then demonstrate that, in an appropriately formulated zero-noise limit, the stochastic process of adjacency matrices of this diffusion converges to a deterministic gradient flow curve on the space of graphons introduced in\cite{Oh2023}. A novel feature of this approach is that it provides a precise exponential convergence rate for the Metropolis chain in a certain limiting regime. The connection between a natural Metropolis chain commonly used in exponential random graph models and gradient flows on graphons, to the best of our knowledge, is new in the literature as well. | 翻訳日:2023-10-18 03:59:10 公開日:2023-10-15 |
# 教師なし異常検出のためのグラフエンコーダデコーダネットワーク A Graph Encoder-Decoder Network for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2308.07774v2 ) ライセンス: Link先を確認 | Mahsa Mesgaran and A. Ben Hamza | (参考訳) 多くのグラフニューラルネットワーク(GNN)の重要なコンポーネントは、重要な構造情報を保持しながらグラフのサイズを小さくしようとするプーリング操作である。
しかし、既存のグラフプーリング戦略のほとんどは、トレーニング可能なパラメータを特徴とするGNN層を用いて得られる代入行列に依存しており、しばしば計算の複雑さとプールプロセスにおける解釈可能性の欠如につながる。
本稿では,グラフから異常ノードを検出するための教師なしグラフエンコーダ・デコーダモデルを提案する。
符号化段階ではLCPoolと呼ばれる新しいプール機構を設計し,局所性制約付き線形符号化を特徴符号化に適用し,最小二乗最適化問題を局所性正規化項で解くことによりクラスタ割り当て行列を求める。
コーディングプロセス中に局所性制約を強制することにより、LCPoolは学習可能なパラメータから解放され、大きなグラフを効率的に処理でき、グラフの最も重要な構造特性を保持しながら、効果的に粗いグラフ表現を生成することができる。
復号段階ではLCUnpoolと呼ばれるアンプール演算を提案し,元のグラフの構造と結節の特徴を再構築する。
本手法は,いくつかの評価指標を用いて6つのベンチマークデータセット上で経験的評価を行い,現状の異常検出手法よりも優れていることを示す。 A key component of many graph neural networks (GNNs) is the pooling operation, which seeks to reduce the size of a graph while preserving important structural information. However, most existing graph pooling strategies rely on an assignment matrix obtained by employing a GNN layer, which is characterized by trainable parameters, often leading to significant computational complexity and a lack of interpretability in the pooling process. In this paper, we propose an unsupervised graph encoder-decoder model to detect abnormal nodes from graphs by learning an anomaly scoring function to rank nodes based on their degree of abnormality. In the encoding stage, we design a novel pooling mechanism, named LCPool, which leverages locality-constrained linear coding for feature encoding to find a cluster assignment matrix by solving a least-squares optimization problem with a locality regularization term. By enforcing locality constraints during the coding process, LCPool is designed to be free from learnable parameters, capable of efficiently handling large graphs, and can effectively generate a coarser graph representation while retaining the most significant structural characteristics of the graph. In the decoding stage, we propose an unpooling operation, called LCUnpool, to reconstruct both the structure and nodal features of the original graph. We conduct empirical evaluations of our method on six benchmark datasets using several evaluation metrics, and the results demonstrate its superiority over state-of-the-art anomaly detection approaches. | 翻訳日:2023-10-18 03:57:48 公開日:2023-10-15 |
# 生成AIのセキュリティリスクの特定と修正 Identifying and Mitigating the Security Risks of Generative AI ( http://arxiv.org/abs/2308.14840v2 ) ライセンス: Link先を確認 | Clark Barrett, Brad Boyd, Ellie Burzstein, Nicholas Carlini, Brad Chen, Jihye Choi, Amrita Roy Chowdhury, Mihai Christodorescu, Anupam Datta, Soheil Feizi, Kathleen Fisher, Tatsunori Hashimoto, Dan Hendrycks, Somesh Jha, Daniel Kang, Florian Kerschbaum, Eric Mitchell, John Mitchell, Zulfikar Ramzan, Khawaja Shams, Dawn Song, Ankur Taly, Diyi Yang | (参考訳) あらゆる主要な技術発明が両用ジレンマを再浮上させ、新しい技術は善と害に使える可能性がある。
大規模言語モデル(LLM)や拡散モデルのようなジェネレーティブAI(GenAI)技術は、顕著な能力(例えば、テキスト内学習、コード補完、テキストから画像への生成と編集)を示している。
しかし、GenAIは攻撃者も同様に新しい攻撃を発生させ、既存の攻撃の速度と効果を高めるために使うことができる。
本稿は、Google(スタンフォード大学とウィスコンシン大学マディソン校が共同で開催した、GenAIによる二重使用ジレンマに関するワークショップの成果を報告する。
本論文は包括的ではなく,ワークショップで得られた興味深い知見のいくつかを合成する試みである。
この話題について,コミュニティの短期的,長期的目標について論じる。
この論文は、この重要なトピックに関する議論の出発点と、研究コミュニティが取り組むべき興味深い問題の両方を提供することを期待している。 Every major technical invention resurfaces the dual-use dilemma -- the new technology has the potential to be used for good as well as for harm. Generative AI (GenAI) techniques, such as large language models (LLMs) and diffusion models, have shown remarkable capabilities (e.g., in-context learning, code-completion, and text-to-image generation and editing). However, GenAI can be used just as well by attackers to generate new attacks and increase the velocity and efficacy of existing attacks. This paper reports the findings of a workshop held at Google (co-organized by Stanford University and the University of Wisconsin-Madison) on the dual-use dilemma posed by GenAI. This paper is not meant to be comprehensive, but is rather an attempt to synthesize some of the interesting findings from the workshop. We discuss short-term and long-term goals for the community on this topic. We hope this paper provides both a launching point for a discussion on this important topic as well as interesting problems that the research community can work to address. | 翻訳日:2023-10-18 03:52:00 公開日:2023-10-15 |
# 熱水蒸気中の種間スピンノイズ相関 Inter-species spin-noise correlations in hot atomic vapors ( http://arxiv.org/abs/2308.13090v2 ) ライセンス: Link先を確認 | K. Mouloudakis, F. Vouzinas, A. Margaritakis, A. Koutsimpela, G. Mouloudakis, V. Koutrouli, M. Skotiniotis, G. P. Tsironis, M. Loulakis, M. W. Mitchell, G. Vasilakis, I. K. Kominis | (参考訳) スピン交換衝突に支配される非偏極アルカリ金属蒸気のスピンノイズ相関に関する実験的および理論的研究を報告した。
強い不等時的種間相関を観測し,第一原理理論モデルを用いて考察した。
2つの原子種はスピン先行周波数が異なるため、双種蒸気はスピン相関の様々なサブタイプを解き放つために、追加の実験的なハンドルである応用磁場を利用することができる。
特に、測定された相互相関スペクトルと自己相関スペクトルは、原子内、原子間、種内および種間相関を含む多くのスピン力学的効果に光を当てた。
2つのスピン種がスピン交換衝突によって強く結合する低磁場下では、60\%$を超える相関係数が観測されている。
このような自然発生的相関の理解は、量子センシング用途で用いられる単一種または複数種のスピン偏極アルカリ金属蒸気による量子エンハンス測定の設計を動機付けることができる。 We report an experimental and theoretical study of spin noise correlations in a $^{87}$Rb-$^{133}$Cs unpolarized alkali-metal vapor dominated by spin-exchange collisions. We observe strong unequal-time inter-species correlations and account for these with a first-principles theoretical model. Since the two atomic species have different spin precession frequencies, the dual-species vapor enables the use of an additional experimental handle, the applied magnetic field, for untangling various sub-types of spin correlations. In particular, the measured cross-correlation and auto-correlation spectra shed light on a number of spin-dynamic effects involving intra-atom, inter-atom, intra-species and inter-species correlations. Cross-correlation coefficients exceeding $60\%$ have been observed at low-magnetic fields, where the two spin species couple strongly via spin-exchange collisions. The understanding of such spontaneously generated correlations can motivate the design of quantum-enhanced measurements with single or multi-species spin-polarized alkali-metal vapors used in quantum sensing applications. | 翻訳日:2023-10-18 03:50:24 公開日:2023-10-15 |
# 連続時間線形力学系のシステム同定 System Identification for Continuous-time Linear Dynamical Systems ( http://arxiv.org/abs/2308.11933v2 ) ライセンス: Link先を確認 | Peter Halmos, Jonathan Pillow, David A. Knowles | (参考訳) カルマンフィルタのシステム同定の問題は、力学系の基本パラメータを学習するための期待最大化(EM)法に依存しており、観測が等間隔の時間点でサンプリングされることを前提に研究が進められている。
しかし、多くの応用においてこれは制限的で非現実的な仮定である。
本稿では, 連続時間It\^o確率微分方程式(SDE)を潜時状態と共分散ダイナミクスの解に頼って, カルマンフィルタの学習を一般化することを目的として, 連続離散フィルタのシステム同定に対処する。
本稿では,前進パスを事前に計算する必要のない解析的更新を行うベイズ導出法により,後進部に対する新しい2フィルタ解析形式を提案する。
この解析的かつ効率的な後部計算を用いて,SDEのパラメータを推定し,不規則なサンプル測定を自然に取り入れたEMプロシージャを提供する。
潜時線形力学系(lds)の学習を連続時間に一般化することは、ハイブリッドカルマンフィルタの使用を、定期的にサンプリングされていないデータや断続的欠落値を持つデータに拡張し、線形離散時間カルマンフィルタのemを非線形システムの局所線形化挙動を学ぶサブユニットとして依存するlds(slds)などの非線形システム識別手法のパワーを拡張することができる。
生物学的に現実的なパラメータを用いてトグルスイッチの遺伝的回路を表す潜在多変量フォッカープランクsdeのパラメータを学習し、離散時間カルマンフィルタに対する学習の有効性をダイナミクス行列の増加のステップサイズの不規則性とスペクトルラジウスとして比較する。 The problem of system identification for the Kalman filter, relying on the expectation-maximization (EM) procedure to learn the underlying parameters of a dynamical system, has largely been studied assuming that observations are sampled at equally-spaced time points. However, in many applications this is a restrictive and unrealistic assumption. This paper addresses system identification for the continuous-discrete filter, with the aim of generalizing learning for the Kalman filter by relying on a solution to a continuous-time It\^o stochastic differential equation (SDE) for the latent state and covariance dynamics. We introduce a novel two-filter, analytical form for the posterior with a Bayesian derivation, which yields analytical updates which do not require the forward-pass to be pre-computed. Using this analytical and efficient computation of the posterior, we provide an EM procedure which estimates the parameters of the SDE, naturally incorporating irregularly sampled measurements. Generalizing the learning of latent linear dynamical systems (LDS) to continuous-time may extend the use of the hybrid Kalman filter to data which is not regularly sampled or has intermittent missing values, and can extend the power of non-linear system identification methods such as switching LDS (SLDS), which rely on EM for the linear discrete-time Kalman filter as a sub-unit for learning locally linearized behavior of a non-linear system. We apply the method by learning the parameters of a latent, multivariate Fokker-Planck SDE representing a toggle-switch genetic circuit using biologically realistic parameters, and compare the efficacy of learning relative to the discrete-time Kalman filter as the step-size irregularity and spectral-radius of the dynamics-matrix increases. | 翻訳日:2023-10-18 03:50:09 公開日:2023-10-15 |
# 視聴覚クラスインクリメンタルラーニング Audio-Visual Class-Incremental Learning ( http://arxiv.org/abs/2308.11073v3 ) ライセンス: Link先を確認 | Weiguo Pian, Shentong Mo, Yunhui Guo, Yapeng Tian | (参考訳) 本稿では,音声視覚ビデオ認識のためのクラス増分学習シナリオである音声視覚クラス増分学習を紹介する。
音声と視覚の同時モデリングは, クラスインクリメンタル学習を改善できるが, 現在の手法では, 漸進的なステップが進むにつれて, 音声と視覚の特徴間の意味的類似性は維持できない。
さらに,前回の課題で学習した視聴覚相関は,漸進的なステップが進むにつれて忘れられ,性能が低下する傾向が観察された。
これらの課題を克服するために,av-cilでは,インスタンス認識とクラス認識の両方の意味的類似性を維持するために,d-avsc(d-audio-visual similarity constraint)を組み込んだav-cilを提案する。
AVE, Kinetics-Sounds, VGGSound100-Class-Incremental, VGGSound100-Class-Incremental, AVE, Kinetics-Sounds, VGGSoundの3つのクラスインクリメンタルデータセットを作成する。
AVE-CI, K-S-CI, VS100-CI を用いた実験により, AV-CIL が既存のクラス増分学習法よりも優れていることが示された。
コードとデータは、https://github.com/weiguopian/av-cil_iccv2023で入手できる。 In this paper, we introduce audio-visual class-incremental learning, a class-incremental learning scenario for audio-visual video recognition. We demonstrate that joint audio-visual modeling can improve class-incremental learning, but current methods fail to preserve semantic similarity between audio and visual features as incremental step grows. Furthermore, we observe that audio-visual correlations learned in previous tasks can be forgotten as incremental steps progress, leading to poor performance. To overcome these challenges, we propose AV-CIL, which incorporates Dual-Audio-Visual Similarity Constraint (D-AVSC) to maintain both instance-aware and class-aware semantic similarity between audio-visual modalities and Visual Attention Distillation (VAD) to retain previously learned audio-guided visual attentive ability. We create three audio-visual class-incremental datasets, AVE-Class-Incremental (AVE-CI), Kinetics-Sounds-Class-Incremental (K-S-CI), and VGGSound100-Class-Incremental (VS100-CI) based on the AVE, Kinetics-Sounds, and VGGSound datasets, respectively. Our experiments on AVE-CI, K-S-CI, and VS100-CI demonstrate that AV-CIL significantly outperforms existing class-incremental learning methods in audio-visual class-incremental learning. Code and data are available at: https://github.com/weiguoPian/AV-CIL_ICCV2023. | 翻訳日:2023-10-18 03:48:43 公開日:2023-10-15 |
# 連立直交訓練--連立学習における世界大惨事の回避 Federated Orthogonal Training: Mitigating Global Catastrophic Forgetting in Continual Federated Learning ( http://arxiv.org/abs/2309.01289v2 ) ライセンス: Link先を確認 | Yavuz Faruk Bakman, Duygu Nur Yaldiz, Yahya H. Ezzeldin, Salman Avestimehr | (参考訳) Federated Learning (FL)は、分散データによるプライバシー保護トレーニングを可能にする能力によって、大きな注目を集めている。
FLの現在の文献は主にシングルタスク学習に焦点を当てている。
しかし、時間が経つにつれて、クライアントに新しいタスクが現れ、グローバルモデルは以前のタスクを忘れずにこれらのタスクを学習すべきである。
この現実世界のシナリオはcontinual federated learning (cfl)として知られている。
CFLの主な課題はGlobal Catastrophic Forgettingであり、これは、グローバルモデルが新しいタスクで訓練されると、古いタスクのパフォーマンスが低下するという事実に対応する。
近年CFLにおいて、世界的な破滅的な忘れの問題に対処する手法を提案する研究がいくつか行われている。
しかしながら、これらの作業は過去のデータサンプルの可用性に関する非現実的な仮定を持つか、flのプライバシ原則に違反する。
本稿では,これらの欠点を克服し,CFLにおける世界的な破滅的忘れを解消する新たな手法であるFOTを提案する。
提案手法は,古いタスクに対する各レイヤのグローバル入力サブスペースを抽出し,新しいタスクの集約された更新を,各レイヤの古いタスクのグローバルプリンシパルサブスペースと直交するように修正する。
これにより、タスク間の干渉が減少する。
実験により,fotはcfl設定において最先端の連続学習手法を上回っており,最大15%の精度向上を達成し,最小の計算と通信コストを伴わずに27%の精度で学習できることを示した。 Federated Learning (FL) has gained significant attraction due to its ability to enable privacy-preserving training over decentralized data. Current literature in FL mostly focuses on single-task learning. However, over time, new tasks may appear in the clients and the global model should learn these tasks without forgetting previous tasks. This real-world scenario is known as Continual Federated Learning (CFL). The main challenge of CFL is Global Catastrophic Forgetting, which corresponds to the fact that when the global model is trained on new tasks, its performance on old tasks decreases. There have been a few recent works on CFL to propose methods that aim to address the global catastrophic forgetting problem. However, these works either have unrealistic assumptions on the availability of past data samples or violate the privacy principles of FL. We propose a novel method, Federated Orthogonal Training (FOT), to overcome these drawbacks and address the global catastrophic forgetting in CFL. Our algorithm extracts the global input subspace of each layer for old tasks and modifies the aggregated updates of new tasks such that they are orthogonal to the global principal subspace of old tasks for each layer. This decreases the interference between tasks, which is the main cause for forgetting. We empirically show that FOT outperforms state-of-the-art continual learning methods in the CFL setting, achieving an average accuracy gain of up to 15% with 27% lower forgetting while only incurring a minimal computation and communication cost. | 翻訳日:2023-10-18 03:39:16 公開日:2023-10-15 |
# MentaLLaMA:大規模言語モデルを用いたソーシャルメディアのメンタルヘルス分析 MentaLLaMA: Interpretable Mental Health Analysis on Social Media with Large Language Models ( http://arxiv.org/abs/2309.13567v2 ) ライセンス: Link先を確認 | Kailai Yang, Tianlin Zhang, Ziyan Kuang, Qianqian Xie, Sophia Ananiadou, Jimin Huang | (参考訳) ウェブ技術の発展に伴い、ソーシャルメディアのテキストはメンタルヘルス分析の豊富な情報源になりつつある。
従来の差別的手法が低い解釈可能性の問題に対処するため、近年の大規模言語モデルは、ソーシャルメディア上でのメンタルヘルス分析の解釈のために研究されており、予測とともに詳細な説明を提供することを目的としている。
その結果、ChatGPTは正しい分類のための接近する人間による説明を生成できることがわかった。
しかし、llmsはゼロショット/フェウショット方式で分類性能が不十分である。
ドメイン固有の微調整は効果的なソリューションであるが、2つの課題に直面している。
1)高品質なトレーニングデータがない。
2)微調整コストを下げるために,解釈可能なメンタルヘルス分析のためのオープンソースLCMはリリースされなかった。
これらの問題を緩和するために、ソーシャルメディア上で105Kのデータサンプルを用いて、最初のマルチタスクおよびマルチソースのメンタルヘルスインストラクション(IMHI)データセットを構築した。
生のソーシャルメディアデータは、8つのメンタルヘルス分析タスクをカバーする10の既存ソースから収集される。
専門家が作成した数発のプロンプトとラベルを収集し,ChatGPTをプロンプトし,その応答から説明を得る。
説明の信頼性を確保するため,生成データの正確性,一貫性,品質について,厳密な自動評価を行う。
IMHIデータセットとLLaMA2ファンデーションモデルに基づいて、インストラクションフォロー機能を備えたメンタルヘルス分析のための最初のオープンソースLLMシリーズであるMentalLLaMAを訓練する。
また,imhi評価ベンチマークにおけるmentalllamaの性能を10のテストセットで評価し,予測の正確性と説明の質について検討した。
以上の結果から,MentalLLaMAは最先端の判別手法に精度でアプローチし,高品質な説明を生成することがわかった。 With the development of web technology, social media texts are becoming a rich source for automatic mental health analysis. As traditional discriminative methods bear the problem of low interpretability, the recent large language models have been explored for interpretable mental health analysis on social media, which aims to provide detailed explanations along with predictions. The results show that ChatGPT can generate approaching-human explanations for its correct classifications. However, LLMs still achieve unsatisfactory classification performance in a zero-shot/few-shot manner. Domain-specific finetuning is an effective solution, but faces 2 challenges: 1) lack of high-quality training data. 2) no open-source LLMs for interpretable mental health analysis were released to lower the finetuning cost. To alleviate these problems, we build the first multi-task and multi-source interpretable mental health instruction (IMHI) dataset on social media, with 105K data samples. The raw social media data are collected from 10 existing sources covering 8 mental health analysis tasks. We use expert-written few-shot prompts and collected labels to prompt ChatGPT and obtain explanations from its responses. To ensure the reliability of the explanations, we perform strict automatic and human evaluations on the correctness, consistency, and quality of generated data. Based on the IMHI dataset and LLaMA2 foundation models, we train MentalLLaMA, the first open-source LLM series for interpretable mental health analysis with instruction-following capability. We also evaluate the performance of MentalLLaMA on the IMHI evaluation benchmark with 10 test sets, where their correctness for making predictions and the quality of explanations are examined. The results show that MentalLLaMA approaches state-of-the-art discriminative methods in correctness and generates high-quality explanations. | 翻訳日:2023-10-18 03:32:02 公開日:2023-10-15 |
# ラビ模型の量子相転移を反映するダイナミクス Dynamics Reflects Quantum Phase Transition of Rabi Model ( http://arxiv.org/abs/2309.06996v2 ) ライセンス: Link先を確認 | M. Li, Y. N. Wang, Z. Y. Song, Y. M. Zhao, X. L. Zhao, H. Y. Ma | (参考訳) 光と物質の相互作用を記述する最も単純かつ基本的なモデルとして、ラビモデルの回転波近似の分解は、キュービットの周波数が振動子の周波数を大きく上回るときに相転移と結合強度をもたらす。
基底状態にある相転移に加えて, 物理量の力学がこのモデルに対してそのような相転移を反映できることを示す。
基底状態におけるボゾン場の励起に加えて, 分離性(絡み合い), 相互情報, 量子フィッシャー情報, キャビティのばらつきの目撃者が, クエンチ中の相転移を検出するために利用できることを示す。
また,加熱による相転移のチェックに対する温度の影響も明らかにした。
このモデルは、閉じ込められたイオン、超伝導人工原子結合ボソニックモード、量子シミュレーションを用いて実装することができる。
熱力学的限界を課さずに基本量子光学モデルの相転移を反映することにより、この研究は開量子系に対する非平衡過程による相転移を探求するアイデアを提供する。 As the simplest and most fundamental model describing the interaction between light and matter, a breakdown in the rotating wave approximation of the Rabi model leads to phase transition versus coupling strength when the frequency of the qubit greatly surpasses that of the oscillator. Besides the phase transition revealed in the ground state, we show that the dynamics of physical quantities can reflect such a phase transition for this model. In addition to the excitation of the bosonic field in the ground state, we show that the witness of inseparability (entanglement), mutual information, quantum Fisher information, and the variance of cavity quadrature can be employed to detect the phase transition in quench. We also reveal the negative impact of temperature on checking the phase transition by quench. This model can be implemented using trapped ions, superconducting artificial atoms coupled bosonic modes, and quantum simulations. By reflecting the phase transition in a fundamental quantum optics model without imposing the thermodynamic limit, this work offers an idea to explore phase transitions by non-equilibrium process for open quantum systems. | 翻訳日:2023-10-18 03:28:31 公開日:2023-10-15 |
# 3D-LUTを用いたHDR/WCGディスプレイの逆トーンマッピングにおける精度と内容の再分配 Redistributing the Precision and Content in 3D-LUT-based Inverse Tone-mapping for HDR/WCG Display ( http://arxiv.org/abs/2309.17160v2 ) ライセンス: Link先を確認 | Cheng Guo and Leidong Fan and Qian Zhang and Hanyuan Liu and Kanglin Liu and Xiuhua Jiang | (参考訳) itm(inverse tone-mapping)はsdr(standard dynamic range)映像をhdr/wcg(high dynamic range /wide color gamut)に変換する。
フロントエンドのコンテンツプロバイダでレガシなSDR映像をリマスターするだけでなく、ユーザエンドのHDRディスプレイにオンデマンドのSDRサービスを適用する場合にも発生する。
後者はより効率が良いため、事前計算されたLUT(ルックアップテーブル)が一般的な解となっている。
しかし、従来の固定LUTには適応性がないため、研究コミュニティから学び、AIと組み合わせることができます。
一方、高ビット深度HDR/WCGはSDRよりもLUTが大きいため、従来のIMTを参考にして効率と性能のトレードオフを行う。
この場合、それぞれの結果が自身の範囲でのみエラーが少ないため、最終的な結果に最適な部分を組み合わせるためにコントリビューションマップを使用します。
このマップのガイダンスにより、3つのUTTの要素(コンテンツ)もトレーニング中に再配布される。
方法の有効性を検証するためにアブレーション研究を行い,その実践性を示すための主観的および客観的実験を行った。
コードは、https://github.com/AndreGuo/ITMLUT.comで入手できる。 ITM(inverse tone-mapping) converts SDR (standard dynamic range) footage to HDR/WCG (high dynamic range /wide color gamut) for media production. It happens not only when remastering legacy SDR footage in front-end content provider, but also adapting on-theair SDR service on user-end HDR display. The latter requires more efficiency, thus the pre-calculated LUT (look-up table) has become a popular solution. Yet, conventional fixed LUT lacks adaptability, so we learn from research community and combine it with AI. Meanwhile, higher-bit-depth HDR/WCG requires larger LUT than SDR, so we consult traditional ITM for an efficiency-performance trade-off: We use 3 smaller LUTs, each has a non-uniform packing (precision) respectively denser in dark, middle and bright luma range. In this case, their results will have less error only in their own range, so we use a contribution map to combine their best parts to final result. With the guidance of this map, the elements (content) of 3 LUTs will also be redistributed during training. We conduct ablation studies to verify method's effectiveness, and subjective and objective experiments to show its practicability. Code is available at: https://github.com/AndreGuo/ITMLUT. | 翻訳日:2023-10-18 03:18:29 公開日:2023-10-15 |
# スピンカップリングによるコマグネトメーター応答の普遍的決定 Universal determination of comagnetometer response to spin couplings ( http://arxiv.org/abs/2309.16000v2 ) ライセンス: Link先を確認 | Mikhail Padniuk, Emmanuel Klinger, Grzegorz Lukasiewicz, Daniel Gavilan-Martin, Tianhao Liu, Szymon Pustelny, Derek F. Jackson Kimball, Dmitry Budker, Arne Wickenbrock | (参考訳) 任意のスピン摂動に対する自己補償希ガス-アルカリ-金属コマグネトロンの周波数依存性応答をキャリブレーションする方法を提案する。
これには回転やエキゾチックスピン相互作用のような磁気および非磁性の摂動が含まれる。
この方法は、解析モデルに対する磁場応答の適合性に基づいている。
任意のスピン摂動に対するコマグネトメータの周波数依存応答は、適合パラメータを用いて推定できる。
本手法は, 推定回転応答と回転応答の実験的測定との比較により, 有効性を示す。
その結果,コマグネトメーター応答のゼロ周波数キャリブレーションに依存する実験は,広い周波数範囲でマグネトメーター感度を桁違いに過大あるいは過小評価できることがわかった。
さらに、コマグネトメータ動作中に動作パラメータがドリフトする傾向があるため、この差は時間とともに蓄積される。
実証された校正プロトコルは、例えば、電子や核スピンと結合する超軽量のボソニックダークマター場に対するコマグネトメーター感度の正確な予測と制御、および関連するシステムパラメータの正確な監視と制御を可能にする。 We propose and demonstrate a general method to calibrate the frequency-dependent response of self-compensating noble-gas-alkali-metal comagnetometers to arbitrary spin perturbations. This includes magnetic and nonmagnetic perturbations like rotations and exotic spin interactions. The method is based on a fit of the magnetic field response to an analytical model. The frequency-dependent response of the comagnetometer to arbitrary spin perturbations can be inferred using the fit parameters. We demonstrate the effectiveness of this method by comparing the inferred rotation response to an experimental measurement of the rotation response. Our results show that experiments relying on zero-frequency calibration of the comagnetometer response can over- or under-estimate the comagnetometer sensitivity by orders of magnitude over a wide frequency range. Moreover, this discrepancy accumulates over time as operational parameters tend to drift during comagnetometer operation. The demonstrated calibration protocol enables accurate prediction and control of comagnetometer sensitivity to, for example, ultralight bosonic dark-matter fields coupling to electron or nuclear spins as well as accurate monitoring and control of the relevant system parameters. | 翻訳日:2023-10-18 03:17:52 公開日:2023-10-15 |
# 水素原子を用いた中性子散乱における電子のダイナミクス Dynamics of Electrons in Neutron Scattering with Hydrogen Atom ( http://arxiv.org/abs/2309.14470v3 ) ライセンス: Link先を確認 | Mingzhao Xing and Libin Fu | (参考訳) n-p散乱実験における中性子散乱断面積の測定により、n-p相互作用の多くのモデルが開発されている。
しかし、電子状態の変化は散乱過程の間は考慮されない。
本研究では、イオン化電子の運動量スペクトルから核子相互作用のパラメータを得るための新しい理論的アプローチを提案する。
湯川ポテンシャルを例として、三体系に基づくアプローチは、水素原子による中性子散乱を伴う。
半古典的方法論を採用し、時間依存Schr\"odinger Equation (TDSE) を解くことにより、電離電子の運動量スペクトルを探索する。
電子力学プロセスは、異なる力範囲で大きな違いを示す。
さらに、このアプローチは超高速散乱過程の検出に関する洞察を与える。 By measuring the neutron scattering cross-section in neutron-proton (n-p) scattering experiments, numerous models of n-p interactions have been developed. However, the change in the electron states is not considered during the scattering process. In this study, we introduce a novel theoretical approach to obtain parameters of nucleon interactions from the momentum spectrum of ionized electrons. Using the Yukawa potential as an example, the approach based on a three-body system involves the neutron scattering with the hydrogen atom. By employing a semi-classical methodology and solving the Time-Dependent Schr\"odinger Equation (TDSE), We explore the momentum spectrum of ionized electrons. The electron dynamics processes exhibit significant distinctions at different force ranges. Moreover, this approach offers insights into detecting ultrafast scattering processes. | 翻訳日:2023-10-18 03:16:35 公開日:2023-10-15 |
# ファインマン図形の組合せ和: 2次元SU(N)ハバードモデルの状態方程式 Combinatorial summation of Feynman diagrams: Equation of state of the 2D SU(N) Hubbard model ( http://arxiv.org/abs/2309.13774v2 ) ライセンス: Link先を確認 | Evgeny Kozik | (参考訳) ファインマンの図式級数(英: Feynman's diagrammatic series)は、無限に多くの相互作用する量子粒子の系の公式な理論記述のための共通言語であり、精度計算の基礎である。
ここでは、一般量子多体系に対する連結あるいはスケルトンファインマン図の効率的な和を求める普遍的な枠組みを紹介する。
これは、動的プログラミングによる積分の和の明示的な組合せ構成に基づいており、古典的なコンピュータ上の図式順序と量子コンピュータ上の多項式で指数関数的にのみできる計算コストで構成される。
実験系における2D$$SU(N)$ Hubbardモデルの状態方程式の非バイアス図式モンテカルロ計算による手法について述べる。 Feynman's diagrammatic series is a common language for a formally exact theoretical description of systems of infinitely-many interacting quantum particles, as well as a foundation for precision computational techniques. Here we introduce a universal framework for efficient summation of connected or skeleton Feynman diagrams for generic quantum many-body systems. It is based on an explicit combinatorial construction of the sum of the integrands by dynamic programming, at a computational cost that can be made only exponential in the diagram order on a classical computer and potentially polynomial on a quantum computer. We illustrate the technique by an unbiased diagrammatic Monte Carlo calculation of the equation of state of the $2D$ $SU(N)$ Hubbard model in an experimentally relevant regime, which has remained challenging for state-of-the-art numerical methods. | 翻訳日:2023-10-18 03:16:22 公開日:2023-10-15 |
# 分布非依存の一般化カテゴリー発見に向けて Towards Distribution-Agnostic Generalized Category Discovery ( http://arxiv.org/abs/2310.01376v2 ) ライセンス: Link先を確認 | Jianhong Bai, Zuozhu Liu, Hualiang Wang, Ruizhe Chen, Lianrui Mu, Xiaomeng Li, Joey Tianyi Zhou, Yang Feng, Jian Wu, Haoji Hu | (参考訳) データ不均衡と開放分布は、現実の視覚世界の本質的な特徴である。
それぞれの課題を個別に取り組むことで進歩を奨励する一方で、現実のシナリオに向けてそれらを統合するための作品はほとんどない。
これまでのいくつかの研究は、クローズドセットのサンプルの分類や、テスト中のオープンセットのサンプルの検出に力を入れてきました。
本稿では,より現実的なタスクを分散非依存な一般化カテゴリ発見(da-gcd)として定式化する。
そこで本研究では,da-gcd課題を解決するための対話的監督を行うために,コントラスト学習分枝と擬似ラベル分枝からなる自己バランス協調型コントラストフレームワーク(bacon)を提案する。
特に、コントラスト学習枝は、疑似ラベル分岐の予測を正則化する信頼できる分布推定を提供し、その結果、自己バランスの知識伝達と提案される新しいコントラスト損失を通じてコントラスト学習を導く。
我々はBaConと2つの密接に関連する分野、不均衡な半教師付き学習と一般化されたカテゴリー発見の最先端手法を比較した。
BaConの有効性は、すべてのベースラインよりも優れたパフォーマンスと、さまざまなデータセットにわたる包括的な分析で実証されている。
私たちのコードは公開されています。 Data imbalance and open-ended distribution are two intrinsic characteristics of the real visual world. Though encouraging progress has been made in tackling each challenge separately, few works dedicated to combining them towards real-world scenarios. While several previous works have focused on classifying close-set samples and detecting open-set samples during testing, it's still essential to be able to classify unknown subjects as human beings. In this paper, we formally define a more realistic task as distribution-agnostic generalized category discovery (DA-GCD): generating fine-grained predictions for both close- and open-set classes in a long-tailed open-world setting. To tackle the challenging problem, we propose a Self-Balanced Co-Advice contrastive framework (BaCon), which consists of a contrastive-learning branch and a pseudo-labeling branch, working collaboratively to provide interactive supervision to resolve the DA-GCD task. In particular, the contrastive-learning branch provides reliable distribution estimation to regularize the predictions of the pseudo-labeling branch, which in turn guides contrastive learning through self-balanced knowledge transfer and a proposed novel contrastive loss. We compare BaCon with state-of-the-art methods from two closely related fields: imbalanced semi-supervised learning and generalized category discovery. The effectiveness of BaCon is demonstrated with superior performance over all baselines and comprehensive analysis across various datasets. Our code is publicly available. | 翻訳日:2023-10-18 03:10:03 公開日:2023-10-15 |
# 閉塞を伴うRGB-Dデータからの3次元人文の再構成 Reconstructing 3D Human Pose from RGB-D Data with Occlusions ( http://arxiv.org/abs/2310.01228v2 ) ライセンス: Link先を確認 | Bowen Dang, Xi Zhao, Bowen Zhang, He Wang | (参考訳) 本稿では,RGB-D画像からの3次元人体再構築手法を提案する。
最大の課題は、体と環境の間の閉塞によるRGB-Dデータの不完全性であり、重度の人為的侵入に苦しむ不確実な再建につながる。
意味的・物理的に有理な人体を再構築するために,シーン情報と事前知識に基づく解空間の削減を提案する。
我々のキーとなる考え方は、隠蔽された身体部分と可視な身体部分とを別々に考慮し、隠蔽された身体部分がシーンに浸透しないようなすべての可視的なポーズをモデル化し、奥行きデータを用いて可視な身体部分を制限することである。
具体的には、第1のコンポーネントは「フリーゾーン」と呼ばれる候補領域を推定するニューラルネットワークによって実現される。
第2のコンポーネントは、スキャンされたボディーポイント雲の「差し込み影ボリューム」を使用して、可視体部分を制限する。
さらに,人体と閉じ込められた領域をマッチングするために,表面マッチングよりも優れた性能を示すボリュームマッチング戦略を提案する。
提案手法はproxデータセット上で実験を行い,他の手法と比較して精度が高く,妥当な結果が得られることを示した。 We propose a new method to reconstruct the 3D human body from RGB-D images with occlusions. The foremost challenge is the incompleteness of the RGB-D data due to occlusions between the body and the environment, leading to implausible reconstructions that suffer from severe human-scene penetration. To reconstruct a semantically and physically plausible human body, we propose to reduce the solution space based on scene information and prior knowledge. Our key idea is to constrain the solution space of the human body by considering the occluded body parts and visible body parts separately: modeling all plausible poses where the occluded body parts do not penetrate the scene, and constraining the visible body parts using depth data. Specifically, the first component is realized by a neural network that estimates the candidate region named the "free zone", a region carved out of the open space within which it is safe to search for poses of the invisible body parts without concern for penetration. The second component constrains the visible body parts using the "truncated shadow volume" of the scanned body point cloud. Furthermore, we propose to use a volume matching strategy, which yields better performance than surface matching, to match the human body with the confined region. We conducted experiments on the PROX dataset, and the results demonstrate that our method produces more accurate and plausible results compared with other methods. | 翻訳日:2023-10-18 03:09:35 公開日:2023-10-15 |
# autoagents: エージェントの自動生成のためのフレームワーク AutoAgents: A Framework for Automatic Agent Generation ( http://arxiv.org/abs/2309.17288v2 ) ライセンス: Link先を確認 | Guangyao Chen, Siwei Dong, Yu Shu, Ge Zhang, Jaward Sesay, B\"orje F. Karlsson, Jie Fu, Yemin Shi | (参考訳) 大規模言語モデル(llm)は、マルチエージェントシステムによるタスクの自動解決において著しく進歩した。
しかしながら、既存のllmベースのマルチエージェントアプローチのほとんどは、単純なタスクを処理するために事前定義されたエージェントに依存しており、マルチエージェントコラボレーションの異なるシナリオへの適応性を制限している。
そこで我々は,複数の専門エージェントを適応的に生成,コーディネートしてAIチームを構築する,革新的なフレームワークであるAutoAgentsを紹介した。
特にAutoAgentsは、タスクの内容に基づいて複数の必要なエージェントを動的に生成し、生成された専門家エージェントに基づいて現在のタスクを計画するソリューションを分割する。
複数の特殊エージェントが互いに協力してタスクを効率的に達成します。
同時に、指定された計画とエージェントの反応を反映し、それらを改善するために、オブザーバの役割がフレームワークに組み込まれる。
各種ベンチマーク実験により,AutoAgentsは既存のマルチエージェント手法よりも一貫性と正確な解を生成することが示された。
これは、異なるタスクとチーム協力に異なる役割を割り当てることの重要性を強調し、複雑なタスクに取り組むための新しい視点を提供する。
このプロジェクトのリポジトリはhttps://github.com/link-agi/autoagentsで入手できる。 Large language models (LLMs) have enabled remarkable advances in automated task-solving with multi-agent systems. However, most existing LLM-based multi-agent approaches rely on predefined agents to handle simple tasks, limiting the adaptability of multi-agent collaboration to different scenarios. Therefore, we introduce AutoAgents, an innovative framework that adaptively generates and coordinates multiple specialized agents to build an AI team according to different tasks. Specifically, AutoAgents couples the relationship between tasks and roles by dynamically generating multiple required agents based on task content and planning solutions for the current task based on the generated expert agents. Multiple specialized agents collaborate with each other to efficiently accomplish tasks. Concurrently, an observer role is incorporated into the framework to reflect on the designated plans and agents' responses and improve upon them. Our experiments on various benchmarks demonstrate that AutoAgents generates more coherent and accurate solutions than the existing multi-agent methods. This underscores the significance of assigning different roles to different tasks and of team cooperation, offering new perspectives for tackling complex tasks. The repository of this project is available at https://github.com/Link-AGI/AutoAgents. | 翻訳日:2023-10-18 03:07:50 公開日:2023-10-15 |
# 自己指導型学習における情報の流れ Information Flow in Self-Supervised Learning ( http://arxiv.org/abs/2309.17281v2 ) ライセンス: Link先を確認 | Zhiquan Tan, Jingqin Yang, Weiran Huang, Yang Yuan, Yifan Zhang | (参考訳) 本稿では,行列情報理論のレンズを用いて,自己教師付き学習法(SSL)の理解と拡張を行う包括的ツールボックスを提案する。
具体的には,マトリクス相互情報とジョイントエントロピーの原理を生かして,コントラスト法と特徴非相関法の両方について統一的な解析を行う。
さらに,行列情報理論に基づくM-MAE法をマスク画像モデリングの強化として提案する。
経験的評価は,リニアプローブvit-baseの3.9%,imagenetの微調整vit-largeの1%改善など,最先端手法と比較して,m-maeの有効性を強調する。 In this paper, we provide a comprehensive toolbox for understanding and enhancing self-supervised learning (SSL) methods through the lens of matrix information theory. Specifically, by leveraging the principles of matrix mutual information and joint entropy, we offer a unified analysis for both contrastive and feature decorrelation based methods. Furthermore, we propose the matrix variational masked auto-encoder (M-MAE) method, grounded in matrix information theory, as an enhancement to masked image modeling. The empirical evaluations underscore the effectiveness of M-MAE compared with the state-of-the-art methods, including a 3.9% improvement in linear probing ViT-Base, and a 1% improvement in fine-tuning ViT-Large, both on ImageNet. | 翻訳日:2023-10-18 03:07:15 公開日:2023-10-15 |
# EMOFM:クリックスルーレート予測のための特徴量ミキサー付きMLP mOdel EMOFM: Ensemble MLP mOdel with Feature-based Mixers for Click-Through Rate Prediction ( http://arxiv.org/abs/2310.04482v2 ) ライセンス: Link先を確認 | Yujian Betterest Li, Kai Wu | (参考訳) CTI競合の1つは、クリックスルーレート(CTR)予測である。
データセットには数百万のレコードが含まれており、各フィールドの機能は、プライバシのためのハッシュされた整数で構成されている。
このタスクでは、ネットワークベースのメソッドのキーは、異なるフィールド間のタイプワイズ特徴抽出と情報融合であるかもしれない。
多層パーセプトロン(MLP)はフィールド特徴を抽出できるが、効率よく特徴を融合することはできない。
クロスアテンションの自然融合特性とトランスフォーマーベース構造の効率により、フィールド/タイプワイド特徴融合のためのシンプルなプラグインミキサーを提案し、フィールド&タイプワイドアンサンブルモデル、すなわちEMOFM(Ensemble MLP mOdel with Feature-based Mixers)を構築した。
実験では,提案したモデルをデータセット上で評価し,最適化プロセスの可視化とアブレーション研究を行った。
EMOFMはベースラインよりも優れていた。
最後に、私たちは将来の仕事について話し合う。
WARNING: 提案手法は特にこのデータのために設計されているが,比較手法はそうではないため,比較は十分ではないかもしれない。
例えば、EMOFMは特に異なるタイプの相互作用を考慮に入れているが、他のものは考慮しない。
いずれにせよ、私たちのメソッド内のアイデアが、他の開発者/学習者/研究者/思考者などに役立つことを期待しています。 Track one of CTI competition is on click-through rate (CTR) prediction. The dataset contains millions of records and each field-wise feature in a record consists of hashed integers for privacy. For this task, the keys of network-based methods might be type-wise feature extraction and information fusion across different fields. Multi-layer perceptrons (MLPs) are able to extract field feature, but could not efficiently fuse features. Motivated by the natural fusion characteristic of cross attention and the efficiency of transformer-based structures, we propose simple plug-in mixers for field/type-wise feature fusion, and thus construct an field&type-wise ensemble model, namely EMOFM (Ensemble MLP mOdel with Feature-based Mixers). In the experiments, the proposed model is evaluated on the dataset, the optimization process is visualized and ablation studies are explored. It is shown that EMOFM outperforms compared baselines. In the end, we discuss on future work. WARNING: The comparison might not be fair enough since the proposed method is designed for this data in particular while compared methods are not. For example, EMOFM especially takes different types of interactions into consideration while others do not. Anyway, we do hope that the ideas inside our method could help other developers/learners/researchers/thinkers and so on. | 翻訳日:2023-10-18 02:58:55 公開日:2023-10-15 |
# 機械学習モデルを用いたクレジットカードスコア予測:新しいデータセット Credit card score prediction using machine learning models: A new dataset ( http://arxiv.org/abs/2310.02956v2 ) ライセンス: Link先を確認 | Anas Arram, Masri Ayob, Musatafa Abbas Abbood Albadr, Alaa Sulaiman, Dheeb Albashish | (参考訳) クレジットカードの使用は近年増加しており、潜在的なリスクを最小限に抑えるためにクレジットカード評価手法が不可欠である。
本研究では,クレジットカードデフォルト予測システムにおける機械学習モデルの利用について検討した。
ここでの主な目標は、新しいクレジットカードスコアリングデータセットで最高のパフォーマンスのMLモデルを調査することだ。
この新しいデータセットには、クレジットカード取引履歴と顧客プロファイルが含まれており、ロジスティック回帰、決定木、ランダムフォレスト、多層パーセプトロン(mlp)ニューラルネットワーク、xgboost、lightgbmなど、さまざまな機械学習アルゴリズムを使用して提案およびテストされている。
機械学習モデルのためのデータを作成するために、データ前処理、特徴抽出、特徴選択、データバランス技術を行う。
実験結果から,MLPはロジスティック回帰,決定木,ランダム林,LightGBM,XGBoostを真の正の速度で予測し,曲線(AUC)86.7%,精度91.6%,リコール率80%を達成していることがわかった。
これらの結果は,mlpが既定顧客を予測し,潜在的なリスクを評価する上で優れていることを示している。
さらに、銀行や他の金融機関がローンのデフォルトを早期に予測するのを支援している。 The use of credit cards has recently increased, creating an essential need for credit card assessment methods to minimize potential risks. This study investigates the utilization of machine learning (ML) models for credit card default prediction system. The main goal here is to investigate the best-performing ML model for new proposed credit card scoring dataset. This new dataset includes credit card transaction histories and customer profiles, is proposed and tested using a variety of machine learning algorithms, including logistic regression, decision trees, random forests, multi-layer perceptron (MLP) neural network, XGBoost, and LightGBM. To prepare the data for machine learning models, we perform data pre-processing, feature extraction, feature selection, and data balancing techniques. Experimental results demonstrate that MLP outperforms logistic regression, decision trees, random forests, LightGBM, and XGBoost in terms of predictive performance in true positive rate, achieving an impressive area under the curve (AUC) of 86.7% and an accuracy rate of 91.6%, with a recall rate exceeding 80%. These results indicate the superiority of MLP in predicting the default customers and assessing the potential risks. Furthermore, they help banks and other financial institutions in predicting loan defaults at an earlier stage. | 翻訳日:2023-10-18 02:57:20 公開日:2023-10-15 |
# Federated Learning: 最新の進歩と応用に関するカッティングエッジ調査 Federated Learning: A Cutting-Edge Survey of the Latest Advancements and Applications ( http://arxiv.org/abs/2310.05269v2 ) ライセンス: Link先を確認 | Azim Akhtarshenas, Mohammad Ali Vahedifar, Navid Ayoobi, Behrouz Maham, Tohid Alizadeh, Sina Ebrahimi | (参考訳) クライアントホスト接続を備えた機械学習(ML)システムの領域では、セキュアな分散ML手法として、フェデレーションラーニング(FL)を通じて、プライバシーセキュリティの強化を効果的に実現することができる。
FLはクラウドインフラストラクチャを効果的に統合し、ブロックチェーン技術を使用してMLモデルをエッジサーバに転送する。
このメカニズムを通じて、スケーラビリティ、プライバシの考慮、コスト効率のよい通信に重点を置いた、集中型および分散型のシステムの処理とデータストレージ要件の合理化が保証される。
現在のFL実装では、データ所有者はモデルをローカルにトレーニングし、その結果を重み、勾配、パラメータの形式でクラウドにアップロードし、全体のモデルアグリゲーションを行う。
このイノベーションは、IoT(Internet of Things)クライアントや参加者が、生データや潜在的機密データをクラウドセンタに直接通信する必要性を回避します。
これにより、通信ネットワークに関連するコストを削減できるだけでなく、プライベートデータの保護も強化される。
この調査は最近のFLアプリケーションの分析と比較を行い、その効率、正確性、プライバシー保護を評価することを目的としている。
しかしながら、flの複雑で進化する性質を踏まえると、さらなる研究が、知識のギャップの持続に対処し、この分野の今後の課題に効果的に直面することが不可欠であることが明らかとなる。
本研究では,最近の文献を,プライバシ保護,資源配分,ケーススタディ分析,応用の3つのクラスタに分類する。
さらに、各節の最後に、参照文献に提示されるオープンエリアと今後の方向性を集計し、研究者や学者がこの分野の進化について洞察に富んだ見解を得る。 In the realm of machine learning (ML) systems featuring client-host connections, the enhancement of privacy security can be effectively achieved through federated learning (FL) as a secure distributed ML methodology. FL effectively integrates cloud infrastructure to transfer ML models onto edge servers using blockchain technology. Through this mechanism, it guarantees the streamlined processing and data storage requirements of both centralized and decentralized systems, with an emphasis on scalability, privacy considerations, and cost-effective communication. In current FL implementations, data owners locally train their models, and subsequently upload the outcomes in the form of weights, gradients, and parameters to the cloud for overall model aggregation. This innovation obviates the necessity of engaging Internet of Things (IoT) clients and participants to communicate raw and potentially confidential data directly with a cloud center. This not only reduces the costs associated with communication networks but also enhances the protection of private data. This survey conducts an analysis and comparison of recent FL applications, aiming to assess their efficiency, accuracy, and privacy protection. However, in light of the complex and evolving nature of FL, it becomes evident that additional research is imperative to address lingering knowledge gaps and effectively confront the forthcoming challenges in this field. In this study, we categorize recent literature into the following clusters: privacy protection, resource allocation, case study analysis, and applications. Furthermore, at the end of each section, we tabulate the open areas and future directions presented in the referenced literature, affording researchers and scholars an insightful view of the evolution of the field. | 翻訳日:2023-10-18 02:48:41 公開日:2023-10-15 |
# Blackbox Queries を用いた並列量子回路の補間 Interpolating Parametrized Quantum Circuits using Blackbox Queries ( http://arxiv.org/abs/2310.04396v2 ) ライセンス: Link先を確認 | Lars Simon and Holger Eble and Hagen-Henrik Kowalski and Manuel Radons | (参考訳) 本稿では、(三角)多項式による補間を用いたパラメタライズド量子回路の古典的サロゲートの開発に焦点を当てる。
このようなサロゲートを構築するための2つのアルゴリズムを開発し、性能保証を証明する。
構成は、回路のブラックボックス評価に基づいており、量子ハードウェア上でシミュレートまたは実行することができる。
特定の回路特性を利用するホワイトボックス評価と比較してブラックボックスアプローチの限界を認める一方で、ブラックボックスアプローチが有益であることを示すシナリオを実証する。
サンプル応用は包含しているが、vqesの近似やバレン高原問題のアレビアトンに限定されない。 This article focuses on developing classical surrogates for parametrized quantum circuits using interpolation via (trigonometric) polynomials. We develop two algorithms for the construction of such surrogates and prove performance guarantees. The constructions are based on blackbox evaluations of circuits, which may either be simulated or executed on quantum hardware. While acknowledging the limitations of the blackbox approach compared to whitebox evaluations, which exploit specific circuit properties, we demonstrate scenarios in which the blackbox approach might prove beneficial. Sample applications include but are not restricted to the approximation of VQEs and the alleviaton of the barren plateau problem. | 翻訳日:2023-10-18 02:47:44 公開日:2023-10-15 |
# PyDCM:持続可能性のための強化学習を備えたカスタムデータセンターモデル PyDCM: Custom Data Center Models with Reinforcement Learning for Sustainability ( http://arxiv.org/abs/2310.03906v3 ) ライセンス: Link先を確認 | Avisek Naug, Antonio Guillen, Ricardo Luna Guti\'errez, Vineet Gundecha, Dejan Markovikj, Lekhapriya Dheeraj Kashyap, Lorenz Krause, Sahand Ghorbanpour, Sajad Mousavi, Ashwin Ramesh Babu, Soumyendu Sarkar | (参考訳) 持続可能性や二酸化炭素排出量削減の国際的重点化が進む中、政府や企業はデータセンターの設計と運用に対するアプローチを再考するよう迫られている。
高エネルギー消費と指数関数的に大きな計算ワークロードを考えると、データセンターは特に冷却やITエネルギー利用といった分野において、電力消費を最適化する主要な候補である。
この追求における重要な課題は、エンドツーエンドのパイプラインを提供する構成可能でスケーラブルな熱データセンターモデルがないことである。
データセンターは、幾何学的な構成と熱散逸が熱モデリングを困難にする複数のITコンポーネントで構成されている。
本稿では,Pythonで実装されたカスタマイズ可能なデータセンターモデルであるPyDCMを提案する。
ベクトル化熱計算を用いることで、pydcmのオーダーは現在のエネルギーとモデリングの実装よりも30倍速くなり、cpuの数とサブリニアにスケールできる。
また、pydcmは、gymnasiumラッパーを介して深層強化学習を使用してデータセンターの冷却を最適化し、様々なデータセンター設計プロトタイプをテストするユーザフレンドリーなプラットフォームを提供する。 The increasing global emphasis on sustainability and reducing carbon emissions is pushing governments and corporations to rethink their approach to data center design and operation. Given their high energy consumption and exponentially large computational workloads, data centers are prime candidates for optimizing power consumption, especially in areas such as cooling and IT energy usage. A significant challenge in this pursuit is the lack of a configurable and scalable thermal data center model that offers an end-to-end pipeline. Data centers consist of multiple IT components whose geometric configuration and heat dissipation make thermal modeling difficult. This paper presents PyDCM, a customizable Data Center Model implemented in Python, that allows users to create unique configurations of IT equipment with custom server specifications and geometric arrangements of IT cabinets. The use of vectorized thermal calculations makes PyDCM orders of magnitude faster (30 times) than current Energy Plus modeling implementations and scales sublinearly with the number of CPUs. Also, PyDCM enables the use of Deep Reinforcement Learning via the Gymnasium wrapper to optimize data center cooling and offers a user-friendly platform for testing various data center design prototypes. | 翻訳日:2023-10-18 02:47:00 公開日:2023-10-15 |
# HyperLips:顔生成のための高解像度デコーダ付きハイパーコントロールリップ HyperLips: Hyper Control Lips with High Resolution Decoder for Talking Face Generation ( http://arxiv.org/abs/2310.05720v3 ) ライセンス: Link先を確認 | Yaosen Chen, Yu Yao, Zhiqiang Li, Wei Wang, Yanru Zhang, Han Yang, Xuming Wen | (参考訳) 対話型顔生成は、仮想デジタル人間の分野において、幅広い可能性を秘めている。
しかし、既存の音声駆動音声合成アプローチでは、高忠実度顔ビデオのレンダリングと唇同期の確保が依然として課題である。
この問題に対処するため,高精細な顔の描画を行うハイパーネットワークと高精細なデコーダからなる2段階フレームワークHyperLipsを提案する。
第1段階では,ハイパーネットワークを用いたベースフェイス生成ネットワークを構築し,音声による視覚的顔情報の符号化遅延コードを制御する。
まず、FaceEncoderを用いて、顔フレームを含むビデオソースから抽出した視覚的顔情報から特徴を抽出し、音声の特徴を入力としてHyperNetによって重み付けパラメータを更新するHyperConvは、潜時コードを変更して、唇の動きをオーディオと同期させる。
最後に、facedecoderは修正および同期された潜在コードをvisual face contentにデコードする。
第2段階では,高精細デコーダを用いて高品質な顔映像を得る。
顔画像を用いた高分解能デコーダHRDecoderを訓練し,第1ステージから生成されたスケッチを入力として検出した。
プロジェクトページ: https://semchan.github.io/HyperLips Project/ Talking face generation has a wide range of potential applications in the field of virtual digital humans. However, rendering high-fidelity facial video while ensuring lip synchronization is still a challenge for existing audio-driven talking face generation approaches. To address this issue, we propose HyperLips, a two-stage framework consisting of a hypernetwork for controlling lips and a high-resolution decoder for rendering high-fidelity faces. In the first stage, we construct a base face generation network that uses the hypernetwork to control the encoding latent code of the visual face information over audio. First, FaceEncoder is used to obtain latent code by extracting features from the visual face information taken from the video source containing the face frame.Then, HyperConv, which weighting parameters are updated by HyperNet with the audio features as input, will modify the latent code to synchronize the lip movement with the audio. Finally, FaceDecoder will decode the modified and synchronized latent code into visual face content. In the second stage, we obtain higher quality face videos through a high-resolution decoder. To further improve the quality of face generation, we trained a high-resolution decoder, HRDecoder, using face images and detected sketches generated from the first stage as input.Extensive quantitative and qualitative experiments show that our method outperforms state-of-the-art work with more realistic, high-fidelity, and lip synchronization. Project page: https://semchan.github.io/HyperLips Project/ | 翻訳日:2023-10-18 02:37:02 公開日:2023-10-15 |
# 最適輸送による変圧器核融合 Transformer Fusion with Optimal Transport ( http://arxiv.org/abs/2310.05719v2 ) ライセンス: Link先を確認 | Moritz Imfeld, Jacopo Graldi, Marco Giordano, Thomas Hofmann, Sotiris Anagnostidis, Sidak Pal Singh (ETH Zurich) | (参考訳) fusionは、複数の独立学習されたニューラルネットワークをマージしてそれらの能力を統合する技術である。
過去の試みは、完全接続、畳み込み、および残留ネットワークの場合に限られてきた。
本稿では,様々なアーキテクチャコンポーネントを(ソフトに)配置する最適なトランスポートを利用する,2つ以上のトランスベースネットワークを融合する系統的アプローチを提案する。
我々は,任意のアーキテクチャに一般化可能なレイヤアライメントの抽象化を具体化し,マルチヘッドセルフアテンションやレイヤ正規化,残差接続といったトランスフォーマーの重要な構成要素に適用し,様々なアブレーション研究を通じてそれらを扱う方法について論じる。
さらに, 異なるサイズのモデル(異種融合)を融合させることにより, トランスフォーマーの圧縮のための新しい効率的な方法を提供する。
提案手法は視覚変換器による画像分類タスクとBERTを用いた自然言語モデリングタスクの両方で評価される。
我々のアプローチはバニラ融合を一貫して上回り、驚くほど短い微調整の後、個々の収束親モデルも上回ります。
その結果,トランスフォーマーの場合,ソフトアライメントが重要な役割を担っているという興味深い知見が得られた。
本研究は,複数のトランスフォーマーを融合させる可能性を示し,モデル融合と再結合の融合パラダイムにおいて,その専門性が高まることを示した。 Fusion is a technique for merging multiple independently-trained neural networks in order to combine their capabilities. Past attempts have been restricted to the case of fully-connected, convolutional, and residual networks. In this paper, we present a systematic approach for fusing two or more transformer-based networks exploiting Optimal Transport to (soft-)align the various architectural components. We flesh out an abstraction for layer alignment, that can generalize to arbitrary architectures -- in principle -- and we apply this to the key ingredients of Transformers such as multi-head self-attention, layer-normalization, and residual connections, and we discuss how to handle them via various ablation studies. Furthermore, our method allows the fusion of models of different sizes (heterogeneous fusion), providing a new and efficient way for compression of Transformers. The proposed approach is evaluated on both image classification tasks via Vision Transformer and natural language modeling tasks using BERT. Our approach consistently outperforms vanilla fusion, and, after a surprisingly short finetuning, also outperforms the individual converged parent models. In our analysis, we uncover intriguing insights about the significant role of soft alignment in the case of Transformers. Our results showcase the potential of fusing multiple Transformers, thus compounding their expertise, in the budding paradigm of model fusion and recombination. | 翻訳日:2023-10-18 02:36:37 公開日:2023-10-15 |
# LLMデータ拡張による階層型ディシプリナトピック推論の不均衡問題の解消 Resolving the Imbalance Issue in Hierarchical Disciplinary Topic Inference via LLM-based Data Augmentation ( http://arxiv.org/abs/2310.05318v2 ) ライセンス: Link先を確認 | Xunxin Cai, Meng Xiao, Zhiyuan Ning, Yuanchun Zhou | (参考訳) 自然言語処理領域におけるデータの不均衡問題に対処するために,テキストデータ拡張手法が重要なソリューションとして登場してきた。
このデータ不均衡は、資金調達申請プロセス中に提出された研究提案で顕著である。
このような不均衡は、規律の多様さや学際的な研究の出現によるものであり、これらの提案の関連分野を推論する下流トピックモデルの精度を著しく損なう。
データレベルでは、専門家や科学者によって書かれた提案は本質的に複雑な技術的テキストであり、複雑な用語に満ちている。
システムレベルでは、これはai支援レビューアの割り当てシステムの公正性を損なうことになり、この問題の解決にスポットライトを当てる。
本研究では,大規模言語モデル(llama v1)をデータジェネレータとして活用し,データ不均衡の是正と専門家割り当ての公平性向上を目的とした,複雑な学際階層に分類された研究提案を補強する。
まず、階層構造の中でサンプルを行い、未表現のクラスを見つけます。
そして,キーワードに基づく研究提案生成のプロンプトを設計した。
提案手法は,プロンプトを用いた研究提案が,上記の課題を効果的に解決し,高品質な科学テキストデータを生成することにより,不均衡な問題を克服する上で有効であることを示す。 In addressing the imbalanced issue of data within the realm of Natural Language Processing, text data augmentation methods have emerged as pivotal solutions. This data imbalance is prevalent in the research proposals submitted during the funding application process. Such imbalances, resulting from the varying popularity of disciplines or the emergence of interdisciplinary studies, significantly impede the precision of downstream topic models that deduce the affiliated disciplines of these proposals. At the data level, proposals penned by experts and scientists are inherently complex technological texts, replete with intricate terminologies, which augmenting such specialized text data poses unique challenges. At the system level, this, in turn, compromises the fairness of AI-assisted reviewer assignment systems, which raises a spotlight on solving this issue. This study leverages large language models (Llama V1) as data generators to augment research proposals categorized within intricate disciplinary hierarchies, aiming to rectify data imbalances and enhance the equity of expert assignments. We first sample within the hierarchical structure to find the under-represented class. Then we designed a prompt for keyword-based research proposal generation. Our experiments attests to the efficacy of the generated data, demonstrating that research proposals produced using the prompts can effectively address the aforementioned issues and generate high quality scientific text data, thus help the model overcome the imbalanced issue. | 翻訳日:2023-10-18 02:34:32 公開日:2023-10-15 |
# 強化学習のためのスケーラブルなセマンティック非マルコフシミュレーションプロキシ Scalable Semantic Non-Markovian Simulation Proxy for Reinforcement Learning ( http://arxiv.org/abs/2310.06835v2 ) ライセンス: Link先を確認 | Kaustuv Mukherji, Devendra Parkar, Lahari Pokala, Dyuman Aditya, Paulo Shakarian, Clark Dorman | (参考訳) 近年の強化学習(RL)の進歩は,様々な応用において大きな可能性を秘めている。
しかしながら、スケーラビリティ、説明可能性、マルコフの仮定といった問題は、特定の領域での適用性を制限する。
これらの欠点の多くは、RLトレーニングアルゴリズム自体とは対照的に、シミュレータから発せられる。
そこで我々は,アノテーション付き論理への時間的拡張に基づくシミュレーションのセマンティックプロキシを提案する。
2つの高忠実度シミュレータと比較して、学習したポリシーの質を保ちながら、最大3桁のスピードアップを示す。
さらに,非マルコフ力学や瞬時作用をモデル化し,活用する能力を示すとともに,エージェント動作の結果を説明するための説明可能なトレースを提供する。 Recent advances in reinforcement learning (RL) have shown much promise across a variety of applications. However, issues such as scalability, explainability, and Markovian assumptions limit its applicability in certain domains. We observe that many of these shortcomings emanate from the simulator as opposed to the RL training algorithms themselves. As such, we propose a semantic proxy for simulation based on a temporal extension to annotated logic. In comparison with two high-fidelity simulators, we show up to three orders of magnitude speed-up while preserving the quality of policy learned. In addition, we show the ability to model and leverage non-Markovian dynamics and instantaneous actions while providing an explainable trace describing the outcomes of the agent actions. | 翻訳日:2023-10-18 02:26:50 公開日:2023-10-15 |
# 多体局在を用いた超伝導量子プロセッサのクロストークと残結合誤差の緩和 Mitigating crosstalk and residual coupling errors in superconducting quantum processors using many-body localization ( http://arxiv.org/abs/2310.06618v2 ) ライセンス: Link先を確認 | Peng Qian, Hong-Ze Xu, Peng Zhao, Xiao Li, Dong E. Liu | (参考訳) 超伝導量子量子ビット、特に周波数制御における極大キャリブレーションの必要性に対処し、Multi-Body Localization(MBL)の原理を利用した新しいキャリブレーション手法を提案する。
googleのsnakeアルゴリズムのような既存の戦略は量子ビット周波数パラメータの最適化を目標としているが、我々のmblベースの手法はノイズ、特にクロストークと残差結合エラーに対する脅威として浮上し、量子プロセッサの忠実性と安定性を大幅に向上させる。
このアプローチは、特に特定の残基結合が存在する場合に、パフォーマンスを著しく改善するだけでなく、リソース効率が高く、コスト効率のよいキャリブレーションプロセスも提供する。
ここで述べられている研究は、高度なキャリブレーション戦略に対する新たな洞察を与え、量子計算の領域を前進させ、将来のエラー最小化と量子ビット性能の最適化のためのロバストな枠組みを提供する。 Addressing the paramount need for precise calibration in superconducting quantum qubits, especially in frequency control, this study introduces a novel calibration scheme harnessing the principles of Many-Body Localization (MBL). While existing strategies, such as Google's snake algorithm, have targeted optimization of qubit frequency parameters, our MBL-based methodology emerges as a stalwart against noise, notably crosstalk and residual coupling errors, thereby significantly enhancing quantum processor fidelity and stability without necessitating extensive optimization computation. Not only does this approach provide a marked improvement in performance, particularly where specific residue couplings are present, but it also presents a more resource-efficient and cost-effective calibration process. The research delineated herein affords fresh insights into advanced calibration strategies and propels forward the domain of superconducting quantum computation by offering a robust framework for future explorations in minimizing error and optimizing qubit performance. | 翻訳日:2023-10-18 02:26:10 公開日:2023-10-15 |
# 量子ラビモデルに対するスペーシング分布 Spacing distribution for quantum Rabi models ( http://arxiv.org/abs/2310.09811v1 ) ライセンス: Link先を確認 | Daniel Braak, Linh Thi Hoai Nguyen, Cid Reyes-Bustos and Masato Wakayama | (参考訳) 量子ラビモデル(quantum rabi model、qrm)は、光と物質の相互作用を記述する量子光学の基本モデルである。
直近の物理的関心に加えて、QRMは興味深い数学的構造を持ち、完全には理解されていない。
本稿では,高エネルギーの極限におけるQRMの連続固有値の分布,すなわち大量子数との差に着目した。
De Monvel と Zielinski が導いた QRM のスペクトルにおける各パリティ(すなわち $\mathbb{Z}_2$-対称性)に対する漸近式は、最初の40,000 の固有状態の数値的正確な研究と関連している。
パリティに応じてレベル間隔を分類することにより、漸近分布における一定の規則性を発見する。
QRMのようなパリティ構造は存在しないが、非対称量子ラビモデル(AQRM)の場合、バイアスパラメータに関する分布の新しいタイプの周期性と対称的挙動を特徴とする類似の正則性が現れる。
この結果は、半整数バイアスに対するAQRMの隠れ対称性を反映している。
さらに、我々はAQRMにおいて、大きな量子ビットエネルギーを持つQRMに類似したバイアスパラメータの大きな値に対する励起状態量子相転移を観察する。
さらに、固定バイアスに対するレベル間隔分布の内部対称性を数値的に観察する。
この新しい対称性は半整数バイアスの対称性とは独立であり、現在の理論的知識では説明できない。 The quantum Rabi model (QRM) is a fundamental model in quantum optics describing the interaction of light and matter. Besides its immediate physical interest, the QRM possesses an intriguing mathematical structure which is far from being completely understood. In this paper, we focus on the distribution of the level spacing, the difference between consecutive eigenvalues of the QRM in the limit of high energies, i.e. large quantum numbers. We employ an asymptotic expression for each parity (i.e., $\mathbb{Z}_2$-symmetry) in the spectrum of the QRM derived by de Monvel and Zielinski in connection with numerically exact studies for the first 40,000 eigenstates. By classifying the level spacing according to parity, we discover certain regularities in the asymptotic distribution. Although there is no such parity structure as in the QRM, similar regularities appear in the case of the asymmetric quantum Rabi model (AQRM) which is characterized by a new type of periodicity and symmetric behavior of the distribution with respect to the bias parameter. The results reflects the hidden symmetry of the AQRM for half-integer bias. In addition, we observe in the AQRM the excited state quantum phase transition for large values of the bias parameter, analogous to the QRM with large qubit energy. Moreover, we observe numerically an internal symmetry of the level spacing distribution for fixed bias. This novel symmetry is independent from the symmetry for half-integer bias and not explained by current theoretical knowledge. | 翻訳日:2023-10-18 01:57:47 公開日:2023-10-15 |
# ビザンチンロバスト学習のためのコミュニケーション圧縮:新しい効率的なアルゴリズムと改善率 Communication Compression for Byzantine Robust Learning: New Efficient Algorithms and Improved Rates ( http://arxiv.org/abs/2310.09804v1 ) ライセンス: Link先を確認 | Ahmad Rammal, Kaja Gruntkowska, Nikita Fedin, Eduard Gorbunov, Peter Richt\'arik | (参考訳) ビザンチン・ロバスト性(byzantine robustness)は、特定の分散最適化問題に対するアルゴリズムの重要な特徴である。
これらの問題は通常大規模であり、通信圧縮もその解決に必須であることを示している。
これらの要因は、圧縮によるビザンチン・ロバスト学習の文献における最近のアルゴリズム的・理論的発展を促している。
本稿では,この研究領域に2つの方向性で貢献する。
まず,Byz-DASHA-PAGEを圧縮した新しいByz-DASHA-PAGE法を提案し,非凸およびPolyak-Lojasiewiczのスムーズな最適化問題に対して,新しい手法が収束率を向上し,不均一な場合の近傍サイズが小さくなり,SOTA理論収束保証法(Byz-VR-MARINA)により従来の方法よりも過度なパラメータ化でビザンチン労働者を許容することを示した。
次に,Byz-EF21の双方向圧縮バージョンであるByz-EF21-BCとともに通信圧縮とエラーフィードバックを備えた最初のByzantine-robust法を開発し,非凸およびPolyak-Lojasiewiczスムーズケースに対するこれらの手法の収束率を導出する。
数値実験において,提案手法を検証し,理論的な知見を示す。 Byzantine robustness is an essential feature of algorithms for certain distributed optimization problems, typically encountered in collaborative/federated learning. These problems are usually huge-scale, implying that communication compression is also imperative for their resolution. These factors have spurred recent algorithmic and theoretical developments in the literature of Byzantine-robust learning with compression. In this paper, we contribute to this research area in two main directions. First, we propose a new Byzantine-robust method with compression -- Byz-DASHA-PAGE -- and prove that the new method has better convergence rate (for non-convex and Polyak-Lojasiewicz smooth optimization problems), smaller neighborhood size in the heterogeneous case, and tolerates more Byzantine workers under over-parametrization than the previous method with SOTA theoretical convergence guarantees (Byz-VR-MARINA). Secondly, we develop the first Byzantine-robust method with communication compression and error feedback -- Byz-EF21 -- along with its bidirectional compression version -- Byz-EF21-BC -- and derive the convergence rates for these methods for non-convex and Polyak-Lojasiewicz smooth case. We test the proposed methods and illustrate our theoretical findings in the numerical experiments. | 翻訳日:2023-10-18 01:57:23 公開日:2023-10-15 |
# プライベート合成データとアンサンブル学習 Private Synthetic Data Meets Ensemble Learning ( http://arxiv.org/abs/2310.09729v1 ) ライセンス: Link先を確認 | Haoyuan Sun, Navid Azizan, Akash Srivastava, Hao Wang | (参考訳) 機械学習モデルが合成データに基づいてトレーニングされ、次に実データにデプロイされると、合成データと実データの分散シフトによるパフォーマンス低下がしばしば発生する。
本稿では,実データを用いた場合の性能向上を目的とした,下流モデルのトレーニングのための新しいアンサンブル戦略を提案する。
差分プライバシ(DP)機構を複数回並列に適用することにより,複数の合成データセットを生成し,これらのデータセットでトレーニングされた下流モデルをアンサンブルする。
各合成データセットは実際のデータ分散からさらに逸脱するかもしれないが、総合的にサンプルの多様性を増加させる。
これにより、下流モデルの分散シフトに対する堅牢性を高めることができる。
広範にわたる実験により,狭帯域ベースあるいはワークロードベースのDP機構によって生成された合成データに基づいて学習したモデルに対して,アンサンブルはダウンストリーム性能を向上しないが,提案手法は,下流モデルの精度とキャリブレーションの両面から,GANベースのDP機構を用いて訓練したモデルの性能を向上させる。 When machine learning models are trained on synthetic data and then deployed on real data, there is often a performance drop due to the distribution shift between synthetic and real data. In this paper, we introduce a new ensemble strategy for training downstream models, with the goal of enhancing their performance when used on real data. We generate multiple synthetic datasets by applying a differential privacy (DP) mechanism several times in parallel and then ensemble the downstream models trained on these datasets. While each synthetic dataset might deviate more from the real data distribution, they collectively increase sample diversity. This may enhance the robustness of downstream models against distribution shifts. Our extensive experiments reveal that while ensembling does not enhance downstream performance (compared with training a single model) for models trained on synthetic data generated by marginal-based or workload-based DP mechanisms, our proposed ensemble strategy does improve the performance for models trained using GAN-based DP mechanisms in terms of both accuracy and calibration of downstream models. | 翻訳日:2023-10-18 01:56:52 公開日:2023-10-15 |
# シャンクIMUセンサを用いた歩行位相分類のためのSVMに基づくマルチクラス分類器 SVM based Multiclass Classifier for Gait phase Classification using Shank IMU Sensor ( http://arxiv.org/abs/2310.09728v1 ) ライセンス: Link先を確認 | Aswadh Khumar G S and Barath Kumar JK | (参考訳) 本研究では, SVM のマルチクラス分類に基づく歩行位相分類手法を導入し, 姿勢と揺動位相の正確な同定に着目し, さらに7つの位相に分割した。
この分類モデルでは、Shank Acceleration X、Y、Z、Shank Gyro X、Knee Anglesなどの個々のIMUセンサーのデータが特徴として使用される。
提案手法は約90.3%の精度で様々な歩行相を分類することに成功した。
歩行相分類は特に外骨格と補綴学の領域において重要であり、歩行相の正確な同定は補助装置とのシームレスな統合、移動性、安定性、エネルギー経済の改善を可能にする。
本研究は歩行の研究を拡張し,Shank IMUセンサデータから歩行位相を正しく同定する有効な方法を提供し,生体力学的研究,外骨格,リハビリテーション,補綴学に応用できる可能性を示した。 In this study, a gait phase classification method based on SVM multiclass classification is introduced, with a focus on the precise identification of the stance and swing phases, which are further subdivided into seven phases. Data from individual IMU sensors, such as Shank Acceleration X, Y, Z, Shank Gyro X, and Knee Angles, are used as features in this classification model. The suggested technique successfully classifies the various gait phases with a significant accuracy of about 90.3%. Gait phase classification is crucial, especially in the domains of exoskeletons and prosthetics, where accurate identification of gait phases enables seamless integration with assistive equipment, improving mobility, stability, and energy economy. This study extends the study of gait and offers an effective method for correctly identifying gait phases from Shank IMU sensor data, with potential applications in biomechanical research, exoskeletons, rehabilitation, and prosthetics. | 翻訳日:2023-10-18 01:56:31 公開日:2023-10-15 |
# マルコフポテンシャルゲームにおける独立自然政策勾配の高速収束 Provably Fast Convergence of Independent Natural Policy Gradient for Markov Potential Games ( http://arxiv.org/abs/2310.09727v1 ) ライセンス: Link先を確認 | Youbang Sun, Tao Liu, Ruida Zhou, P. R. Kumar, Shahin Shahrampour | (参考訳) 本研究はマルコフポテンシャルゲームにおけるマルチエージェント強化学習問題に対する独立自然ポリシー勾配(NPG)アルゴリズムの研究である。
軽度の技術的仮定と準最適差の導入により, 厳密な政策評価を提供するオラクルを持つ独立NPG法は, $\mathcal{O}(1/\epsilon)$イテレーション内において, $\epsilon$-Nash Equilibrium (NE) に達することが示されている。
これは$\mathcal{O}(1/\epsilon^2)$イテレーションの前の最良の結果を改善し、同じ順序である$\mathcal{O}(1/\epsilon)$で、これは単項の場合で達成可能である。
合成ポテンシャルゲームと渋滞ゲームに対する実験結果を示し、理論的境界を検証した。 This work studies an independent natural policy gradient (NPG) algorithm for the multi-agent reinforcement learning problem in Markov potential games. It is shown that, under mild technical assumptions and the introduction of the suboptimality gap, the independent NPG method with an oracle providing exact policy evaluation asymptotically reaches an $\epsilon$-Nash Equilibrium (NE) within $\mathcal{O}(1/\epsilon)$ iterations. This improves upon the previous best result of $\mathcal{O}(1/\epsilon^2)$ iterations and is of the same order, $\mathcal{O}(1/\epsilon)$, that is achievable for the single-agent case. Empirical results for a synthetic potential game and a congestion game are presented to verify the theoretical bounds. | 翻訳日:2023-10-18 01:56:14 公開日:2023-10-15 |
# SGA: 符号付きグラフニューラルネットワークのためのグラフ拡張手法 SGA: A Graph Augmentation Method for Signed Graph Neural Networks ( http://arxiv.org/abs/2310.09705v1 ) ライセンス: Link先を確認 | Zeyu Zhang, Shuyan Wan, Sijie Wang, Xianda Zheng, Xinrui Zhang, Kaiqi Zhao, Jiamou Liu, Dong Hao | (参考訳) 符号付きグラフニューラルネットワーク(SGNN)は、正と負のリンクを含む実世界の符号付きグラフの複雑なパターンを分析するために不可欠である。
しかし、現在のSGNNベースで署名されたグラフ表現学習を妨げる3つの重要な課題は、署名されたグラフの空間性は、未発見の潜在構造を残し、不均衡な三角形はSGNNモデルに表現上の困難をもたらす。
これらの制約は、SGNNに基づく表現学習の可能性を制限する。
我々はこれらの問題をデータ拡張技術で解決する。
符号なしグラフには多くのグラフデータ拡張方法が存在するが、符号付きグラフには向いていない。
本稿では3つの主要コンポーネントからなる新しい手書きグラフ拡張フレームワーク(SGA)について紹介する。
まず, sgnnモデルを用いて符号付きグラフを符号化し, 候補拡張構造の潜在構造情報を抽出する。
第2に、これらの候補サンプル(エッジ)を評価し、元のトレーニングセットを変更するための最も有益なものを選択する。
第3に,トレーニングの難易度をサンプルに割り当て,新たなトレーニング戦略の設計を可能にする新しい強化視点を提案する。
6つの実世界のデータセット(Bitcoin-alpha、Bitcoin-otc、Epinions、Slashdot、Wiki-elec、Wiki-RfA)に対する大規模な実験は、SGAが複数のベンチマークでパフォーマンスを大幅に改善することを示した。
提案手法は,wiki-rfaのsgcnでは最大22.2%,f1-binaryでは33.3%,f1-microでは48.8%,f1-macroでは36.3%, bitcoin-alphaでは36.3%のベースラインを上回った。 Signed Graph Neural Networks (SGNNs) are vital for analyzing complex patterns in real-world signed graphs containing positive and negative links. However, three key challenges hinder current SGNN-based signed graph representation learning: sparsity in signed graphs leaves latent structures undiscovered, unbalanced triangles pose representation difficulties for SGNN models, and real-world signed graph datasets often lack supplementary information like node labels and features. These constraints limit the potential of SGNN-based representation learning. We address these issues with data augmentation techniques. Despite many graph data augmentation methods existing for unsigned graphs, none are tailored for signed graphs. Our paper introduces the novel Signed Graph Augmentation framework (SGA), comprising three main components. First, we employ the SGNN model to encode the signed graph, extracting latent structural information for candidate augmentation structures. Second, we evaluate these candidate samples (edges) and select the most beneficial ones for modifying the original training set. Third, we propose a novel augmentation perspective that assigns varying training difficulty to training samples, enabling the design of a new training strategy. Extensive experiments on six real-world datasets (Bitcoin-alpha, Bitcoin-otc, Epinions, Slashdot, Wiki-elec, and Wiki-RfA) demonstrate that SGA significantly improves performance across multiple benchmarks. Our method outperforms baselines by up to 22.2% in AUC for SGCN on Wiki-RfA, 33.3% in F1-binary, 48.8% in F1-micro, and 36.3% in F1-macro for GAT on Bitcoin-alpha in link sign prediction. | 翻訳日:2023-10-18 01:55:57 公開日:2023-10-15 |
# 根管解析のための非対称シェープリー値の理論評価 Theoretical Evaluation of Asymmetric Shapley Values for Root-Cause Analysis ( http://arxiv.org/abs/2310.09961v1 ) ライセンス: Link先を確認 | Domokos M. Kelen, Mih\'aly Petreczky, P\'eter Kersch, Andr\'as A. Bencz\'ur | (参考訳) 本研究では,人気のあるshap添加局所説明法の変種であるasymmetric shapley value (asv) について検討する。
asvは、変数間の既知の因果関係を組み込んだモデル説明を改善する方法を提案し、モデル予測における不公平な差別をテストする方法としても考えられている。
以前の文献では、シャプリー値の緩和対称性はモデル説明に直観に反する結果をもたらす可能性がある。
この方法をよりよく理解するために,まず,局所的な貢献が分散低減のグローバル貢献とどのように一致するかを示す。
分散を用いて, ASV が反直感的属性を生じ, 根起因解析の誤った結果をもたらすことを示す。
第2に、一般化加法モデル(GAM)を、ASVが望ましい特性を示す制限クラスとして同定する。
提案手法に関する複数の理論的結果を証明し,議論を支援する。
最後に,複数の実世界のデータセットに対する非対称帰属の使用を実証し,グラデーションブースティングとディープラーニングモデルを用いたモデルファミリと非制限モデルファミリの比較を行った。 In this work, we examine Asymmetric Shapley Values (ASV), a variant of the popular SHAP additive local explanation method. ASV proposes a way to improve model explanations incorporating known causal relations between variables, and is also considered as a way to test for unfair discrimination in model predictions. Unexplored in previous literature, relaxing symmetry in Shapley values can have counter-intuitive consequences for model explanation. To better understand the method, we first show how local contributions correspond to global contributions of variance reduction. Using variance, we demonstrate multiple cases where ASV yields counter-intuitive attributions, arguably producing incorrect results for root-cause analysis. Second, we identify generalized additive models (GAM) as a restricted class for which ASV exhibits desirable properties. We support our arguments by proving multiple theoretical results about the method. Finally, we demonstrate the use of asymmetric attributions on multiple real-world datasets, comparing the results with and without restricted model families using gradient boosting and deep learning models. | 翻訳日:2023-10-18 01:47:48 公開日:2023-10-15 |
# BONES:ほぼ最適のニューラル強化ビデオストリーミング BONES: Near-Optimal Neural-Enhanced Video Streaming ( http://arxiv.org/abs/2310.09920v1 ) ライセンス: Link先を確認 | Lingdong Wang, Simran Singh, Jacob Chakareski, Mohammad Hajiesmaili, Ramesh K. Sitaraman | (参考訳) ネットワーク帯域が不十分で不安定なため、高品質なビデオコンテンツにアクセスすることは難しい。
ニューラルエンハンスメントの最近の進歩は、ディープラーニングによる劣化ビデオの品質向上に有望な成果を示している。
Neural-Enhanced Streaming(NES)は、この新しいアプローチをビデオストリーミングに取り入れることで、ユーザーは低品質のビデオセグメントをダウンロードし、ビデオストリームの再生に違反することなく高品質なコンテンツを取得することができる。
本稿では,ユーザ体験の質(QoE)を最大化するために,ネットワークと計算資源を共同で管理するNES制御アルゴリズムBONESを紹介する。
BONESは、NESをリアプノフ最適化問題として定式化し、ほぼ最適性能でオンライン的に解決し、理論的な性能保証を提供する最初のNESアルゴリズムとなった。
総合的な実験結果から,bonesは最先端のアルゴリズムよりもqoeを4%から13%増加させ,ユーザのビデオストリーミングエクスペリエンスを向上させる可能性を実証した。
私たちのコードとデータは一般公開されます。 Accessing high-quality video content can be challenging due to insufficient and unstable network bandwidth. Recent advances in neural enhancement have shown promising results in improving the quality of degraded videos through deep learning. Neural-Enhanced Streaming (NES) incorporates this new approach into video streaming, allowing users to download low-quality video segments and then enhance them to obtain high-quality content without violating the playback of the video stream. We introduce BONES, an NES control algorithm that jointly manages the network and computational resources to maximize the quality of experience (QoE) of the user. BONES formulates NES as a Lyapunov optimization problem and solves it in an online manner with near-optimal performance, making it the first NES algorithm to provide a theoretical performance guarantee. Our comprehensive experimental results indicate that BONES increases QoE by 4% to 13% over state-of-the-art algorithms, demonstrating its potential to enhance the video streaming experience for users. Our code and data will be released to the public. | 翻訳日:2023-10-18 01:47:29 公開日:2023-10-15 |
# 株価予測における最適技術指標の同定のための特徴選択性能の評価 Evaluation of feature selection performance for identification of best effective technical indicators on stock market price prediction ( http://arxiv.org/abs/2310.09903v1 ) ライセンス: Link先を確認 | Fatemeh Moodi, Amir Jahangard-Rafsanjani | (参考訳) 技術指標を含む多くの要因が株式市場の予測に与える影響から、最適な指標を選択することが特徴選択である。
特徴選択時のモデルの性能を考慮した特徴選択手法の1つは,ラッパー特徴選択法である。
本研究の目的は, 市場価格を最小限の誤差で予測するために, 特徴選択による最高の株式市場指標の組み合わせを特定することである。
株式市場予測におけるラッパーの特徴選択技術の影響を評価するため,Apple社の過去10年間に10の推定値と123の技術的指標を用いたSFSとSBSについて検討した。
また,提案手法により,3日間の時間ウィンドウで作成したデータを回帰法に適した入力に変換した。
1) 各ラッパー特徴選択法は, 異なる機械学習手法で異なる結果が得られ, それぞれの手法は, 株式市場の特定の技術指標とより相関する。
2)リッジとlrの見積もりだけで,ラッパー特徴の選択方法がsfsとsbsの2つで,市場予測のすべての評価基準で最高の結果を得た。
(3) R2, MSE, RMSE, MAE, MAPE のすべてのR2, MSE, MAPEを併用したリッジ・アンド・LR法は, 市場予測に最適である。
また、MLP回帰法はシークエンシャル・フォワード・セレクション(Sequential Forwards Selection)やMSE(MSE)と共に最高のパフォーマンスを示した。
SVRレグレッションは、SFSとMSEとともに、すべての指標でSVRレグレッションよりも大幅に改善されている。
(4) 異なる評価パラメータを持つ異なるML法により異なる特徴が選択されることが観察された。
(5)ほとんどのML手法では、Squeeze_pro, Percentage Price Oscillator, Thermo, Decay, Archer On-Balance Volume, Bollinger Bands, Squeeze,ichimokuが使用されている。 Due to the influence of many factors, including technical indicators on stock market prediction, feature selection is important to choose the best indicators. One of the feature selection methods that consider the performance of models during feature selection is the wrapper feature selection method. The aim of this research is to identify a combination of the best stock market indicators through feature selection to predict the stock market price with the least error. In order to evaluate the impact of wrapper feature selection techniques on stock market prediction, in this paper SFS and SBS with 10 estimators and 123 technical indicators have been examined on the last 10 years of Apple Company. Also, by the proposed method, the data created by the 3-day time window were converted to the appropriate input for regression methods. Based on the results observed: (1) Each wrapper feature selection method has different results with different machine learning methods, and each method is more correlated with a specific set of technical indicators of the stock market. (2) Ridge and LR estimates alone, and with two methods of the wrapper feature selection, namely SFS and SBS; They had the best results with all assessment criteria for market forecast. (3)The Ridge and LR method with all the R2, MSE, RMSE, MAE and MAPE have the best stock market prediction results. Also, the MLP Regression Method, along with the Sequential Forwards Selection and the MSE, had the best performance. SVR regression, along with the SFS and the MSE, has improved greatly compared to the SVR regression with all indicators. (4) It was also observed that different features are selected by different ML methods with different evaluation parameters. (5) Most ML methods have used the Squeeze_pro, Percentage Price Oscillator, Thermo, Decay, Archer On-Balance Volume, Bollinger Bands, Squeeze and Ichimoku indicator. | 翻訳日:2023-10-18 01:47:09 公開日:2023-10-15 |
# データ中心ロバスト学習による移動型敵攻撃に抵抗するディープラーニングモデルに向けて Towards Deep Learning Models Resistant to Transfer-based Adversarial Attacks via Data-centric Robust Learning ( http://arxiv.org/abs/2310.09891v1 ) ライセンス: Link先を確認 | Yulong Yang, Chenhao Lin, Xiang Ji, Qiwei Tian, Qian Li, Hongshan Yang, Zhibo Wang, Chao Shen | (参考訳) トランスファーベースの敵攻撃は、ターゲットモデルへのアクセスを必要としないため、現実世界のディープラーニングシステムに深刻な脅威をもたらす。
ホワイトボックス攻撃に対する最強の防御とされるadversarial training(at)もまた、(ブラックボックス)転送ベースの攻撃に対して高い堅牢性を保証する。
しかし、ATはトレーニングプロセス全体の逆例を最適化するため、重い計算オーバーヘッドに悩まされている。
本稿では,ATの移動攻撃に対して,そのような過度な最適化は不要であることを示す。
代わりに、訓練前の一発対向強化は十分であり、我々はこの新しい防衛パラダイムをデータ中心ロバスト学習(DRL)と名付けた。
実験の結果, DRLはブラックボックスのロバスト性において広く使用されているAT技術(PGD-AT, TRADES, EAT, FAT)より優れており, 多様なデータ拡張と損失正規化を組み合わせた場合, ロバストベンチにおけるトップ1防御よりも優れていた。
また、DRLの他の利点として、例えばモデル一般化能力と頑健な公正性を挙げる。 Transfer-based adversarial attacks raise a severe threat to real-world deep learning systems since they do not require access to target models. Adversarial training (AT), which is recognized as the strongest defense against white-box attacks, has also guaranteed high robustness to (black-box) transfer-based attacks. However, AT suffers from heavy computational overhead since it optimizes the adversarial examples during the whole training process. In this paper, we demonstrate that such heavy optimization is not necessary for AT against transfer-based attacks. Instead, a one-shot adversarial augmentation prior to training is sufficient, and we name this new defense paradigm Data-centric Robust Learning (DRL). Our experimental results show that DRL outperforms widely-used AT techniques (e.g., PGD-AT, TRADES, EAT, and FAT) in terms of black-box robustness and even surpasses the top-1 defense on RobustBench when combined with diverse data augmentations and loss regularizations. We also identify other benefits of DRL, for instance, the model generalization capability and robust fairness. | 翻訳日:2023-10-18 01:46:35 公開日:2023-10-15 |
# 単一粒子開量子系におけるコヒーレンスの指数減衰 Exponential decay of coherences in single-particle open quantum systems ( http://arxiv.org/abs/2310.09880v1 ) ライセンス: Link先を確認 | Frederik Ravn Klausen, Simone Warzel | (参考訳) 局所項を持つリンドブラッドマスター方程式により記述された単一粒子量子状態の時間発展について検討する。
リンドブラッド発生器に導かれる幾何解法式を用いて, 時間発展状態や定常状態の位置に基づく非対角行列要素の減衰に関する有限体積型基準を定式化する。
この基準は、非エルミート進化がギャップまたは強い乱れのどちらかである系に対して指数的崩壊をもたらすことが示されている。
このギャップは、例えば、システム内に任意の局所的デファスメントのレベルが存在するときに存在する。
乱の場合の結果は、アンダーソン局在化から開量子系への拡張と見なすことができる。 We study the time evolution of single-particle quantum states described by a Lindblad master equation with local terms. By means of a geometric resolvent equation derived for Lindblad generators, we establish a finite-volume-type criterion for the decay of the off-diagonal matrix elements in the position basis of the time-evolved or steady states. This criterion is shown to yield exponential decay for systems where the non-hermitian evolution is either gapped or strongly disordered. The gap exists for example whenever any level of local dephasing is present in the system. The result in the disordered case can be viewed as an extension of Anderson localization to open quantum systems. | 翻訳日:2023-10-18 01:46:13 公開日:2023-10-15 |
# cislunar宇宙ネットワークのためのセキュアでロバストな通信 Secure and Robust Communications for Cislunar Space Networks ( http://arxiv.org/abs/2310.09835v1 ) ライセンス: Link先を確認 | Selen Gecgel Cetin, Gunes Karabulut Kurt, Angeles Vazquez-Castro | (参考訳) 月が商業や国際的な俳優の関心の中心になったことは疑いない。
過去10年間で、計画された長期ミッションの数は劇的に増加した。
これにより、シスルナル宇宙ネットワーク(csns)の確立は、月と地球の間の断続的な通信のオーケストレーションに不可欠である。
しかし、月面ミッションに様々なリスクをもたらす可能性があるシスルナー通信に関連する多くの課題、未知、不確実性がある。
本研究では,cislunar space domain awareness (sda) 機能を提案することにより,cislunar communicationにおけるこれらの課題に対処し,堅牢でセキュアな通信を実現することを目的とする。
そこで我々はまず,選択したシスラナルシナリオに対する詳細なチャネルモデルを提案する。
第2に,シスルナー空間で発生する異常をモデル化できる2種類の干渉法を提案する。
最後に,我々のcislunar sdaについて,宇宙船通信システムと連携して検討する。
機械学習アルゴリズムを用いたヒューリスティック学習機能を備えたシスラナルSDAは,96%以上の精度で干渉モデルを検出する。
その結果、セキュアで堅牢なシスラナル通信のためのシスラナルSDAアプローチが期待できる性能を示した。 There is no doubt that the Moon has become the center of interest for commercial and international actors. Over the past decade, the number of planned long-term missions has increased dramatically. This makes the establishment of cislunar space networks (CSNs) crucial to orchestrate uninterrupted communications between the Moon and Earth. However, there are numerous challenges, unknowns, and uncertainties associated with cislunar communications that may pose various risks to lunar missions. In this study, we aim to address these challenges for cislunar communications by proposing a machine learning-based cislunar space domain awareness (SDA) capability that enables robust and secure communications. To this end, we first propose a detailed channel model for selected cislunar scenarios. Secondly, we propose two types of interference that could model anomalies that occur in cislunar space and are so far known only to a limited extent. Finally, we discuss our cislunar SDA to work in conjunction with the spacecraft communication system. Our proposed cislunar SDA, involving heuristic learning capabilities with machine learning algorithms, detects interference models with over 96% accuracy. The results demonstrate the promising performance of our cislunar SDA approach for secure and robust cislunar communication. | 翻訳日:2023-10-18 01:46:02 公開日:2023-10-15 |
# MAGIC:マスク付きグラフ表現学習による高度な脅威の検出 MAGIC: Detecting Advanced Persistent Threats via Masked Graph Representation Learning ( http://arxiv.org/abs/2310.09831v1 ) ライセンス: Link先を確認 | Zian Jia, Yun Xiong, Yuhong Nan, Yao Zhang, Jinjing Zhao, Mi Wen | (参考訳) 最もデリケートな攻撃者によって採用された先進的永続的脅威(APT)は、ますます一般的になり、様々な企業や機関に大きな脅威をもたらしている。
APT検出における一般的なアプローチとして、前駆体グラフ上のデータ前駆体分析が登場している。
しかし,従来の研究では,(1)攻撃を含むデータと先行知識を必要とすること,(2)証明グラフ内に埋もれたリッチな文脈情報の抽出に失敗すること,(3)計算オーバーヘッドやメモリ消費の禁止など,いくつかの欠点が指摘されている。
本稿では,異なるレベルの監視下でマルチグラニュラ性検出が可能な,新規で柔軟な自己教師付きapt検出手法であるmagicを提案する。
MAGICはマスク付きグラフ表現学習を利用して、良質なシステムエンティティや振る舞いをモデル化し、プロファイランスグラフ上で効率的な深い特徴抽出と構造抽象化を行う。
異常なシステム動作を異常検出方法でフェレシングすることで、MAGICはシステムエンティティレベルとバッチログレベルのAPT検出の両方を実行することができる。
MAGICはモデル適応機構でコンセプトドリフトを扱うように設計されており、普遍的な条件や検出シナリオにうまく適用されている。
我々は、現実世界とシミュレーションされた攻撃を含む、広く使われている3つのデータセット上でMAGICを評価する。
その結果、MAGICは全てのシナリオにおいて有望な検出結果を達成し、性能オーバーヘッドにおける最先端のAPT検出アプローチに対して大きな優位性を示した。 Advance Persistent Threats (APTs), adopted by most delicate attackers, are becoming increasing common and pose great threat to various enterprises and institutions. Data provenance analysis on provenance graphs has emerged as a common approach in APT detection. However, previous works have exhibited several shortcomings: (1) requiring attack-containing data and a priori knowledge of APTs, (2) failing in extracting the rich contextual information buried within provenance graphs and (3) becoming impracticable due to their prohibitive computation overhead and memory consumption. In this paper, we introduce MAGIC, a novel and flexible self-supervised APT detection approach capable of performing multi-granularity detection under different level of supervision. MAGIC leverages masked graph representation learning to model benign system entities and behaviors, performing efficient deep feature extraction and structure abstraction on provenance graphs. By ferreting out anomalous system behaviors via outlier detection methods, MAGIC is able to perform both system entity level and batched log level APT detection. MAGIC is specially designed to handle concept drift with a model adaption mechanism and successfully applies to universal conditions and detection scenarios. We evaluate MAGIC on three widely-used datasets, including both real-world and simulated attacks. Evaluation results indicate that MAGIC achieves promising detection results in all scenarios and shows enormous advantage over state-of-the-art APT detection approaches in performance overhead. | 翻訳日:2023-10-18 01:45:46 公開日:2023-10-15 |
# Ansor: ディープラーニングのための高性能テンソルプログラムの生成 Ansor: Generating High-Performance Tensor Programs for Deep Learning ( http://arxiv.org/abs/2006.06762v5 ) ライセンス: Link先を確認 | Lianmin Zheng, Chengfan Jia, Minmin Sun, Zhao Wu, Cody Hao Yu, Ameer Haj-Ali, Yida Wang, Jun Yang, Danyang Zhuo, Koushik Sen, Joseph E. Gonzalez, Ion Stoica | (参考訳) 高性能テンソルプログラムは、ディープニューラルネットワークの効率的な実行を保証するために不可欠である。
しかし、様々なハードウェアプラットフォーム上で異なる演算子に対してパフォーマンステンソルプログラムを取得することは、非常に難しい。
現在、ディープラーニングシステムはベンダーが提供するカーネルライブラリや様々な検索戦略に頼っている。
これらのアプローチは、プラットフォーム固有の最適化コードを開発するための重要なエンジニアリングの努力を必要とするか、あるいは検索スペースの制限と非効率的な探索戦略のために高性能なプログラムを見つけられなかった。
本稿では,ディープラーニングアプリケーションのためのテンソルプログラム生成フレームワークansorを提案する。
既存の検索戦略と比較して、Ansorは検索空間の階層的な表現からプログラムをサンプリングすることで、多くの最適化の組み合わせを探索する。
ansorはサンプルプログラムを進化的探索と学習コストモデルで微調整し、最適なプログラムを識別する。
Ansorは、既存の最先端アプローチの検索空間外にある高性能プログラムを見つけることができる。
さらに、ansorはタスクスケジューラを使用して、ディープニューラルネットワークで複数のサブグラフを同時に最適化する。
我々は、AnsorがIntel CPU、ARM CPU、NVIDIA GPUの最先端技術に対するディープニューラルネットワークの実行性能を最大3.8\times$、2.6\times$、1.7\times$で改善していることを示す。 High-performance tensor programs are crucial to guarantee efficient execution of deep neural networks. However, obtaining performant tensor programs for different operators on various hardware platforms is notoriously challenging. Currently, deep learning systems rely on vendor-provided kernel libraries or various search strategies to get performant tensor programs. These approaches either require significant engineering effort to develop platform-specific optimization code or fall short of finding high-performance programs due to restricted search space and ineffective exploration strategy. We present Ansor, a tensor program generation framework for deep learning applications. Compared with existing search strategies, Ansor explores many more optimization combinations by sampling programs from a hierarchical representation of the search space. Ansor then fine-tunes the sampled programs with evolutionary search and a learned cost model to identify the best programs. Ansor can find high-performance programs that are outside the search space of existing state-of-the-art approaches. In addition, Ansor utilizes a task scheduler to simultaneously optimize multiple subgraphs in deep neural networks. We show that Ansor improves the execution performance of deep neural networks relative to the state-of-the-art on the Intel CPU, ARM CPU, and NVIDIA GPU by up to $3.8\times$, $2.6\times$, and $1.7\times$, respectively. | 翻訳日:2023-10-17 23:40:19 公開日:2023-10-15 |
# 知識グラフ埋め込み:表現空間の観点からの考察 Knowledge Graph Embedding: A Survey from the Perspective of Representation Spaces ( http://arxiv.org/abs/2211.03536v2 ) ライセンス: Link先を確認 | Jiahang Cao, Jinyuan Fang, Zaiqiao Meng, Shangsong Liang | (参考訳) 知識グラフ埋め込み(KGE)は、知識グラフの実体と関係を低次元の意味空間に表現することを目的として、リンク予測、知識推論、知識完成などの幅広い応用のために、ますます普及しつつある技術である。
本稿では,表現空間に基づく既存のKGE手法の体系的なレビューを行う。
特に,(1)代数的視点,(2)幾何学的視点,(3)解析的視点という3つの数学的視点に基づいて,モデルを分類するための細粒度分類を構築する。
我々は、KGEモデルとその数学的性質に飛び込む前に、基本数学的空間の厳密な定義を導入する。
さらに3つのカテゴリにまたがる異なるKGE手法について議論し、異なる埋め込みニーズに対して空間的優位性がどのように機能するかを要約する。
下流タスクによる実験結果を照合することにより、異なるシナリオにおける数学的空間の利点とそれらの背後にある理由についても検討する。
さらに,表現空間の観点から有望な研究の方向性を述べるとともに,kgeモデルの設計を研究者に促し,数学的な空間特性を考慮し,関連する応用を奨励したい。 Knowledge graph embedding (KGE) is an increasingly popular technique that aims to represent entities and relations of knowledge graphs into low-dimensional semantic spaces for a wide spectrum of applications such as link prediction, knowledge reasoning and knowledge completion. In this paper, we provide a systematic review of existing KGE techniques based on representation spaces. Particularly, we build a fine-grained classification to categorise the models based on three mathematical perspectives of the representation spaces: (1) Algebraic perspective, (2) Geometric perspective, and (3) Analytical perspective. We introduce the rigorous definitions of fundamental mathematical spaces before diving into KGE models and their mathematical properties. We further discuss different KGE methods over the three categories, as well as summarise how spatial advantages work over different embedding needs. By collating the experimental results from downstream tasks, we also explore the advantages of mathematical space in different scenarios and the reasons behind them. We further state some promising research directions from a representation space perspective, with which we hope to inspire researchers to design their KGE models as well as their related applications with more consideration of their mathematical space properties. | 翻訳日:2023-10-17 23:37:51 公開日:2023-10-15 |
# 5q032e@smm4h'22:covid-19関連ツイートにおけるトランスフォーマーに基づく前提分類 5q032e@SMM4H'22: Transformer-based classification of premise in tweets related to COVID-19 ( http://arxiv.org/abs/2209.03851v2 ) ライセンス: Link先を確認 | Vadim Porvatov, Natalia Semenova | (参考訳) ソーシャルネットワークのデータアセスメントの自動化は、自然言語処理の古典的な課題の1つだ。
新型コロナウイルス(covid-19)のパンデミックの間、公衆メッセージからの人々の態度のマイニングは、健康秩序に対する態度を理解する上で重要になっている。
本稿では,twitterテキストにおける前提の存在を分類するために,トランスフォーマーアーキテクチャに基づく予測モデルを提案する。
この研究は2022年のSMM4H(Social Media Mining for Health)ワークショップで完了した。
ツイートのセマンティクスを効率的にキャプチャするパイプラインを構築するために,現代的なトランスフォーマティブベースの分類器を検討した。
Twitterデータセットを用いた実験の結果,RoBERTaは前提予測タスクの場合,他のトランスフォーマーモデルよりも優れていることがわかった。
このモデルはROC AUC値0.807とF1スコア0.7648の競争性能を達成した。 Automation of social network data assessment is one of the classic challenges of natural language processing. During the COVID-19 pandemic, mining people's stances from public messages have become crucial regarding understanding attitudes towards health orders. In this paper, the authors propose the predictive model based on transformer architecture to classify the presence of premise in Twitter texts. This work is completed as part of the Social Media Mining for Health (SMM4H) Workshop 2022. We explored modern transformer-based classifiers in order to construct the pipeline efficiently capturing tweets semantics. Our experiments on a Twitter dataset showed that RoBERTa is superior to the other transformer models in the case of the premise prediction task. The model achieved competitive performance with respect to ROC AUC value 0.807, and 0.7648 for the F1 score. | 翻訳日:2023-10-17 23:37:16 公開日:2023-10-15 |
# グラフニューラルネットワークを用いたスパース報酬の処理 Dealing with Sparse Rewards Using Graph Neural Networks ( http://arxiv.org/abs/2203.13424v2 ) ライセンス: Link先を確認 | Matvey Gerasyov, Ilya Makarov | (参考訳) 部分的に観察可能な環境での深層強化学習は、それ自体は難しい作業であり、スパース報酬信号によってさらに複雑になる可能性がある。
三次元環境におけるナビゲーションに関わるほとんどのタスクは、エージェントに極めて限られた情報を提供する。
通常、エージェントは環境から視覚的観察入力を受け取り、エピソードの終わりに一度報酬が与えられる。
優れた報酬関数は、そのようなタスクに対する強化学習アルゴリズムの収束を大幅に改善することができる。
報酬信号の密度を高める古典的なアプローチは、それを補足的な報酬で増やすことである。
この技法は報酬形成と呼ばれる。
本研究では,グラフ畳み込みネットワークに基づく報酬生成手法の2つの改良点を提案する。
我々は,3次元環境におけるナビゲーション作業におけるソリューションの有効性を,少ない報酬で実証的に検証した。
また,注意機構を特徴とする解については,学習した注意が3次元環境における重要な遷移に対応するエッジに集中していることを示すことができる。 Deep reinforcement learning in partially observable environments is a difficult task in itself, and can be further complicated by a sparse reward signal. Most tasks involving navigation in three-dimensional environments provide the agent with extremely limited information. Typically, the agent receives a visual observation input from the environment and is rewarded once at the end of the episode. A good reward function could substantially improve the convergence of reinforcement learning algorithms for such tasks. The classic approach to increase the density of the reward signal is to augment it with supplementary rewards. This technique is called the reward shaping. In this study, we propose two modifications of one of the recent reward shaping methods based on graph convolutional networks: the first involving advanced aggregation functions, and the second utilizing the attention mechanism. We empirically validate the effectiveness of our solutions for the task of navigation in a 3D environment with sparse rewards. For the solution featuring attention mechanism, we are also able to show that the learned attention is concentrated on edges corresponding to important transitions in 3D environment. | 翻訳日:2023-10-17 23:36:26 公開日:2023-10-15 |
# HaSa: ハードネスと構造を意識したコントラスト知識グラフの埋め込み HaSa: Hardness and Structure-Aware Contrastive Knowledge Graph Embedding ( http://arxiv.org/abs/2305.10563v2 ) ライセンス: Link先を確認 | Honggen Zhang, June Zhang, Igor Molybog | (参考訳) 本稿では,知識グラフ埋め込み (KGE) に対する InfoNCE による対照的な学習手法を検討する。
KGEにとって、効率的な学習は、負のトリプルでトレーニングデータを増強することに依存する。
しかしながら、ほとんどのKGEの作業は、負の三重項-負の三重項(知識グラフから欠落した実三重項)の生成からバイアスを見落としている。
我々は、高品質な(ハードな)負の三重項の生成は、偽負三重項の増加につながるかもしれないと主張する。
硬負三重項の生成における偽負三重項の影響を軽減するため、硬負三重項を生成する際に偽負三重項の効果を緩和する硬さと構造認識(\textbf{hasa})の対比kge法を提案する。
実験により、HaSaはInfoNCEベースのKGEアプローチの性能を改善し、WN18RRデータセットのいくつかの測定結果とFB15k-237データセットの競合結果を達成する。 We consider a contrastive learning approach to knowledge graph embedding (KGE) via InfoNCE. For KGE, efficient learning relies on augmenting the training data with negative triples. However, most KGE works overlook the bias from generating the negative triples-false negative triples (factual triples missing from the knowledge graph). We argue that the generation of high-quality (i.e., hard) negative triples might lead to an increase in false negative triples. To mitigate the impact of false negative triples during the generation of hard negative triples, we propose the Hardness and Structure-aware (\textbf{HaSa}) contrastive KGE method, which alleviates the effect of false negative triples while generating the hard negative triples. Experiments show that HaSa improves the performance of InfoNCE-based KGE approaches and achieves state-of-the-art results in several metrics for WN18RR datasets and competitive results for FB15k-237 datasets compared to both classic and pre-trained LM-based KGE methods. | 翻訳日:2023-10-17 23:28:10 公開日:2023-10-15 |
# エネルギー系スライスワッサースタイン距離 Energy-Based Sliced Wasserstein Distance ( http://arxiv.org/abs/2304.13586v2 ) ライセンス: Link先を確認 | Khai Nguyen and Nhat Ho | (参考訳) スライスドワッサースタイン距離(sliced wasserstein distance)は、2つの確率測度の間の統計的に効率的かつ計算効率の良い計量として広く認識されている。
SW距離の重要な成分はスライシング分布である。
この分布を選択するには2つのアプローチがある。
第一のアプローチは固定された事前分布を使うことである。
第二のアプローチは、パラメトリック分布の族に属する最良の分布を最適化し、期待される距離を最大化することである。
しかし、どちらのアプローチにも限界がある。
固定された事前分布は、2つの一般的な確率測度を判別できる射影方向を強調する点で非形式的である。
最適なディストリビューションのための最適化は、しばしば高価で不安定です。
さらに、候補分布のパラメトリック族を設計することは容易に誤特定できる。
この問題に対処するために,スライシング分布をパラメータフリーで,投影された一次元ワッサースタイン距離のエネルギー関数に比例する密度分布として設計する。
次に,新しいスライス・ワッサースタイン距離,エネルギーベーススライス・ワッサースタイン(ebsw)距離を導出し,その位相的,統計的,計算的性質について,重要サンプリング,サンプリング重要度分析,マルコフ連鎖法を用いて検討した。
最後に,ebswの性能を示すために,ポイントクラウド勾配流,カラートランスフォーメーション,ポイントクラウド再構成の実験を行った。 The sliced Wasserstein (SW) distance has been widely recognized as a statistically effective and computationally efficient metric between two probability measures. A key component of the SW distance is the slicing distribution. There are two existing approaches for choosing this distribution. The first approach is using a fixed prior distribution. The second approach is optimizing for the best distribution which belongs to a parametric family of distributions and can maximize the expected distance. However, both approaches have their limitations. A fixed prior distribution is non-informative in terms of highlighting projecting directions that can discriminate two general probability measures. Doing optimization for the best distribution is often expensive and unstable. Moreover, designing the parametric family of the candidate distribution could be easily misspecified. To address the issues, we propose to design the slicing distribution as an energy-based distribution that is parameter-free and has the density proportional to an energy function of the projected one-dimensional Wasserstein distance. We then derive a novel sliced Wasserstein metric, energy-based sliced Waserstein (EBSW) distance, and investigate its topological, statistical, and computational properties via importance sampling, sampling importance resampling, and Markov Chain methods. Finally, we conduct experiments on point-cloud gradient flow, color transfer, and point-cloud reconstruction to show the favorable performance of the EBSW. | 翻訳日:2023-10-17 23:27:31 公開日:2023-10-15 |
# ポリタプレット損失を考慮した理解・論理推論タスクの深層マニフォールド学習 Deep Manifold Learning for Reading Comprehension and Logical Reasoning Tasks with Polytuplet Loss ( http://arxiv.org/abs/2304.01046v3 ) ライセンス: Link先を確認 | Jeffrey Lu, Ivan Rodriguez | (参考訳) 理解と論理的推論タスクを読む機械学習モデルの開発における現在のトレンドは、論理的ルールを理解し活用するモデルの能力を改善することに焦点を当てている。
本研究は、人間が理解や論理的推論タスクを与えられたときに使用する共通の戦略を表現することにより、他のモデルよりも解釈可能なコンポーネントを持つ、新しい損失関数と付随するモデルアーキテクチャを提供することに焦点を当てている。
我々の戦略は、絶対的精度よりも相対的精度を強調し、理論的には不完全な知識で正しい答えを生成できる。
本稿では,この戦略の有効性を考察し,読解の理解と論理的推論の問題を解き明かす。
モデルは、難読性理解と論理的推論ベンチマークであるreclorデータセットで評価された。
本稿では,各選択の真の精度を学習するよりも,回答選択の相対的正しさを優先的に学習するポリタップレット損失関数を提案する。
以上の結果から,ポリtuplet損失モデルが既存のベースラインモデルよりも優れていることが示唆されたが,その効果を定量化するためにはさらなる研究が必要である。 The current trend in developing machine learning models for reading comprehension and logical reasoning tasks is focused on improving the models' abilities to understand and utilize logical rules. This work focuses on providing a novel loss function and accompanying model architecture that has more interpretable components than some other models by representing a common strategy employed by humans when given reading comprehension and logical reasoning tasks. Our strategy involves emphasizing relative accuracy over absolute accuracy and can theoretically produce the correct answer with incomplete knowledge. We examine the effectiveness of this strategy to solve reading comprehension and logical reasoning questions. The models were evaluated on the ReClor dataset, a challenging reading comprehension and logical reasoning benchmark. We propose the polytuplet loss function, which forces prioritization of learning the relative correctness of answer choices over learning the true accuracy of each choice. Our results indicate that models employing polytuplet loss outperform existing baseline models, though further research is required to quantify the benefits it may present. | 翻訳日:2023-10-17 23:26:34 公開日:2023-10-15 |
# マルチモーダル誘導映像におけるモーメントの局所化 Localizing Moments in Long Video Via Multimodal Guidance ( http://arxiv.org/abs/2302.13372v2 ) ライセンス: Link先を確認 | Wayner Barrios, Mattia Soldan, Alberto Mario Ceballos-Arroyo, Fabian Caba Heilbron and Bernard Ghanem | (参考訳) 最近の大規模で長期のMADとEgo4Dデータセットの導入により、研究者は、長期のセットアップにおける現在の最先端のビデオグラウンドのパフォーマンスを調査できるようになった。
本稿では,非記述可能なウィンドウを識別し,取り出すことによって,長いビデオにおける自然言語グラウンドリングの性能を向上させる手法を提案する。
我々は,誘導モデルと基底接地モデルからなる誘導接地フレームワークを設計した。
Guidance Modelは記述可能なウィンドウを強調し、ベースグラウンドモデルは短い時間ウィンドウを分析し、どのセグメントが与えられた言語クエリと正確に一致するかを判断する。
私たちは、効率と精度のバランスをとる、Query-AgnosticとQuery-Dependentの2つのデザインを提供します。
提案手法は,MADでは4.1%,Ego4D(NLQ)では4.52%,最先端モデルでは2。
実験を再現するために必要なコード、データ、MADのオーディオ機能は、https://github.com/waybarrios/guidance-based-video-grounding.comにある。 The recent introduction of the large-scale, long-form MAD and Ego4D datasets has enabled researchers to investigate the performance of current state-of-the-art methods for video grounding in the long-form setup, with interesting findings: current grounding methods alone fail at tackling this challenging task and setup due to their inability to process long video sequences. In this paper, we propose a method for improving the performance of natural language grounding in long videos by identifying and pruning out non-describable windows. We design a guided grounding framework consisting of a Guidance Model and a base grounding model. The Guidance Model emphasizes describable windows, while the base grounding model analyzes short temporal windows to determine which segments accurately match a given language query. We offer two designs for the Guidance Model: Query-Agnostic and Query-Dependent, which balance efficiency and accuracy. Experiments demonstrate that our proposed method outperforms state-of-the-art models by 4.1% in MAD and 4.52% in Ego4D (NLQ), respectively. Code, data and MAD's audio features necessary to reproduce our experiments are available at: https://github.com/waybarrios/guidance-based-video-grounding. | 翻訳日:2023-10-17 23:25:44 公開日:2023-10-15 |
# BAND: バイオメディカルアラートニュースデータセット BAND: Biomedical Alert News Dataset ( http://arxiv.org/abs/2305.14480v2 ) ライセンス: Link先を確認 | Zihao Fu, Meiru Zhang, Zaiqiao Meng, Yannan Shen, David Buckeridge, Nigel Collier | (参考訳) 感染症の流行は、人間の健康と健康に重大な脅威を与え続けている。
病気の監視と病気の拡散の理解を改善するため、日々のニュースやソーシャルメディアを監視するためにいくつかの監視システムが開発されている。
しかし、既存のシステムでは、適切なアラートやニュースに関する詳細な疫学的分析が欠如している。
このギャップに対処するために、既存の報告されたニュース記事、オープンメール、アラート、30の疫学関連の質問から1,508のサンプルを含むバイオメディカルアラートニュースデータセット(band)を紹介します。
これらの質問はモデルの専門的な推論能力を必要とし、病気の発生に関する貴重な洞察を提供する。
BANDデータセットは、NLPの世界に新たな課題をもたらし、コンテンツの偽装能力と重要な情報を推論する能力を必要としている。
我々は、これらのタスクを疫学領域でどのように扱うことができるかを示すために、名前付きエンティティ認識(NER)、質問回答(QA)、イベント抽出(EE)などのベンチマークタスクを提供している。
われわれの知る限りでは、BANDコーパスはバイオメディカル・アウトブレイク警報の報せで、精巧にデザインされた質問があり、疫学者やNLP研究者にとっても貴重な情報源だ。 Infectious disease outbreaks continue to pose a significant threat to human health and well-being. To improve disease surveillance and understanding of disease spread, several surveillance systems have been developed to monitor daily news alerts and social media. However, existing systems lack thorough epidemiological analysis in relation to corresponding alerts or news, largely due to the scarcity of well-annotated reports data. To address this gap, we introduce the Biomedical Alert News Dataset (BAND), which includes 1,508 samples from existing reported news articles, open emails, and alerts, as well as 30 epidemiology-related questions. These questions necessitate the model's expert reasoning abilities, thereby offering valuable insights into the outbreak of the disease. The BAND dataset brings new challenges to the NLP world, requiring better disguise capability of the content and the ability to infer important information. We provide several benchmark tasks, including Named Entity Recognition (NER), Question Answering (QA), and Event Extraction (EE), to show how existing models are capable of handling these tasks in the epidemiology domain. To the best of our knowledge, the BAND corpus is the largest corpus of well-annotated biomedical outbreak alert news with elaborately designed questions, making it a valuable resource for epidemiologists and NLP researchers alike. | 翻訳日:2023-10-17 23:19:41 公開日:2023-10-15 |
# cue-cot: llmsによる詳細な対話質問への回答のための思考の連鎖 Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue Questions with LLMs ( http://arxiv.org/abs/2305.11792v2 ) ライセンス: Link先を確認 | Hongru Wang, Rui Wang, Fei Mi, Yang Deng, Zezhong Wang, Bin Liang, Ruifeng Xu, Kam-Fai Wong | (参考訳) より大きな言語モデル(LLM)、例えば \texttt{ChatGPT} は、強力な言語理解と生成能力を持つ対話システムを大幅に強化する。
しかし、以前の作品の多くは、llmが会話コンテキストに基づいて直接応答を生成し、コンテキストに表示されたユーザステータスに関する言語的ヒントを見渡すよう促している。
このような奥行きの対話シナリオは、既存のLLMがユーザの隠れたニーズを把握し、単一ステップの推論によって満足して応答することが困難である。
そこで本研究では,LLMの推論を中間的推論ステップで強化し,対話で提示された手がかりを検索し,よりパーソナライズされ,魅力的な応答を提供することを目的とした,新たな言語的キューベースの連鎖(\textit{Cue}-CoT)を提案する。
提案手法を評価するために,中国語と英語の両方で6つのデータセットからなり,会話中の3つの主要な言語的手がかりである「textit{personality}」,「textit{emotion}」,「textit{psychology}」の3つを対象とする詳細な対話質問を用いたベンチマークを構築した。
ゼロショット設定とワンショット設定の両方で, 5 LLM を用いて提案したベンチマーク実験を行った。
実験結果から,提案手法は,すべてのデータセットにおいて,標準プロンプトメソッドよりも, \textit{helpfulness} と \textit{acceptability} の両方の点で優れることが示された。 Large Language Models (LLMs), such as \texttt{ChatGPT}, greatly empower dialogue systems with strong language understanding and generation capabilities. However, most of the previous works prompt the LLMs to directly generate a response based on the dialogue context, overlooking the underlying linguistic cues about the user status exhibited in the context. Such in-depth dialogue scenarios are challenging for existing LLMs to figure out the user's hidden needs and respond satisfactorily through a single-step inference. To this end, we propose a novel linguistic cue-based chain-of-thoughts (\textit{Cue}-CoT), which enhances the LLMs inference with an intermediate reasoning step to find cues exhibited in the dialogue, aiming to provide a more personalized and engaging response. To evaluate the approach, we build a benchmark with in-depth dialogue questions, consisting of 6 datasets in both Chinese and English, targeting 3 major linguistic cues during the conversation: \textit{personality}, \textit{emotion}, and \textit{psychology}. We conduct extensive experiments on the proposed benchmark with 5 LLMs under both zero-shot and one-shot settings. Empirical results demonstrate our proposed \textit{Cue}-CoT method outperforms standard prompting methods in terms of both \textit{helpfulness} and \textit{acceptability} on all datasets. | 翻訳日:2023-10-17 23:16:50 公開日:2023-10-15 |
# DIFFender: 拡散に基づくパッチ攻撃に対する敵防衛 DIFFender: Diffusion-Based Adversarial Defense against Patch Attacks ( http://arxiv.org/abs/2306.09124v2 ) ライセンス: Link先を確認 | Caixin Kang, Yinpeng Dong, Zhengyi Wang, Shouwei Ruan, Yubo Chen, Hang Su, Xingxing Wei | (参考訳) 敵対的攻撃、特にパッチ攻撃は、ディープラーニングモデルの堅牢性と信頼性に大きな脅威をもたらす。
パッチ攻撃に対する信頼できる防御を開発することは現実世界のアプリケーションにとって不可欠であるが、この分野における現在の研究は満足できない。
本稿では,テキスト誘導拡散モデルを用いた新たな防御手法であるdiffenderを提案する。
DIFFenderには、パッチローカライゼーションとパッチ復元の2つの主要なステージが含まれている。
局在化段階において,拡散モデルの興味をそそる性質を見出し,活用し,敵パッチの位置を効果的に同定する。
回復段階では,画像の対向領域を再構成するために拡散モデルを用い,視覚的内容の完全性を維持した。
重要なことに、これら2つのステージは統一拡散モデルによって慎重に誘導されるため、それら間の密接な相互作用を利用して防御性能全体を改善できる。
さらに, 拡散モデルを微調整し, 事前学習した拡散モデルが防御タスクに容易に適応できるように, 数ショットプロンプトチューニングアルゴリズムを提案する。
画像分類と顔認識タスクに関する広範な実験を行い,提案手法が強い適応攻撃下で優れたロバスト性を示し,様々なシナリオ,多様な分類器,複数のパッチ攻撃法にまたがる汎用性を示すことを実証した。 Adversarial attacks, particularly patch attacks, pose significant threats to the robustness and reliability of deep learning models. Developing reliable defenses against patch attacks is crucial for real-world applications, yet current research in this area is not satisfactory. In this paper, we propose DIFFender, a novel defense method that leverages a text-guided diffusion model to defend against adversarial patches. DIFFender includes two main stages: patch localization and patch restoration. In the localization stage, we find and exploit an intriguing property of the diffusion model to effectively identify the locations of adversarial patches. In the restoration stage, we employ the diffusion model to reconstruct the adversarial regions in the images while preserving the integrity of the visual content. Importantly, these two stages are carefully guided by a unified diffusion model, thus we can utilize the close interaction between them to improve the whole defense performance. Moreover, we propose a few-shot prompt-tuning algorithm to fine-tune the diffusion model, enabling the pre-trained diffusion model to easily adapt to the defense task. We conduct extensive experiments on the image classification and face recognition tasks, demonstrating that our proposed method exhibits superior robustness under strong adaptive attacks and generalizes well across various scenarios, diverse classifiers, and multiple patch attack methods. | 翻訳日:2023-10-17 23:07:30 公開日:2023-10-15 |
# MT-Benchとチャットボットアリーナを用いたLCM-as-a-Judgeの判定 Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena ( http://arxiv.org/abs/2306.05685v3 ) ライセンス: Link先を確認 | Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric. P Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica | (参考訳) 大規模言語モデル(llm)ベースのチャットアシスタントの評価は、その幅広い能力と既存のベンチマークが人間の好みを計測できないために難しい。
これに対処するため、我々は、よりオープンな質問でこれらのモデルを評価するために、裁判官として強力なllmを使用します。
本研究では, LLM-as-a-judgeの使用と限界について検討し, 位置, 冗長性, 自己啓発バイアス, 推論能力の制限などを検討した。
次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるChatbot Arenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
GPT-4のような強力なLCM判事は、コントロールとクラウドソースの両方の人間の嗜好によく適合し、80%以上の合意を達成できる。
したがって、llm-as-a-judgeは、人間の好みを近似するためのスケーラブルで説明可能な方法である。
さらに,我々のベンチマークと従来のベンチマークは,llama と vicuna のいくつかの変種を評価し,相互補完関係にあることを示す。
MT-benchの質問、3Kのエキスパート投票、および人間の好みに関する30Kの会話はhttps://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judgeで公開されている。 Evaluating large language model (LLM) based chat assistants is challenging due to their broad capabilities and the inadequacy of existing benchmarks in measuring human preferences. To address this, we explore using strong LLMs as judges to evaluate these models on more open-ended questions. We examine the usage and limitations of LLM-as-a-judge, including position, verbosity, and self-enhancement biases, as well as limited reasoning ability, and propose solutions to mitigate some of them. We then verify the agreement between LLM judges and human preferences by introducing two benchmarks: MT-bench, a multi-turn question set; and Chatbot Arena, a crowdsourced battle platform. Our results reveal that strong LLM judges like GPT-4 can match both controlled and crowdsourced human preferences well, achieving over 80% agreement, the same level of agreement between humans. Hence, LLM-as-a-judge is a scalable and explainable way to approximate human preferences, which are otherwise very expensive to obtain. Additionally, we show our benchmark and traditional benchmarks complement each other by evaluating several variants of LLaMA and Vicuna. The MT-bench questions, 3K expert votes, and 30K conversations with human preferences are publicly available at https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge. | 翻訳日:2023-10-17 23:06:47 公開日:2023-10-15 |
# SynJax: JAX の構造化確率分布 SynJax: Structured Probability Distributions for JAX ( http://arxiv.org/abs/2308.03291v3 ) ライセンス: Link先を確認 | Milo\v{s} Stanojevi\'c and Laurent Sartran | (参考訳) ディープラーニングソフトウェアライブラリの開発は、ユーザがモデリングに集中できると同時に、現代的なハードウェアアクセラレータの実行を最適化する退屈で時間のかかるタスクをライブラリに任せることで、この分野の大きな進歩をもたらした。
しかし、これは、プリミティブがベクトル化された計算に容易にマッピングするトランスフォーマーのような、特定のタイプのディープラーニングモデルにのみ恩恵がある。
木やセグメンテーションなどの構造化オブジェクトを明示的に説明するモデルは、ベクトル化形式で実装が難しいカスタムアルゴリズムを必要とするため、等しく利益を得られなかった。
SynJaxは、アライメント、タグ付け、セグメンテーション、選挙区木、スパンニングツリーを含む構造化分布のための効率的なベクトル化推論アルゴリズムを提供することで、この問題に対処する。
これはアルゴリズム間の関係を利用して自動微分と確率的推論を行う。
SynJaxを使えば、データ構造を明示的にモデル化する大規模な微分可能なモデルを構築することができます。
コードはhttps://github.com/google-deepmind/synjaxで入手できる。 The development of deep learning software libraries enabled significant progress in the field by allowing users to focus on modeling, while letting the library to take care of the tedious and time-consuming task of optimizing execution for modern hardware accelerators. However, this has benefited only particular types of deep learning models, such as Transformers, whose primitives map easily to the vectorized computation. The models that explicitly account for structured objects, such as trees and segmentations, did not benefit equally because they require custom algorithms that are difficult to implement in a vectorized form. SynJax directly addresses this problem by providing an efficient vectorized implementation of inference algorithms for structured distributions covering alignment, tagging, segmentation, constituency trees and spanning trees. This is done by exploiting the connection between algorithms for automatic differentiation and probabilistic inference. With SynJax we can build large-scale differentiable models that explicitly model structure in the data. The code is available at https://github.com/google-deepmind/synjax | 翻訳日:2023-10-17 22:57:15 公開日:2023-10-15 |
# QAmplifyNet: 解釈可能なハイブリッド量子古典ニューラルネットワークを用いたサプライチェーンの後方予測境界のプッシュ QAmplifyNet: Pushing the Boundaries of Supply Chain Backorder Prediction Using Interpretable Hybrid Quantum-Classical Neural Network ( http://arxiv.org/abs/2307.12906v2 ) ライセンス: Link先を確認 | Md Abrar Jahin, Md Sakib Hossain Shovon, Md. Saiful Islam, Jungpil Shin, M. F. Mridha, Yuichi Okuyama | (参考訳) サプライチェーン管理は、在庫管理の最適化、コスト削減、顧客満足度向上のための正確な後方予測に依存している。
しかし、従来の機械学習モデルは大規模なデータセットや複雑な関係に悩まされており、実際のデータ収集を妨げる。
本研究は,サプライチェーンの後方予測のための新しい方法論的枠組みを導入し,大規模データセットを扱う上での課題に対処する。
提案するモデルであるqamplifynetは、量子古典ニューラルネットワーク内で量子インスパイアされた技術を用いて、短大で不均衡なデータセット上でバックオーダーを効果的に予測する。
ベンチマークデータセットでの実験的評価は、QAmplifyNetが古典モデル、量子アンサンブル、量子ニューラルネットワーク、深層強化学習よりも優れていることを示している。
短く不均衡なデータセットを扱う能力は、サプライチェーン管理の理想的なソリューションとなります。
モデル解釈性を高めるために、説明可能な人工知能技術を用いる。
実際の意味としては、在庫管理の改善、発注の削減、運用効率の向上などがある。
QAmplifyNetは実世界のサプライチェーン管理システムにシームレスに統合され、積極的な意思決定と効率的なリソース割り当てを可能にします。
今後の研究には、追加の量子にインスパイアされた技術、データセットの拡張、および他のサプライチェーンアプリケーションの調査が含まれる。
この研究は、サプライチェーン最適化における量子コンピューティングの可能性を解き放ち、サプライチェーン管理における量子インスパイアされた機械学習モデルのさらなる探究の道を開く。
我々のフレームワークとQAmplifyNetモデルはサプライチェーンの後方予測に画期的なアプローチを提供し、優れた性能を提供し、サプライチェーン管理に量子インスパイアされた技術を活用するための新たな道を開く。 Supply chain management relies on accurate backorder prediction for optimizing inventory control, reducing costs, and enhancing customer satisfaction. However, traditional machine-learning models struggle with large-scale datasets and complex relationships, hindering real-world data collection. This research introduces a novel methodological framework for supply chain backorder prediction, addressing the challenge of handling large datasets. Our proposed model, QAmplifyNet, employs quantum-inspired techniques within a quantum-classical neural network to predict backorders effectively on short and imbalanced datasets. Experimental evaluations on a benchmark dataset demonstrate QAmplifyNet's superiority over classical models, quantum ensembles, quantum neural networks, and deep reinforcement learning. Its proficiency in handling short, imbalanced datasets makes it an ideal solution for supply chain management. To enhance model interpretability, we use Explainable Artificial Intelligence techniques. Practical implications include improved inventory control, reduced backorders, and enhanced operational efficiency. QAmplifyNet seamlessly integrates into real-world supply chain management systems, enabling proactive decision-making and efficient resource allocation. Future work involves exploring additional quantum-inspired techniques, expanding the dataset, and investigating other supply chain applications. This research unlocks the potential of quantum computing in supply chain optimization and paves the way for further exploration of quantum-inspired machine learning models in supply chain management. Our framework and QAmplifyNet model offer a breakthrough approach to supply chain backorder prediction, providing superior performance and opening new avenues for leveraging quantum-inspired techniques in supply chain management. | 翻訳日:2023-10-17 22:55:40 公開日:2023-10-15 |
# 大規模言語モデルによるクリックベイト検出 Clickbait Detection via Large Language Models ( http://arxiv.org/abs/2306.09597v2 ) ライセンス: Link先を確認 | Han Wang, Yi Zhu, Ye Wang, Yun Li, Yunhao Yuan, Jipeng Qiang | (参考訳) clickbaitは、ニュースポータルやソーシャルメディアなど、ほぼすべてのオンラインコンテンツパブリッシャーに浸透している。
近年,Large Language Models (LLMs) が強力な道具として登場し,NLP下流タスクにおいて大きな成功を収めている。
しかし,LLMが高品質なクリックベイト検出システムとして機能するかどうかは不明である。
本稿では,英語と中国語のベンチマークデータセットを用いて,数ショットシナリオにおけるLLMの性能を解析する。
実験結果から, LLM は最先端の深部・微調整 PLM 法に比べ, 最高の結果が得られないことがわかった。
人間の直観と異なり、実験では、llmは見出しだけではクリックベイトの検出を満足できないことを示した。 Clickbait, which aims to induce users with some surprising and even thrilling headlines for increasing click-through rates, permeates almost all online content publishers, such as news portals and social media. Recently, Large Language Models (LLMs) have emerged as a powerful instrument and achieved tremendous success in a serious of NLP downstream tasks. However, it is not yet known whether LLMs can be served as a high-quality clickbait detection system. In this paper, we analyze the performance of LLMs in the few-shot scenarios on a number of English and Chinese benchmark datasets. Experimental results show that LLMs cannot achieve the best results compared to the state-of-the-art deep and fine-tuning PLMs methods. Different from the human intuition, the experiments demonstrated that LLMs cannot make satisfied clickbait detection just by the headlines. | 翻訳日:2023-10-17 22:55:12 公開日:2023-10-15 |
# 確率的再接続型メッセージパッシングニューラルネットワーク Probabilistically Rewired Message-Passing Neural Networks ( http://arxiv.org/abs/2310.02156v3 ) ライセンス: Link先を確認 | Chendi Qian, Andrei Manolache, Kareem Ahmed, Zhe Zeng, Guy Van den Broeck, Mathias Niepert, Christopher Morris | (参考訳) メッセージパッシンググラフニューラルネットワーク(MPNN)は、グラフ構造化入力を処理する強力なツールとして登場した。
しかし、それらは固定された入力グラフ構造で動作し、潜在的なノイズや情報不足を無視している。
さらに、それらの局所的な集約機構は、関連するグラフ構造を捕捉する際の過剰散乱や限定表現力などの問題を引き起こす可能性がある。
これらの課題に対する既存の解決策は主にヒューリスティックな手法に依存しており、基礎となるデータ分布を無視していることが多い。
したがって、与えられた予測タスクに関連するグラフ構造を推論する学習の原則的なアプローチを考案することは、未解決の課題である。
本研究では, 精度が高く, かつ異なる$k$-subsetサンプリングの最近の進歩を活用して, 確率論的に再構成されたMPNN(PR-MPNN)を考案する。
我々は,PR-MPNNが表現力を高める方法について初めて理論的解析を行い,それらが純粋にランダム化されたアプローチより優れている条件を同定した。
実証的に、我々のアプローチは、過剰な監視やアンダーリーチングといった問題を効果的に軽減します。
さらに,従来のMPNNモデルや最近のグラフトランスフォーマーアーキテクチャと比較して,既存の実世界のデータセットに対して,競合的あるいは優れた予測性能を示す。 Message-passing graph neural networks (MPNNs) emerged as powerful tools for processing graph-structured input. However, they operate on a fixed input graph structure, ignoring potential noise and missing information. Furthermore, their local aggregation mechanism can lead to problems such as over-squashing and limited expressive power in capturing relevant graph structures. Existing solutions to these challenges have primarily relied on heuristic methods, often disregarding the underlying data distribution. Hence, devising principled approaches for learning to infer graph structures relevant to the given prediction task remains an open challenge. In this work, leveraging recent progress in exact and differentiable $k$-subset sampling, we devise probabilistically rewired MPNNs (PR-MPNNs), which learn to add relevant edges while omitting less beneficial ones. For the first time, our theoretical analysis explores how PR-MPNNs enhance expressive power, and we identify precise conditions under which they outperform purely randomized approaches. Empirically, we demonstrate that our approach effectively mitigates issues like over-squashing and under-reaching. In addition, on established real-world datasets, our method exhibits competitive or superior predictive performance compared to traditional MPNN models and recent graph transformer architectures. | 翻訳日:2023-10-17 22:46:27 公開日:2023-10-15 |
# 多数のクラスに対する一般化された神経崩壊 Generalized Neural Collapse for a Large Number of Classes ( http://arxiv.org/abs/2310.05351v2 ) ライセンス: Link先を確認 | Jiachen Jiang, Jinxin Zhou, Peng Wang, Qing Qu, Dustin Mixon, Chong You and Zhihui Zhu | (参考訳) 神経崩壊は、深層分類モデルにおける学習された最終層表現(つまり特徴)と分類器重みのエレガントな数学的特徴を与える。
このような結果は洞察を与えるだけでなく、実用的な深層モデルを改善するための新しいテクニックを動機付ける。
しかしながら、ニューラル崩壊における既存の経験的および理論的研究のほとんどは、クラス数が特徴空間の次元に対して小さい場合に焦点を当てている。
本稿では, 言語モデル, 検索システム, 顔認識アプリケーションにおいて広く発生する特徴空間の次元よりも, クラス数がはるかに大きい場合まで, 神経崩壊を拡大する。
この特徴と分類器は, 1-vs-restマージンの最小値が最大となる一般化神経崩壊現象を示し, 実用深層ニューラルネットワークにおける一般化神経崩壊の発生を実証するための実証的研究を行った。
さらに, 一般化された神経崩壊は, 球面制約のある非拘束特徴モデルの下で, 特徴量やクラス数に関する特定の技術的条件下で, 確実に発生することを示す理論的研究を行った。 Neural collapse provides an elegant mathematical characterization of learned last layer representations (a.k.a. features) and classifier weights in deep classification models. Such results not only provide insights but also motivate new techniques for improving practical deep models. However, most of the existing empirical and theoretical studies in neural collapse focus on the case that the number of classes is small relative to the dimension of the feature space. This paper extends neural collapse to cases where the number of classes are much larger than the dimension of feature space, which broadly occur for language models, retrieval systems, and face recognition applications. We show that the features and classifier exhibit a generalized neural collapse phenomenon, where the minimum one-vs-rest margins is maximized.We provide empirical study to verify the occurrence of generalized neural collapse in practical deep neural networks. Moreover, we provide theoretical study to show that the generalized neural collapse provably occurs under unconstrained feature model with spherical constraint, under certain technical conditions on feature dimension and number of classes. | 翻訳日:2023-10-17 22:34:47 公開日:2023-10-15 |
# 対話型検索の強化:大言語モデルを用いたインフォーマティブクエリ書き換え Enhancing Conversational Search: Large Language Model-Aided Informative Query Rewriting ( http://arxiv.org/abs/2310.09716v1 ) ライセンス: Link先を確認 | Fanghua Ye, Meng Fang, Shenghui Li, Emine Yilmaz | (参考訳) クエリ書き換えは、コンテキスト依存のユーザクエリをスタンドアロンのフォームに変換することで、会話検索を強化する上で重要な役割を果たす。
既存のアプローチは主に、人間が書き直したクエリをラベルとして利用して、クエリ書き換えモデルをトレーニングしている。
しかし、人間の書き直しは最適な検索性能のための十分な情報に欠ける可能性がある。
この制限を克服するため、我々は、大きな言語モデル(LLM)をクエリ書き換え子として利用し、よく設計された命令による情報的クエリ書き換えを可能にする。
精巧な書き直しのための4つの重要な特性を定義し、それら全てを命令に組み込む。
さらに、初期クエリ書き換えが可能な場合、LLMの書き換えエディタの役割を導入し、 `rewrite-then-edit' プロセスを作成します。
さらに,LLMの書き換え性能を小型モデルに蒸留し,書き換え遅延を低減することを提案する。
qreccデータセットを実験的に評価した結果,特にスパースレトリビュータでは,検索性能が検索性能に比較して大幅に向上することが示された。 Query rewriting plays a vital role in enhancing conversational search by transforming context-dependent user queries into standalone forms. Existing approaches primarily leverage human-rewritten queries as labels to train query rewriting models. However, human rewrites may lack sufficient information for optimal retrieval performance. To overcome this limitation, we propose utilizing large language models (LLMs) as query rewriters, enabling the generation of informative query rewrites through well-designed instructions. We define four essential properties for well-formed rewrites and incorporate all of them into the instruction. In addition, we introduce the role of rewrite editors for LLMs when initial query rewrites are available, forming a ``rewrite-then-edit'' process. Furthermore, we propose distilling the rewriting capabilities of LLMs into smaller models to reduce rewriting latency. Our experimental evaluation on the QReCC dataset demonstrates that informative query rewrites can yield substantially improved retrieval performance compared to human rewrites, especially with sparse retrievers. | 翻訳日:2023-10-17 18:52:01 公開日:2023-10-15 |
# 大規模言語モデルによる構成検証 Configuration Validation with Large Language Models ( http://arxiv.org/abs/2310.09690v1 ) ライセンス: Link先を確認 | Xinyu Lian, Yinfang Chen, Runxiang Cheng, Jie Huang, Parth Thakkar, Tianyin Xu | (参考訳) ミスコンフィギュレーションは、ソフトウェア障害の主な原因です。
既存の構成検証テクニックは、手動で記述したルールやテストケースに依存しています。
構成検証に機械学習(ML)と自然言語処理(NLP)を活用することは有望な方向と考えられているが、大規模な構成データだけでなく、一般化が難しいシステム固有の機能やモデルの必要性といった課題に直面している。
LLM(Large Language Models)の最近の進歩は、ML/NLPベースの構成検証技術の長期的限界に対処する約束を示している。
本稿では,GPT や Codex などの LLM を用いた構成検証の有効性と有効性について探索的検討を行った。
具体的には、LLMを、追加の微調整やコード生成なしに構成バリデータとして経験的に評価する第一歩を踏み出す。
LLMをベースとした汎用的な検証フレームワークCiriを開発した。
ciriは有効な設定とミスコンフィグレーションデータの両方に基づいて、最小限の学習で効果的なプロンプトエンジニアリングを考案する。
CiriはLSMの出力を検証・集約して検証結果を生成し、LSMの既知の幻覚や非決定性に対処する。
成熟した6つのオープンソースシステムの構成データを用いて,5つのLLM上でのCiriの有効性を評価する。
分析(1)では,LCMを構成検証に使用する可能性を確認し,(2)CiriのようなLCMベースのバリデータの設計空間を,特に数発の学習による迅速なエンジニアリングの観点から理解し,(3)ある種の誤設定の検出や,一般的な構成パラメータへのバイアスなど,オープンな課題を明らかにする。 Misconfigurations are the major causes of software failures. Existing configuration validation techniques rely on manually written rules or test cases, which are expensive to implement and maintain, and are hard to be comprehensive. Leveraging machine learning (ML) and natural language processing (NLP) for configuration validation is considered a promising direction, but has been facing challenges such as the need of not only large-scale configuration data, but also system-specific features and models which are hard to generalize. Recent advances in Large Language Models (LLMs) show the promises to address some of the long-lasting limitations of ML/NLP-based configuration validation techniques. In this paper, we present an exploratory analysis on the feasibility and effectiveness of using LLMs like GPT and Codex for configuration validation. Specifically, we take a first step to empirically evaluate LLMs as configuration validators without additional fine-tuning or code generation. We develop a generic LLM-based validation framework, named Ciri, which integrates different LLMs. Ciri devises effective prompt engineering with few-shot learning based on both valid configuration and misconfiguration data. Ciri also validates and aggregates the outputs of LLMs to generate validation results, coping with known hallucination and nondeterminism of LLMs. We evaluate the validation effectiveness of Ciri on five popular LLMs using configuration data of six mature, widely deployed open-source systems. Our analysis (1) confirms the potential of using LLMs for configuration validation, (2) understands the design space of LLMbased validators like Ciri, especially in terms of prompt engineering with few-shot learning, and (3) reveals open challenges such as ineffectiveness in detecting certain types of misconfigurations and biases to popular configuration parameters. | 翻訳日:2023-10-17 18:51:43 公開日:2023-10-15 |
# 視覚アクティブ検索のための部分教師あり強化学習フレームワーク A Partially Supervised Reinforcement Learning Framework for Visual Active Search ( http://arxiv.org/abs/2310.09689v1 ) ライセンス: Link先を確認 | Anindya Sarkar, Nathan Jacobs, Yevgeniy Vorobeychik | (参考訳) ビジュアルアクティブサーチ(VAS)は,大規模な地理空間領域における関心領域を特定することを目的として,探索のガイドとして視覚的手がかりを用いたモデリングフレームワークとして提案されている。
その潜在的な用途は、希少な野生生物の密猟活動のホットスポットの特定、捜索と回収のシナリオ、武器、薬物、あるいは人々に対する違法な密輸の特定などである。
VASに対する最先端のアプローチには、エンドツーエンドの検索ポリシーを生成する深層強化学習(DRL)や、予測とカスタムアルゴリズムのアプローチを組み合わせた従来のアクティブ検索がある。
DRLフレームワークは、これらの領域において従来のアクティブ検索よりも大幅に優れていることが示されているが、そのエンドツーエンドの性質は、トレーニング中または実際の検索中において、教師付き情報を完全に活用するわけではない。
本稿では,DRLの長所と従来のアクティブ検索の長所を,タスク埋め込みと検索履歴に基づく関心領域の地理空間分布を生成する予測モジュールに分解することで組み合わせ,検索履歴を入力とし,検索分布を出力する探索モジュールを提案する。
そこで我々は,学習時間と意思決定時間の両方で得られた教師付き情報を効果的に活用できる新しいメタ学習手法を開発した。
提案した表現とメタラーニングのフレームワークは,いくつかの問題領域における視覚的能動探索において,その技術水準を大幅に上回っていることを示す。 Visual active search (VAS) has been proposed as a modeling framework in which visual cues are used to guide exploration, with the goal of identifying regions of interest in a large geospatial area. Its potential applications include identifying hot spots of rare wildlife poaching activity, search-and-rescue scenarios, identifying illegal trafficking of weapons, drugs, or people, and many others. State of the art approaches to VAS include applications of deep reinforcement learning (DRL), which yield end-to-end search policies, and traditional active search, which combines predictions with custom algorithmic approaches. While the DRL framework has been shown to greatly outperform traditional active search in such domains, its end-to-end nature does not make full use of supervised information attained either during training, or during actual search, a significant limitation if search tasks differ significantly from those in the training distribution. We propose an approach that combines the strength of both DRL and conventional active search by decomposing the search policy into a prediction module, which produces a geospatial distribution of regions of interest based on task embedding and search history, and a search module, which takes the predictions and search history as input and outputs the search distribution. We develop a novel meta-learning approach for jointly learning the resulting combined policy that can make effective use of supervised information obtained both at training and decision time. Our extensive experiments demonstrate that the proposed representation and meta-learning frameworks significantly outperform state of the art in visual active search on several problem domains. | 翻訳日:2023-10-17 18:51:14 公開日:2023-10-15 |
# 繰り返し拘束された部分観測可能なマルコフ決定過程 Recursively-Constrained Partially Observable Markov Decision Processes ( http://arxiv.org/abs/2310.09688v1 ) ライセンス: Link先を確認 | Qi Heng Ho, Tyler Becker, Ben Kraske, Zakariya Laouar, Martin Feather, Federico Rossi, Morteza Lahijanian, Zachary N. Sunberg | (参考訳) 多くの問題では、問題のある他の側面に制約を課しながら、目的関数を最適化することが望ましい。
制約付き部分可観測マルコフ決定プロセス(C-POMDP)は、遷移の不確実性と部分可観測性を考慮しつつ、そのような問題のモデル化を可能にする。
通常、C-POMDPの制約は、初期状態分布から始まる期待される累積コストの閾値を強制する。
本研究では,C-POMDP ポリシーがベルマンの最適性原理に反する可能性を示し,多くの応用において望ましくない病的行動を示す可能性があることを示す。
この欠点に対処するために、C-POMDPに追加の履歴依存コスト制約を課す新しい定式化であるRecursively-Constrained POMDP(RC-POMDP)を導入する。
C-POMDPとは異なり、RC-POMDPは常に決定論的最適ポリシーを持ち、最適ポリシーはベルマンの最適性原理に従う。
また、RC-POMDPの最適ポリシーを合成する点ベース動的プログラミングアルゴリズムを提案する。
評価では,C-POMDPのポリシーよりもRC-POMDPのポリシーの方が望ましい行動を示し,ベンチマーク問題に対してアルゴリズムの有効性を示す。 In many problems, it is desirable to optimize an objective function while imposing constraints on some other aspect of the problem. A Constrained Partially Observable Markov Decision Process (C-POMDP) allows modelling of such problems while subject to transition uncertainty and partial observability. Typically, the constraints in C-POMDPs enforce a threshold on expected cumulative costs starting from an initial state distribution. In this work, we first show that optimal C-POMDP policies may violate Bellman's principle of optimality and thus may exhibit pathological behaviors, which can be undesirable for many applications. To address this drawback, we introduce a new formulation, the Recursively-Constrained POMDP (RC-POMDP), that imposes additional history dependent cost constraints on the C-POMDP. We show that, unlike C-POMDPs, RC-POMDPs always have deterministic optimal policies, and that optimal policies obey Bellman's principle of optimality. We also present a point-based dynamic programming algorithm that synthesizes optimal policies for RC-POMDPs. In our evaluations, we show that policies for RC-POMDPs produce more desirable behavior than policies for C-POMDPs and demonstrate the efficacy of our algorithm across a set of benchmark problems. | 翻訳日:2023-10-17 18:50:47 公開日:2023-10-15 |
# 協調フィルタリングが協調的でない場合--勧告に対するPCAの不公平さ When Collaborative Filtering is not Collaborative: Unfairness of PCA for Recommendations ( http://arxiv.org/abs/2310.09687v1 ) ライセンス: Link先を確認 | David Liu, Jackie Baek, Tina Eliassi-Rad | (参考訳) 提案手法の妥当性について検討した。
主成分分析(pca)の確立した手法に着目し,潜在成分を同定し,後続成分を破棄しながら主成分を介して低位近似を生成する。
以前の著作では「フェアPCA」という概念が定義されていたが、これらの定義は以下の質問に答えていない。
項目レベルでの不公平を誘発する2つの基盤機構を同定する。
1つ目は、人気の低いアイテムが価値を回復するために遅れたコンポーネントに頼っているため、あまり人気がないアイテムに悪影響を及ぼす。
主なPCAコンポーネントは、アイテム間の類似性を捉えるのではなく、個々の人気アイテムを専門とするためである。
これらの問題に対処するために,目的にアイテム固有の重みを利用するPCAを改良した多項式時間アルゴリズム Item-Weighted PCA を開発した。
行列の定式化クラスにおいて、特定の重みの組を用いたアイテム重み付きpcaは、人気正規化誤差メートル法を最小化する。
実世界のデータセットに対する評価では,項目重み付きPCAは,項目レベルのAUC-ROCを0.1ドルまで改善するだけでなく,人気度と人気度の両方を向上する。 We study the fairness of dimensionality reduction methods for recommendations. We focus on the established method of principal component analysis (PCA), which identifies latent components and produces a low-rank approximation via the leading components while discarding the trailing components. Prior works have defined notions of "fair PCA"; however, these definitions do not answer the following question: what makes PCA unfair? We identify two underlying mechanisms of PCA that induce unfairness at the item level. The first negatively impacts less popular items, due to the fact that less popular items rely on trailing latent components to recover their values. The second negatively impacts the highly popular items, since the leading PCA components specialize in individual popular items instead of capturing similarities between items. To address these issues, we develop a polynomial-time algorithm, Item-Weighted PCA, a modification of PCA that uses item-specific weights in the objective. On a stylized class of matrices, we prove that Item-Weighted PCA using a specific set of weights minimizes a popularity-normalized error metric. Our evaluations on real-world datasets show that Item-Weighted PCA not only improves overall recommendation quality by up to $0.1$ item-level AUC-ROC but also improves on both popular and less popular items. | 翻訳日:2023-10-17 18:50:27 公開日:2023-10-15 |
# 車両ルーティングとスケジューリング問題に対する強化学習に基づくハイパーヒューリスティックによる列生成の強化 Enhancing Column Generation by Reinforcement Learning-Based Hyper-Heuristic for Vehicle Routing and Scheduling Problems ( http://arxiv.org/abs/2310.09686v1 ) ライセンス: Link先を確認 | Kuan Xu and Li Shen and Lindong Liu | (参考訳) カラム生成(CG)は変数を動的に生成することで大規模問題を解決する重要な手法である。
車両のルーティングやスケジューリングといった共通組合せ最適化の広範な応用があり、各イテレーションステップではnpハード制約付き最短経路問題を解く必要がある。
加速のためのヒューリスティックな手法はいくつか存在するが、それらは異なる問題を解決するのに十分な汎用性がない。
本研究では,CGの性能向上を目的として,RLHHと呼ばれる強化学習に基づく超ヒューリスティックフレームワークを提案する。
rlhhはcgに埋め込まれた選択モジュールで、収束を加速し、より良い整数解を得る。
各CGイテレーションでは、RLエージェントが低レベルのヒューリスティックを選択し、最適解の一部である可能性が高いエッジのみを含む縮小ネットワークを構築する。
さらに、RLHHを2つの典型的な組合せ最適化問題の解法として、車載時間Windows(VRPTW)とバスドライバスケジューリング問題(BDSP)を指定する。
総コストはvrptwでは最大27.9\%、bdspでは15.4\%削減できる。
提案したRLHHは,解の最適化におけるCGの適用を促進できる,ソリューション品質の観点から従来のアプローチより優れている最初のRLベースのCG手法である。 Column generation (CG) is a vital method to solve large-scale problems by dynamically generating variables. It has extensive applications in common combinatorial optimization, such as vehicle routing and scheduling problems, where each iteration step requires solving an NP-hard constrained shortest path problem. Although some heuristic methods for acceleration already exist, they are not versatile enough to solve different problems. In this work, we propose a reinforcement learning-based hyper-heuristic framework, dubbed RLHH, to enhance the performance of CG. RLHH is a selection module embedded in CG to accelerate convergence and get better integer solutions. In each CG iteration, the RL agent selects a low-level heuristic to construct a reduced network only containing the edges with a greater chance of being part of the optimal solution. In addition, we specify RLHH to solve two typical combinatorial optimization problems: Vehicle Routing Problem with Time Windows (VRPTW) and Bus Driver Scheduling Problem (BDSP). The total cost can be reduced by up to 27.9\% in VRPTW and 15.4\% in BDSP compared to the best lower-level heuristic in our tested scenarios, within equivalent or even less computational time. The proposed RLHH is the first RL-based CG method that outperforms traditional approaches in terms of solution quality, which can promote the application of CG in combinatorial optimization. | 翻訳日:2023-10-17 18:50:01 公開日:2023-10-15 |
# デノボタンパク質設計のための生成人工知能 Generative artificial intelligence for de novo protein design ( http://arxiv.org/abs/2310.09685v1 ) ライセンス: Link先を確認 | Adam Winnifrith, Carlos Outeiral and Brian Hie | (参考訳) 望ましい機能と性質を持つ新しい分子を工学することは、これまでの自然の進化を超えてタンパク質を工学する能力を拡張する可能性を秘めている。
いわゆる"de novo"設計問題の進展は、人工知能の発展によって最近進展している。
言語モデルや拡散過程のような生成的アーキテクチャは、望ましい特性を示し、特定の機能を実行する新しい、しかし現実的なタンパク質を生成するのに適しているように見える。
最先端の設計プロトコルは20%近くの実験的な成功率を実現し、デノボの設計したタンパク質へのアクセスを拡大した。
広範囲にわたる進歩にもかかわらず、例えば、実験のために設計を優先するシリコメトリクスの最高の値を決定することや、翻訳後修飾やその他の細胞プロセスによって大きなコンフォメーション変化を起こせるタンパク質を設計することなど、分野によっては明らかな課題がある。
開発中のモデル数の増加に伴い、このレビューは、これらのツールがde novoタンパク質設計の全体プロセスにどのように適合するかを理解するためのフレームワークを提供する。
本研究は, 生化学知識を取り入れて, 性能と解釈性を向上させる力を強調した。 Engineering new molecules with desirable functions and properties has the potential to extend our ability to engineer proteins beyond what nature has so far evolved. Advances in the so-called "de novo" design problem have recently been brought forward by developments in artificial intelligence. Generative architectures, such as language models and diffusion processes, seem adept at generating novel, yet realistic proteins that display desirable properties and perform specified functions. State-of-the-art design protocols now achieve experimental success rates nearing 20%, thus widening the access to de novo designed proteins. Despite extensive progress, there are clear field-wide challenges, for example in determining the best in silico metrics to prioritise designs for experimental testing, and in designing proteins that can undergo large conformational changes or be regulated by post-translational modifications and other cellular processes. With an increase in the number of models being developed, this review provides a framework to understand how these tools fit into the overall process of de novo protein design. Throughout, we highlight the power of incorporating biochemical knowledge to improve performance and interpretability. | 翻訳日:2023-10-17 18:49:38 公開日:2023-10-15 |
# HiCL: 教師なし文の階層的コントラスト学習 HiCL: Hierarchical Contrastive Learning of Unsupervised Sentence Embeddings ( http://arxiv.org/abs/2310.09720v1 ) ライセンス: Link先を確認 | Zhuofeng Wu, Chaowei Xiao, VG Vinod Vydiswaran | (参考訳) 本稿では,局所セグメントレベルとグローバルシーケンスレベルの関係を考慮した階層型コントラスト学習フレームワークHiCLを提案する。
伝統的な方法は通常、他の方法と対照的に配列全体をエンコードし、しばしば局所表現学習を無視し、短いテキストに一般化することの難題に繋がる。
逆に、HiCLは、シーケンスを複数のセグメントに分割し、セグメントレベルとシーケンスレベルの関係をモデル化するために、局所的および大域的コントラスト学習を採用することにより、その効率を向上させる。
さらに、入力トークン上の変換器の二次時間複雑性を考慮すると、HiCLはまず短いセグメントを符号化し、次にそれらを集約してシーケンス表現を得る訓練効率を高める。
広範囲に評価されたSTSの7つのタスクにおいて、HiCLは以前のトップパフォーマンスのSNCSEモデルを強化し、BERT-largeでは平均+0.2%、RoBERTa-largeでは+0.44%の増加を示した。 In this paper, we propose a hierarchical contrastive learning framework, HiCL, which considers local segment-level and global sequence-level relationships to improve training efficiency and effectiveness. Traditional methods typically encode a sequence in its entirety for contrast with others, often neglecting local representation learning, leading to challenges in generalizing to shorter texts. Conversely, HiCL improves its effectiveness by dividing the sequence into several segments and employing both local and global contrastive learning to model segment-level and sequence-level relationships. Further, considering the quadratic time complexity of transformers over input tokens, HiCL boosts training efficiency by first encoding short segments and then aggregating them to obtain the sequence representation. Extensive experiments show that HiCL enhances the prior top-performing SNCSE model across seven extensively evaluated STS tasks, with an average increase of +0.2% observed on BERT-large and +0.44% on RoBERTa-large. | 翻訳日:2023-10-17 18:43:02 公開日:2023-10-15 |
# 大規模データに対する効率的かつ効果的なマルチビューサブスペースクラスタリング Efficient and Effective Multi-View Subspace Clustering for Large-scale Data ( http://arxiv.org/abs/2310.09718v1 ) ライセンス: Link先を確認 | Yuxiu Lin, Hui Liu, Ren Wang, Gongguan Chen, and Caiming Zhang | (参考訳) 近年のマルチビューサブスペースクラスタリングは、自己表現的相関が完全に連結された(FC)層によってモデル化されるディープネットワークを利用した印象的な結果が得られる。
しかし、まだ2つの制限がある。
一 最小限の満足度及び差別性を同時に満足する複数の視点から統一表現を抽出すること。
二 fc層のパラメータスケールはサンプル数の二乗であり、大規模データセットにおいてその実現可能性を大幅に低下させる高時間及びメモリコストをもたらす。
そこで本研究では,E$^2$LMVSC(Efficient and Effective Large-scale Multi-View Subspace Clustering)と呼ばれる新しいディープフレームワークを提案する。
具体的には、統一表現の質を高めるために、複数のビューデータにまたがる一貫性、相補性、および過剰な情報を明示的に分離するために、ソフトクラスタリング代入類似性制約を考案した。
そして、情報ボトルネック理論に従って、十分に最小限の統一特徴表現を得る。
さらに、E$^2$LMVSCは最大符号化率低減原理を用いて、統一表現におけるクラスタ内集約とクラスタ間分離性を促進する。
最後に、自己表現係数はパラメータ化されたfc層の代わりに関係計量ネットによって学習され、効率が向上する。
E$^2$LMVSCは既存の手法と同等の結果を示し、大規模マルチビューデータセットで最先端のクラスタリング性能を実現する。 Recent multi-view subspace clustering achieves impressive results utilizing deep networks, where the self-expressive correlation is typically modeled by a fully connected (FC) layer. However, they still suffer from two limitations: i) it is under-explored to extract a unified representation from multiple views that simultaneously satisfy minimal sufficiency and discriminability. ii) the parameter scale of the FC layer is quadratic to the number of samples, resulting in high time and memory costs that significantly degrade their feasibility in large-scale datasets. In light of this, we propose a novel deep framework termed Efficient and Effective Large-scale Multi-View Subspace Clustering (E$^2$LMVSC). Specifically, to enhance the quality of the unified representation, a soft clustering assignment similarity constraint is devised for explicitly decoupling consistent, complementary, and superfluous information across multi-view data. Then, following information bottleneck theory, a sufficient yet minimal unified feature representation is obtained. Moreover, E$^2$LMVSC employs the maximal coding rate reduction principle to promote intra-cluster aggregation and inter-cluster separability within the unified representation. Finally, the self-expressive coefficients are learned by a Relation-Metric Net instead of a parameterized FC layer for greater efficiency. Extensive experiments show that E$^2$LMVSC yields comparable results to existing methods and achieves state-of-the-art clustering performance in large-scale multi-view datasets. | 翻訳日:2023-10-17 18:42:42 公開日:2023-10-15 |
# LOVECon: ControlNetによるテキスト駆動トレーニングフリー長編ビデオ編集 LOVECon: Text-driven Training-Free Long Video Editing with ControlNet ( http://arxiv.org/abs/2310.09711v1 ) ライセンス: Link先を確認 | Zhenyi Liao, Zhijie Deng | (参考訳) 映像編集における事前学習された条件拡散モデルの利用は, 映画製作, 広告等の期待から, さらなる調整なしに注目されている。
しかし、この行のセナルな作品は、生成期間、時間的コヒーレンス、またはソースビデオへの忠実度が低い。
本稿では,このギャップを埋めることを目的として,学習自由拡散モデルに基づく長ビデオ編集のためのシンプルで効果的なベースラインを確立する。
先行技術によって示唆されたように、我々はテキストプロンプトに基づいて様々な画像編集タスクを抽出するコントロールネット上にパイプラインを構築する。
計算メモリの制限による長さ制約を解消するため,長い映像を連続するウィンドウに分割し,グローバルスタイルの一貫性を確保し,ウィンドウ間の滑らかさを最大化する新しいクロスウィンドウアテンション機構を開発した。
より正確な制御を実現するため、DDIMインバージョンを用いてソースビデオから情報を抽出し、その結果を世代ごとの潜伏状態に統合する。
また,フレームレベルのフレッカリング問題を軽減するため,ビデオフレーム補間モデルも組み込んだ。
大規模な実証実験により,前景オブジェクトの属性の置換,スタイル転送,背景置換など,シナリオ間の競合するベースラインよりも優れた手法の有効性が検証された。
特に,ユーザの要求に応じて,最大128フレームの動画編集を行う。
コードはhttps://github.com/zhijie-group/loveconで入手できる。 Leveraging pre-trained conditional diffusion models for video editing without further tuning has gained increasing attention due to its promise in film production, advertising, etc. Yet, seminal works in this line fall short in generation length, temporal coherence, or fidelity to the source video. This paper aims to bridge the gap, establishing a simple and effective baseline for training-free diffusion model-based long video editing. As suggested by prior arts, we build the pipeline upon ControlNet, which excels at various image editing tasks based on text prompts. To break down the length constraints caused by limited computational memory, we split the long video into consecutive windows and develop a novel cross-window attention mechanism to ensure the consistency of global style and maximize the smoothness among windows. To achieve more accurate control, we extract the information from the source video via DDIM inversion and integrate the outcomes into the latent states of the generations. We also incorporate a video frame interpolation model to mitigate the frame-level flickering issue. Extensive empirical studies verify the superior efficacy of our method over competing baselines across scenarios, including the replacement of the attributes of foreground objects, style transfer, and background replacement. In particular, our method manages to edit videos with up to 128 frames according to user requirements. Code is available at https://github.com/zhijie-group/LOVECon. | 翻訳日:2023-10-17 18:42:16 公開日:2023-10-15 |
# シェードネットを用いた体組成評価の新展開:単一画像深部回帰法 New Advances in Body Composition Assessment with ShapedNet: A Single Image Deep Regression Approach ( http://arxiv.org/abs/2310.09709v1 ) ライセンス: Link先を確認 | Navar Medeiros M. Nascimento, Pedro Cavalcante de Sousa Junior, Pedro Yuri Rodrigues Nunes, Suane Pires Pinheiro da Silva, Luiz Lannes Loureiro, Victor Zaban Bittencourt, Valden Luis Matos Capistrano Junior, Pedro Pedrosa Rebou\c{c}as Filho | (参考訳) 体組成評価を向上させる新しい手法であるシェードネットを提案する。
この方法は、体脂肪率(bfp)を推定し、個人識別を行い、単一の写真を用いたローカライズを可能にするディープニューラルネットワークを用いる。
ShapedNetの精度は、ゴールド標準法であるDual-Energy X-ray Absorptiometry (DXA)と比較して総合的に検証され、1273人の健康な成人が年齢、性別、BFPレベルにまたがっている。
その結果,ShapedNetは体脂肪推定の19.5%で優れており,平均絶対誤差(MAPE)は4.91%,平均絶対誤差(MAE)は1.42。
この研究は、性別に基づくアプローチと性中立アプローチの両方を評価し、後者の方が優れたパフォーマンスを示している。
誤差マージンの95%信頼度は4.01%から5.81%と推定される。
本研究では,ShapedNetによるマルチタスク学習と身体構成評価理論を進歩させる。 We introduce a novel technique called ShapedNet to enhance body composition assessment. This method employs a deep neural network capable of estimating Body Fat Percentage (BFP), performing individual identification, and enabling localization using a single photograph. The accuracy of ShapedNet is validated through comprehensive comparisons against the gold standard method, Dual-Energy X-ray Absorptiometry (DXA), utilizing 1273 healthy adults spanning various ages, sexes, and BFP levels. The results demonstrate that ShapedNet outperforms in 19.5% state of the art computer vision-based approaches for body fat estimation, achieving a Mean Absolute Percentage Error (MAPE) of 4.91% and Mean Absolute Error (MAE) of 1.42. The study evaluates both gender-based and Gender-neutral approaches, with the latter showcasing superior performance. The method estimates BFP with 95% confidence within an error margin of 4.01% to 5.81%. This research advances multi-task learning and body composition assessment theory through ShapedNet. | 翻訳日:2023-10-17 18:41:50 公開日:2023-10-15 |
# AdaptSSR: Augmentation-Adaptive Self-Supervised Rankingによる事前学習ユーザモデル AdaptSSR: Pre-training User Model with Augmentation-Adaptive Self-Supervised Ranking ( http://arxiv.org/abs/2310.09706v1 ) ライセンス: Link先を確認 | Yang Yu, Qi Liu, Kai Zhang, Yuren Zhang, Chao Song, Min Hou, Yuqing Yuan, Zhihao Ye, Zaixi Zhang, Sanshi Lei Yu | (参考訳) ユーザの特性や関心を捉えることを目的としたユーザモデリングは、タスク固有のラベル付きデータに大きく依存しており、データのスパーシティの問題に苦しんでいる。
最近のいくつかの研究は、対照的な学習タスクで大量のユーザー行動シーケンスでユーザーモデルを事前学習することでこの問題に取り組みました。
一般に、これらの手法は、データ拡張によって構築された同一の行動列の異なるビューを意味的に一貫した、すなわち、ユーザの類似した特性や興味を反映し、特徴空間におけるそれらの合意を最大化する。
しかし,ユーザ行動の多様さや騒音のため,既存の拡張手法はユーザの特徴を損なったり,ノイズの多い興味を惹きつける傾向にある。
したがって、ユーザモデルに拡張ビュー間の類似性を直接最大化させると、負の転送が発生する可能性がある。
そこで本研究では,ユーザモデルを事前学習しながら,拡張ビュー間の意味的一貫性の要件を緩和する,拡張適応型自己教師付きランキング (adaptssr) という新しいpretextタスクでコントラスト学習タスクを置き換えることを提案する。
具体的には,ユーザモデルをトレーニングして,暗黙的に拡張されたビューと明示的な拡張されたビュー,他のユーザからのビューの類似性をキャプチャする,複数対のランキング損失を採用する。
さらに,モデルトレーニングを容易にするために,バッチ内ハードネガティブサンプリング戦略も採用した。
さらに,異なる行動系列に対するデータ拡張の影響を別々に考慮し,拡張ビュー間の推定類似度に基づいて,各サンプルに適用される類似度順序制約を自動的に調整する拡張適応融合機構を設計する。
6つの下流タスクを持つパブリックデータセットと産業データセットの大規模な実験は、AdaptSSRの有効性を検証する。 User modeling, which aims to capture users' characteristics or interests, heavily relies on task-specific labeled data and suffers from the data sparsity issue. Several recent studies tackled this problem by pre-training the user model on massive user behavior sequences with a contrastive learning task. Generally, these methods assume different views of the same behavior sequence constructed via data augmentation are semantically consistent, i.e., reflecting similar characteristics or interests of the user, and thus maximizing their agreement in the feature space. However, due to the diverse interests and heavy noise in user behaviors, existing augmentation methods tend to lose certain characteristics of the user or introduce noisy interests. Thus, forcing the user model to directly maximize the similarity between the augmented views may result in a negative transfer. To this end, we propose to replace the contrastive learning task with a new pretext task: Augmentation-Adaptive Self-Supervised Ranking (AdaptSSR), which alleviates the requirement of semantic consistency between the augmented views while pre-training a discriminative user model. Specifically, we adopt a multiple pairwise ranking loss which trains the user model to capture the similarity orders between the implicitly augmented view, the explicitly augmented view, and views from other users. We further employ an in-batch hard negative sampling strategy to facilitate model training. Moreover, considering the distinct impacts of data augmentation on different behavior sequences, we design an augmentation-adaptive fusion mechanism to automatically adjust the similarity order constraint applied to each sample based on the estimated similarity between the augmented views. Extensive experiments on both public and industrial datasets with six downstream tasks verify the effectiveness of AdaptSSR. | 翻訳日:2023-10-17 18:41:31 公開日:2023-10-15 |
# モンドリアンランダム林を用いた推定 Inference with Mondrian Random Forests ( http://arxiv.org/abs/2310.09702v1 ) ライセンス: Link先を確認 | Matias D. Cattaneo, Jason M. Klusowski, William G. Underwood | (参考訳) ランダム林は分類と回帰の一般的な方法であり、近年多くの異なる変種が提案されている。
興味深い例の1つはモンドリアンのランダム林であり、その中にモンドリアンの過程に従って木が構築されている。
本稿では、回帰設定において、モンドリアンランダムフォレストによってなされた推定に対して中心極限定理を与える。
バイアス特性と一貫した分散推定器を組み合わせると、未知回帰関数上で信頼区間を構成するような漸近的に有効な統計的推測を行うことができる。
また,パラメータチューニングを仮定して,任意の次元の$\beta$ および$\beta$ に対して,$\beta$-h\"older回帰関数による最小最適推定率を達成することができる。 Random forests are popular methods for classification and regression, and many different variants have been proposed in recent years. One interesting example is the Mondrian random forest, in which the underlying trees are constructed according to a Mondrian process. In this paper we give a central limit theorem for the estimates made by a Mondrian random forest in the regression setting. When combined with a bias characterization and a consistent variance estimator, this allows one to perform asymptotically valid statistical inference, such as constructing confidence intervals, on the unknown regression function. We also provide a debiasing procedure for Mondrian random forests which allows them to achieve minimax-optimal estimation rates with $\beta$-H\"older regression functions, for all $\beta$ and in arbitrary dimension, assuming appropriate parameter tuning. | 翻訳日:2023-10-17 18:41:00 公開日:2023-10-15 |
# オープンドメインマルチモーダル検索質問応答の進展的証拠化 Progressive Evidence Refinement for Open-domain Multimodal Retrieval Question Answering ( http://arxiv.org/abs/2310.09696v1 ) ライセンス: Link先を確認 | Shuwen Yang, Anran Wu, Xingjiao Wu, Luwei Xiao, Tianlong Ma, Cheng Jin, Liang He | (参考訳) 事前学習されたマルチモーダルモデルは,検索に基づく質問応答において大きな成功を収めている。
しかし、現在のマルチモーダル検索質問応答モデルには、2つの大きな課題がある。
第一に、圧縮されたエビデンスの特徴をモデルへの入力として利用することで、エビデンス内の詳細な情報が失われる。
第二に、エビデンスの特徴抽出と質問の間にギャップがあり、与えられた質問に基づいてエビデンスから重要な特徴を効果的に抽出することを妨げる。
エビデンス検索と質問応答のための2段階の枠組みを提案する。
まず,重要な証拠を選択するための進歩的証拠改質戦略を提案する。
この戦略は、エビデンス中の論理的シーケンスを明らかにするために反復的エビデンス検索アプローチを採用する。
解空間を最適化するために2ラウンドのフィルタリングを取り入れ、時間効率をさらに確保する。
次に,否定的サンプルに基づく半教師付きコントラスト学習学習戦略を導入し,質問領域の範囲を拡大し,既知のサンプル内の潜在知識をより徹底的に探究する。
最後に,細粒度情報の損失を軽減するために,マルチターン検索と質問応答戦略を考案し,マルチモーダル入力を処理する。
この戦略は、歴史的対話と疑問の一部として、マルチモーダルな証拠を直接モデルに組み込む。
一方,証拠と疑問との間の基礎となる関係を捉えるために,モーダル間注意機構を活用し,デコード生成手法を用いて回答を生成する。
我々は、WebQAおよびMultimodelQAベンチマークテストにおいて優れた性能を達成し、広範囲な実験を通してモデルの有効性を検証する。 Pre-trained multimodal models have achieved significant success in retrieval-based question answering. However, current multimodal retrieval question-answering models face two main challenges. Firstly, utilizing compressed evidence features as input to the model results in the loss of fine-grained information within the evidence. Secondly, a gap exists between the feature extraction of evidence and the question, which hinders the model from effectively extracting critical features from the evidence based on the given question. We propose a two-stage framework for evidence retrieval and question-answering to alleviate these issues. First and foremost, we propose a progressive evidence refinement strategy for selecting crucial evidence. This strategy employs an iterative evidence retrieval approach to uncover the logical sequence among the evidence pieces. It incorporates two rounds of filtering to optimize the solution space, thus further ensuring temporal efficiency. Subsequently, we introduce a semi-supervised contrastive learning training strategy based on negative samples to expand the scope of the question domain, allowing for a more thorough exploration of latent knowledge within known samples. Finally, in order to mitigate the loss of fine-grained information, we devise a multi-turn retrieval and question-answering strategy to handle multimodal inputs. This strategy involves incorporating multimodal evidence directly into the model as part of the historical dialogue and question. Meanwhile, we leverage a cross-modal attention mechanism to capture the underlying connections between the evidence and the question, and the answer is generated through a decoding generation approach. We validate the model's effectiveness through extensive experiments, achieving outstanding performance on WebQA and MultimodelQA benchmark tests. | 翻訳日:2023-10-17 18:40:44 公開日:2023-10-15 |
# 古典的な初期状態を持つADAPT-QAOA ADAPT-QAOA with a classically inspired initial state ( http://arxiv.org/abs/2310.09694v1 ) ライセンス: Link先を確認 | Vishvesha K. Sridhar, Yanzhu Chen, Bryan Gard, Edwin Barnes and Sophia E. Economou | (参考訳) 量子コンピューティングは古典的な最適化問題を解くのに有利である。
1つの有望なアルゴリズムは量子近似最適化アルゴリズム(QAOA)である。
このアルゴリズムを改善するための提案は数多くあり、例えば古典近似解から情報を得た初期状態の使用などである。
ADAPT-QAOAと呼ばれるQAOAの変種はアンザッツを動的に構築し、収束を高速化する。
しかし、エネルギーランドスケープの局所的なミニマに対応する励起状態に頻繁に収束し、その性能を制限するという課題に直面している。
本研究では,従来の近似アルゴリズムにインスパイアされた初期状態からADAPT-QAOAを開始することを提案する。
数値シミュレーションにより,本アルゴリズムは標準QAOAと本来のADAPT-QAOAよりも少ない層で同じ精度で到達可能であることを示す。
また、励起状態への収束の問題も少ないようである。 Quantum computing may provide advantage in solving classical optimization problems. One promising algorithm is the quantum approximate optimization algorithm (QAOA). There have been many proposals for improving this algorithm, such as using an initial state informed by classical approximation solutions. A variation of QAOA called ADAPT-QAOA constructs the ansatz dynamically and can speed up convergence. However, it faces the challenge of frequently converging to excited states which correspond to local minima in the energy landscape, limiting its performance. In this work, we propose to start ADAPT-QAOA with an initial state inspired by a classical approximation algorithm. Through numerical simulations we show that this new algorithm can reach the same accuracy with fewer layers than the standard QAOA and the original ADAPT-QAOA. It also appears to be less prone to the problem of converging to excited states. | 翻訳日:2023-10-17 18:40:11 公開日:2023-10-15 |
# 次世代コンピュータビジョンのためのスパイク型ニューロモルフィックコンピューティング Spike-based Neuromorphic Computing for Next-Generation Computer Vision ( http://arxiv.org/abs/2310.09692v1 ) ライセンス: Link先を確認 | Md Sakib Hasan, Catherine D. Schuman, Zhongyang Zhang, Tauhidur Rahman, and Garrett S. Rose | (参考訳) ニューロモルフィックコンピューティングは従来のvon neumannコンピューティングパラダイムと比較してエネルギー効率の桁違いな改善を約束する。
目標は、素材、デバイス、回路、アーキテクチャ、アルゴリズムなど、さまざまな抽象レイヤの革新によって実現可能な脳機能を学習し、エミュレートすることで、適応的でフォールトトレラント、低フットプリント、高速、低エネルギーのインテリジェントシステムを開発することである。
複雑なビジョンタスクのエネルギー消費は、より大きなデータセットとリソース制約されたエッジデバイスがますます普及するにつれて指数関数的に増加し続けており、スパイクベースのニューロモルフィックコンピューティングアプローチは、現在ビジョンフィールドを支配しているディープ畳み込みニューラルネットワークに代わることができる。
本章では、ニューロモルフィックコンピューティングを紹介し、デザインスタックのさまざまなレイヤ(デバイス、回路、アルゴリズム)から代表例をいくつか概説し、近い将来にコンピュータビジョンに有望と思われるいくつかのエキサイティングな応用と今後の研究方向をまとめます。 Neuromorphic Computing promises orders of magnitude improvement in energy efficiency compared to traditional von Neumann computing paradigm. The goal is to develop an adaptive, fault-tolerant, low-footprint, fast, low-energy intelligent system by learning and emulating brain functionality which can be realized through innovation in different abstraction layers including material, device, circuit, architecture and algorithm. As the energy consumption in complex vision tasks keep increasing exponentially due to larger data set and resource-constrained edge devices become increasingly ubiquitous, spike-based neuromorphic computing approaches can be viable alternative to deep convolutional neural network that is dominating the vision field today. In this book chapter, we introduce neuromorphic computing, outline a few representative examples from different layers of the design stack (devices, circuits and algorithms) and conclude with a few exciting applications and future research directions that seem promising for computer vision in the near future. | 翻訳日:2023-10-17 18:39:57 公開日:2023-10-15 |
# 弱改良セマンティックセグメンテーションにおける拡散制御による画像強調 Image Augmentation with Controlled Diffusion for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2310.09760v1 ) ライセンス: Link先を確認 | Wangyu Wu, Tianhong Dai, Xiaowei Huang, Fei Ma, Jimin Xiao | (参考訳) 画像レベルラベルのみを使用してセグメンテーションモデルを訓練することを目的としたweakly supervised semantic segmentation (wsss) が注目されている。
既存の手法は主に、利用可能な画像とその画像レベルラベルを使用して高品質な擬似ラベルを生成することに焦点を当てている。
しかし、利用可能なデータセットのサイズが限られると、擬似ラベルの品質は大幅に低下する。
そこで本稿では,制御拡散による画像拡張(iacd)と呼ばれる新しい手法を導入することで,異なる視点からこの問題に取り組む。
このフレームワークは、利用可能な画像と画像レベルのラベルが制御情報として提供される制御拡散を通じて多様な画像を生成することにより、既存のラベル付きデータセットを効果的に増強する。
また,拡散モデルのランダム性による潜在的なノイズを軽減するため,高品質な画像選択手法を提案する。
実験では,提案手法が既存の最先端手法を明らかに越えた。
この効果は、利用可能なデータ量が小さくなるとより明確になり、この方法の有効性が示される。 Weakly-supervised semantic segmentation (WSSS), which aims to train segmentation models solely using image-level labels, has achieved significant attention. Existing methods primarily focus on generating high-quality pseudo labels using available images and their image-level labels. However, the quality of pseudo labels degrades significantly when the size of available dataset is limited. Thus, in this paper, we tackle this problem from a different view by introducing a novel approach called Image Augmentation with Controlled Diffusion (IACD). This framework effectively augments existing labeled datasets by generating diverse images through controlled diffusion, where the available images and image-level labels are served as the controlling information. Moreover, we also propose a high-quality image selection strategy to mitigate the potential noise introduced by the randomness of diffusion models. In the experiments, our proposed IACD approach clearly surpasses existing state-of-the-art methods. This effect is more obvious when the amount of available data is small, demonstrating the effectiveness of our method. | 翻訳日:2023-10-17 18:31:08 公開日:2023-10-15 |
# unitime:クロスドメイン時系列予測のための言語統合モデル UniTime: A Language-Empowered Unified Model for Cross-Domain Time Series Forecasting ( http://arxiv.org/abs/2310.09751v1 ) ライセンス: Link先を確認 | Xu Liu, Junfeng Hu, Yuan Li, Shizhe Diao, Yuxuan Liang, Bryan Hooi, Roger Zimmermann | (参考訳) 多変量時系列予測は、現代のウェブ技術において重要な役割を果たす。
特定の時系列アプリケーションドメイン専用のモデルを作成する従来の手法とは対照的に、本研究ではドメイン境界を超越する統一モデルパラダイムを提唱する。
しかし、効果的なクロスドメインモデルを学ぶことは以下の課題を示している。
まず、様々なドメインはデータ特性の相違、例えば変数の数、これらの要因に柔軟性のない制約を課す既存のモデルのハードルを示す。
第2に、このモデルは様々な領域からデータを区別する上で困難に直面する可能性がある。
第3に、時系列領域の様々な収束率もまた、経験的性能を損なう可能性がある。
これらの課題に対処するため,ドメイン間時系列学習に有効なUniTimeを提案する。
具体的には、UniTimeは様々な特性を持つデータに柔軟に対応できる。
また、ドメイン命令とLanguage-TS Transformerを使用して識別情報を提供し、2つのモダリティを調整する。
さらにUniTimeは、ドメイン収束速度の不均衡の問題を軽減するためにマスキングを使用している。
我々は,UniTimeの最先端予測性能およびゼロショット転送性向上における有効性を示す。 Multivariate time series forecasting plays a pivotal role in contemporary web technologies. In contrast to conventional methods that involve creating dedicated models for specific time series application domains, this research advocates for a unified model paradigm that transcends domain boundaries. However, learning an effective cross-domain model presents the following challenges. First, various domains exhibit disparities in data characteristics, e.g., the number of variables, posing hurdles for existing models that impose inflexible constraints on these factors. Second, the model may encounter difficulties in distinguishing data from various domains, leading to suboptimal performance in our assessments. Third, the diverse convergence rates of time series domains can also result in compromised empirical performance. To address these issues, we propose UniTime for effective cross-domain time series learning. Concretely, UniTime can flexibly adapt to data with varying characteristics. It also uses domain instructions and a Language-TS Transformer to offer identification information and align two modalities. In addition, UniTime employs masking to alleviate domain convergence speed imbalance issues. Our extensive experiments demonstrate the effectiveness of UniTime in advancing state-of-the-art forecasting performance and zero-shot transferability. | 翻訳日:2023-10-17 18:30:50 公開日:2023-10-15 |
# コード生成のための大規模言語モデル認識インコンテキスト学習 Large Language Model-Aware In-Context Learning for Code Generation ( http://arxiv.org/abs/2310.09748v1 ) ライセンス: Link先を確認 | Jia Li, Ge Li, Chongyang Tao, Jia Li, Huangzhao Zhang, Fang Liu, Zhi Jin | (参考訳) 大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
LLMは要求コード例と新しい要件を入力として取り込み、新しいプログラムを出力する。
既存の研究では、ICLは例によって大きく支配されており、例選択の研究が生まれている。
しかしながら、既存のアプローチではサンプルをランダムに選択したり、検索する要求のテキスト的類似性のみを考慮したりするため、最適化性能が低下する。
本稿では,コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習手法を提案する。
候補となる例としては, LLM自体を利用して, 要求条件と実例を考慮し, LLM自体を推定する。
次に、候補のサンプルを確率フィードバックを通じて肯定的または否定的とラベル付けする。
ラベル付きデータに基づいてコントラスト学習目標をインポートし、コード生成におけるllmの好みを取得する効果的なレトリバーを訓練する。
LAILを3つのLLMに適用し、3つの代表的なデータセット(例えば、MBJP、MBPP、MBCPP)で評価する。
lataは最先端のベースラインを11.58%、codegenでは6.89%、 5.07%、pass@1では4.38%、2.85%、gpt-3.5では2.74%上回っている。 Large language models (LLMs) have shown impressive in-context learning (ICL) ability in code generation. LLMs take a prompt consisting of requirement-code examples and a new requirement as input, and output new programs. Existing studies have found that ICL is highly dominated by the examples and thus arises research on example selection. However, existing approaches randomly select examples or only consider the textual similarity of requirements to retrieve, leading to sub-optimal performance. In this paper, we propose a novel learning-based selection approach named LAIL (LLM-Aware In-context Learning) for code generation. Given a candidate example, we exploit LLMs themselves to estimate it by considering the generation probabilities of ground-truth programs given a requirement and the example. We then label candidate examples as positive or negative through the probability feedback. Based on the labeled data, we import a contrastive learning objective to train an effective retriever that acquires the preference of LLMs in code generation. We apply LAIL to three LLMs and evaluate it on three representative datasets (e.g., MBJP, MBPP, and MBCPP). LATA outperforms the state-of-the-art baselines by 11.58%, 6.89%, and 5.07% on CodeGen, and 4.38%, 2.85%, and 2.74% on GPT-3.5 in terms of Pass@1, respectively. | 翻訳日:2023-10-17 18:30:33 公開日:2023-10-15 |
# シームズ物体追跡のための段階的深度相関と特徴融合 Staged Depthwise Correlation and Feature Fusion for Siamese Object Tracking ( http://arxiv.org/abs/2310.09747v1 ) ライセンス: Link先を確認 | Dianbo Ma, Jianqiang Xiao, Ziyan Gao, Satoshi Yamane | (参考訳) 本研究では,視覚的トラッキングのための特徴抽出をさらに最適化するために,DCFFNetという新たな深度相関と特徴融合ネットワークを提案する。
シアムネットワークアーキテクチャに基づいてディープトラッカーを構築し、複数の大規模データセットをエンドツーエンドでオフラインでトレーニングします。
このモデルには、下層と上層からのマルチレベル特徴の集合と同一層上のマルチセマンティックセマンティクスを利用して、特定のオブジェクトに対する最適な重みの集合を学習しやすくするコアコンポーネント、すなわち、奥行き相関と特徴融合モジュール(相関融合モジュール)が含まれている。
修正されたResNet-50と提案した相関融合層を組み合わせて,モデルの特徴抽出器を構成する。
トレーニングの過程では,モデルのトレーニングがより安定になり,相関融合モジュールから恩恵を受ける。
パフォーマンスの包括的な評価のために、otb100、vot2018、lasotなど、人気のあるベンチマークでトラッカを実装します。
広範な実験結果から,提案手法は,アプリケーションのリアルタイム要求を満足しながら,精度と精度の面で多くの先行トラッカに対して有利な競合性能を達成できることが示された。 In this work, we propose a novel staged depthwise correlation and feature fusion network, named DCFFNet, to further optimize the feature extraction for visual tracking. We build our deep tracker upon a siamese network architecture, which is offline trained from scratch on multiple large-scale datasets in an end-to-end manner. The model contains a core component, that is, depthwise correlation and feature fusion module (correlation-fusion module), which facilitates model to learn a set of optimal weights for a specific object by utilizing ensembles of multi-level features from lower and higher layers and multi-channel semantics on the same layer. We combine the modified ResNet-50 with the proposed correlation-fusion layer to constitute the feature extractor of our model. In training process, we find the training of model become more stable, that benifits from the correlation-fusion module. For comprehensive evaluations of performance, we implement our tracker on the popular benchmarks, including OTB100, VOT2018 and LaSOT. Extensive experiment results demonstrate that our proposed method achieves favorably competitive performance against many leading trackers in terms of accuracy and precision, while satisfying the real-time requirements of applications. | 翻訳日:2023-10-17 18:30:08 公開日:2023-10-15 |
# バックドア攻撃における毒物効率に及ぼすデータ選択の影響の検討 Explore the Effect of Data Selection on Poison Efficiency in Backdoor Attacks ( http://arxiv.org/abs/2310.09744v1 ) ライセンス: Link先を確認 | Ziqiang Li, Pengfei Xia, Hong Sun, Yueqi Zeng, Wei Zhang, and Bin Li | (参考訳) ディープニューラルネットワーク(DNN)のパラメータ数がスケールするにつれて、トレーニングデータの渇きも大きくなる。
コスト削減のため、ユーザや企業が時間を要するデータ収集をサードパーティに委譲することが一般的になっている。
残念ながら、最近の研究では、DNNがバックドア攻撃にさらされるリスクが高まることが示されている。
具体的には、攻撃者はトレーニングデータのごく一部を毒殺することで、トレーニングモデルの振る舞いを悪意を持って制御することができる。
本研究では,サンプル選択の観点から,バックドアアタックの中毒効率の向上に焦点をあてる。
既存の攻撃方法は、無作為なデータを良性集合からランダムに選択し、その中にトリガーを埋め込むことで、有毒なサンプルを構築する。
しかし、このランダム選択戦略は、各サンプルがバックドア注入に異なる貢献をする可能性があることを無視し、中毒効率を低下させる。
上記の問題に対処するため、改良フィルタリング・更新戦略(FUS++)と呼ばれる新しい選択戦略を提案する。
具体的には, 異なる毒性試料の寄与を示すために試料の忘れイベントを採用し, 損失面の曲率を用いて, この現象の有効性を解析した。
そこで我々は,異なるサンプルの曲率を忘れることと組み合わせて,単純かつ効率的なサンプル選択戦略を行う。
画像分類 (CIFAR-10, CIFAR-100, ImageNet-10), テキスト分類 (AG News), 音声分類 (ESC-50), 年齢回帰 (Facial Age) に関する実験結果は, 提案手法の有効性を一貫して示している。 As the number of parameters in Deep Neural Networks (DNNs) scales, the thirst for training data also increases. To save costs, it has become common for users and enterprises to delegate time-consuming data collection to third parties. Unfortunately, recent research has shown that this practice raises the risk of DNNs being exposed to backdoor attacks. Specifically, an attacker can maliciously control the behavior of a trained model by poisoning a small portion of the training data. In this study, we focus on improving the poisoning efficiency of backdoor attacks from the sample selection perspective. The existing attack methods construct such poisoned samples by randomly selecting some clean data from the benign set and then embedding a trigger into them. However, this random selection strategy ignores that each sample may contribute differently to the backdoor injection, thereby reducing the poisoning efficiency. To address the above problem, a new selection strategy named Improved Filtering and Updating Strategy (FUS++) is proposed. Specifically, we adopt the forgetting events of the samples to indicate the contribution of different poisoned samples and use the curvature of the loss surface to analyses the effectiveness of this phenomenon. Accordingly, we combine forgetting events and curvature of different samples to conduct a simple yet efficient sample selection strategy. The experimental results on image classification (CIFAR-10, CIFAR-100, ImageNet-10), text classification (AG News), audio classification (ESC-50), and age regression (Facial Age) consistently demonstrate the effectiveness of the proposed strategy: the attack performance using FUS++ is significantly higher than that using random selection for the same poisoning ratio. | 翻訳日:2023-10-17 18:29:46 公開日:2023-10-15 |
# AugUndo: 教師なし深度補完のための拡張のスケールアップ AugUndo: Scaling Up Augmentations for Unsupervised Depth Completion ( http://arxiv.org/abs/2310.09739v1 ) ライセンス: Link先を確認 | Yangchao Wu, Tian Yu Liu, Hyoungseob Park, Stefano Soatto, Dong Lao, Alex Wong | (参考訳) スパース深度と画像再構成誤差を最小化することにより、教師なし深度補完法を訓練する。
再サンプリング、強度飽和、オクルージョンからのアーティファクトのブロックは、画像再構成の品質に影響する一般的なデータ拡張スキームの好ましくない副産物であり、トレーニング信号である。
したがって、他のビジョンタスクでパイプラインのトレーニングに不可欠なと見なされるイメージの典型的な拡張は、小さな画像インテンシティの変更とフリップ以外には使用が限られている。
密度変換が3次元シーンのスケールを変え、幾何学変換が再サンプリング中にスパースポイントを分解するので、スパース深さのモジュラリティはさらに小さくなっている。
そこで本稿では,教師なし深度補完のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を逆転、あるいは「非」入力し、深度マップを元の参照フレームに戻すことで達成される。
これにより、元の画像とスパース深度マップを用いて復元損失を計算し、拡張された入力に対するナイーブ損失計算の落とし穴をなくすことができる。
このシンプルで効果的な戦略により、パフォーマンスを高めるために拡張をスケールアップできます。
室内(VOID)と屋外(KITTI)のデータセットに対して,各データセットの平均10.4\%で既存の3つの手法を改善した手法を実証した。 Unsupervised depth completion methods are trained by minimizing sparse depth and image reconstruction error. Block artifacts from resampling, intensity saturation, and occlusions are amongst the many undesirable by-products of common data augmentation schemes that affect image reconstruction quality, and thus the training signal. Hence, typical augmentations on images that are viewed as essential to training pipelines in other vision tasks have seen limited use beyond small image intensity changes and flipping. The sparse depth modality have seen even less as intensity transformations alter the scale of the 3D scene, and geometric transformations may decimate the sparse points during resampling. We propose a method that unlocks a wide range of previously-infeasible geometric augmentations for unsupervised depth completion. This is achieved by reversing, or "undo"-ing, geometric transformations to the coordinates of the output depth, warping the depth map back to the original reference frame. This enables computing the reconstruction losses using the original images and sparse depth maps, eliminating the pitfalls of naive loss computation on the augmented inputs. This simple yet effective strategy allows us to scale up augmentations to boost performance. We demonstrate our method on indoor (VOID) and outdoor (KITTI) datasets where we improve upon three existing methods by an average of 10.4\% across both datasets. | 翻訳日:2023-10-17 18:29:18 公開日:2023-10-15 |
# インドネシア財務NLPのためのドメイン特化言語モデルポストトライニング Domain-Specific Language Model Post-Training for Indonesian Financial NLP ( http://arxiv.org/abs/2310.09736v1 ) ライセンス: Link先を確認 | Ni Putu Intan Maharani, Yoga Yustiawan, Fauzy Caesar Rochim, Ayu Purwarianti | (参考訳) BERTとIndoBERTは、いくつかのNLPタスクで素晴らしいパフォーマンスを達成した。
専門分野、特に英語への適応についていくつかの調査がなされている。
我々は,インドネシアの金融分野とインドネシア語に注目し,インドネシアの金融コーパスを小規模に活用して,金融分野の事前訓練を行う。
本稿では、インドネシアの自己監督型金融コーパス、インドネシアの金融感情分析データセット、インドネシアの金融トピック分類データセットを構築し、財務NLPのためのBERTモデルのファミリーをリリースする。
また,感情分析と話題分類タスクにおけるドメイン特化後学習の有効性も評価した。
本研究は,ドメイン固有の下流タスクに微調整することで,言語モデルの有効性が向上することを示す。 BERT and IndoBERT have achieved impressive performance in several NLP tasks. There has been several investigation on its adaption in specialized domains especially for English language. We focus on financial domain and Indonesian language, where we perform post-training on pre-trained IndoBERT for financial domain using a small scale of Indonesian financial corpus. In this paper, we construct an Indonesian self-supervised financial corpus, Indonesian financial sentiment analysis dataset, Indonesian financial topic classification dataset, and release a family of BERT models for financial NLP. We also evaluate the effectiveness of domain-specific post-training on sentiment analysis and topic classification tasks. Our findings indicate that the post-training increases the effectiveness of a language model when it is fine-tuned to domain-specific downstream tasks. | 翻訳日:2023-10-17 18:28:52 公開日:2023-10-15 |
# セル変位と温度変化によるQCAインバータの挙動 Behaviors of QCA Inverter due to Cell Displacement and Temperature Variation ( http://arxiv.org/abs/2310.09734v1 ) ライセンス: Link先を確認 | Angshuman Khan, Surajit Sur, Chiradeep Mukherjee, Aninda Sankar Sukla, Ratna Chakrabarty | (参考訳) 量子ドットセルオートマトン(quantum dot cellular automata, qca)はナノテクノロジー分野の新興分野である。
インバータはQCAの基本論理プリミティブである。
分子、半導体、磁性、および金属QCAは、量子セルの製造において主要な方法論である。
あらゆる種類のQCAは室温で作用するが、金属製のQCAは常温では適さない。
したがって、QCA回路では温度が重要な役割を果たす。
本稿では, 従来の2セルインバータと最近提案した3セル高偏極インバータにおける温度の影響について論じる。
QCA回路の分極とキンクエネルギーは、2つのセル間の距離の変化によって影響を受ける。
本報告では, セル変位によるQCAインバータの分極とキンクエネルギーの変動について述べる。
最後に, 従来の2セルインバータと最近提案した3セルインバータを比較した。
シミュレーションツールQCADesignerを用いたQCAの効果の検討 Quantum dot Cellular Automata (QCA) is the emerging area in the field of nanotechnology. Inverter is a fundamental logic primitive in QCA. Molecular, semiconductor, magnetic, and metallic QCA are main methodology in the fabrication of quantum cell. While all types of QCA work on room temperature, metallic one is not suitable in normal temperature. So temperature plays a significant role in QCA circuit. In this paper, the effect of temperature in two-cell conventional inverter and recently proposed three-cell high polarized inverter has been discussed. The polarization and Kink energy of QCA circuit is influenced due to the change of distance between two cells. This paper clearly mentioned the variation of polarization and kink energy of QCA inverter due to cell displacement. Finally this paper makes a comparison between the conventional two-cell inverter and recently proposed three-cell inverter. The simulation tool QCADesigner has been used to study the effects of QCA | 翻訳日:2023-10-17 18:28:41 公開日:2023-10-15 |
# fusesr: 効率的なマルチレゾリューション融合によるリアルタイムレンダリングのためのスーパーレゾリューション FuseSR: Super Resolution for Real-time Rendering through Efficient Multi-resolution Fusion ( http://arxiv.org/abs/2310.09726v1 ) ライセンス: Link先を確認 | Zhihua Zhong, Jingsen Zhu, Yuxin Dai, Chuankun Zheng, Yuchi Huo, Guanlin Chen, Hujun Bao, Rui Wang | (参考訳) リアルタイムレンダリングの作業負荷は、高解像度、高リフレッシュレート、高リアリズムの需要が増加し、ほとんどのグラフィックカードが圧倒的に増加している。
この問題を軽減するために、最も一般的な解決策の1つは、低解像度で画像をレンダリングし、レンダリングオーバーヘッドを低減し、低解像度のレンダリング画像をターゲットの解像度に正確にサンプリングすることである。
既存の手法のほとんどは、ヒストリカルフレームなどの低解像度入力からの情報を活用することに焦点を当てている。
これらのLR入力に高周波の詳細がないため、高分解能予測の細部を復元することは困難である。
本稿では,低コストの高分解能補助Gバッファを付加入力として利用し,高品質なアップサンプル再構成を予測できる効率的な高分解能超解法を提案する。
LR画像とHR Gバッファを入力として、ネットワークはマルチ解像度レベルで機能を調整および融合する必要がある。
本稿では,効率よく効率的なH-Netアーキテクチャを導入し,性能劣化を伴わずにレンダリングオーバーヘッドを大幅に削減する。
4 \times 4$,さらには8 \times 8$upsamplingケースを4k解像度でリアルタイムに構築し,品質を大幅に向上し,性能向上を実現している。 The workload of real-time rendering is steeply increasing as the demand for high resolution, high refresh rates, and high realism rises, overwhelming most graphics cards. To mitigate this problem, one of the most popular solutions is to render images at a low resolution to reduce rendering overhead, and then manage to accurately upsample the low-resolution rendered image to the target resolution, a.k.a. super-resolution techniques. Most existing methods focus on exploiting information from low-resolution inputs, such as historical frames. The absence of high frequency details in those LR inputs makes them hard to recover fine details in their high-resolution predictions. In this paper, we propose an efficient and effective super-resolution method that predicts high-quality upsampled reconstructions utilizing low-cost high-resolution auxiliary G-Buffers as additional input. With LR images and HR G-buffers as input, the network requires to align and fuse features at multi resolution levels. We introduce an efficient and effective H-Net architecture to solve this problem and significantly reduce rendering overhead without noticeable quality deterioration. Experiments show that our method is able to produce temporally consistent reconstructions in $4 \times 4$ and even challenging $8 \times 8$ upsampling cases at 4K resolution with real-time performance, with substantially improved quality and significant performance boost compared to existing works. | 翻訳日:2023-10-17 18:28:29 公開日:2023-10-15 |
# KGQUIZ:大規模言語モデルにおける符号化知識の一般化の評価 KGQUIZ: Evaluating the Generalization of Encoded Knowledge in Large Language Models ( http://arxiv.org/abs/2310.09725v1 ) ライセンス: Link先を確認 | Yuyang Bai, Shangbin Feng, Vidhisha Balachandran, Zhaoxuan Tan, Shiqi Lou, Tianxing He, Yulia Tsvetkov | (参考訳) 大規模言語モデル(llm)は知識集約型タスクにおいて顕著な性能を示し、実世界の知識がモデルパラメータにエンコードされていることを示唆する。
しかし、限られた知識領域におけるいくつかの探索課題の他に、LLMの知識を体系的に評価する方法や、その知識能力がいかに一般化するかは、知識領域や徐々に複雑化するタスク形式でよく理解されていない。
そこで本研究では,LLMの知識一般化能力を総合的に研究するための知識集約型ベンチマークKGQuizを提案する。
KGQuizは3つの知識ドメインをカバーするスケーラブルなフレームワークで、複雑さを増す5つのタスクで構成されている。
我々は,LLMの知識能力とその一般化をより深く理解するために,KGQuizベンチマークを用いて,5つの知識集約タスクと知識領域の10個のオープンソースおよびブラックボックスLSMを評価した。
大規模な実験では、LLMは簡単な知識のQAタスクにおいて印象的なパフォーマンスを達成する一方で、より複雑な推論やドメイン固有の事実の活用を必要とする設定やコンテキストは依然として重大な課題を呈している。
kgquizをテストベッドとして、ドメインとタスクフォーマット間のパフォーマンスの微妙な変動を分析し、最終的には幅広い知識ドメインとタスクにわたってllmsの知識能力を理解し、評価し、改善することを想定した。 Large language models (LLMs) demonstrate remarkable performance on knowledge-intensive tasks, suggesting that real-world knowledge is encoded in their model parameters. However, besides explorations on a few probing tasks in limited knowledge domains, it is not well understood how to evaluate LLMs' knowledge systematically and how well their knowledge abilities generalize, across a spectrum of knowledge domains and progressively complex task formats. To this end, we propose KGQuiz, a knowledge-intensive benchmark to comprehensively investigate the knowledge generalization abilities of LLMs. KGQuiz is a scalable framework constructed from triplet-based knowledge, which covers three knowledge domains and consists of five tasks with increasing complexity: true-or-false, multiple-choice QA, blank filling, factual editing, and open-ended knowledge generation. To gain a better understanding of LLMs' knowledge abilities and their generalization, we evaluate 10 open-source and black-box LLMs on the KGQuiz benchmark across the five knowledge-intensive tasks and knowledge domains. Extensive experiments demonstrate that LLMs achieve impressive performance in straightforward knowledge QA tasks, while settings and contexts requiring more complex reasoning or employing domain-specific facts still present significant challenges. We envision KGQuiz as a testbed to analyze such nuanced variations in performance across domains and task formats, and ultimately to understand, evaluate, and improve LLMs' knowledge abilities across a wide spectrum of knowledge domains and tasks. | 翻訳日:2023-10-17 18:27:57 公開日:2023-10-15 |
# DropMix: よりハードな負のサンプルによるグラフコントラスト学習 DropMix: Better Graph Contrastive Learning with Harder Negative Samples ( http://arxiv.org/abs/2310.09764v1 ) ライセンス: Link先を確認 | Yueqi Ma, Minjie Chen, Xiang Li | (参考訳) CV と NLP の分野では, 比較学習のためのより良い負のサンプルが広く研究されているが, グラフ構造化データに注目する研究はほとんどない。
近年,グラフコントラスト学習 (GCL) において, 強陰性サンプルを合成するためにMixupが導入されている。
しかし、GCLの教師なし学習の性質のため、ソフトラベルを使わずに、サンプルの直接混合は、元のハードネガティブの情報損失を必然的に招き、新たに生成されたハードネガティブの品質に悪影響を及ぼす可能性がある。
この問題に対処するため,本論文では2つの主要なステップからなる難解なサンプルを合成する新しいdropmix法を提案する。
具体的には、まず、グラフのローカルビューとグローバルビューの両方から、そのハードネスを同時に測定することで、いくつかのハードネガティブなサンプルを選択します。
その後、部分表現次元のみにハードネガティブを混合し、より難しいものを生成し、ミックスアップによる情報損失を減らす。
我々は6つのベンチマークデータセット上でdropmixの有効性を検証するために広範な実験を行う。
その結果,本手法がGCLの性能向上につながることが示された。
私たちのデータとコードはhttps://github.com/Mayueq/DropMix-Code.comで公開されています。 While generating better negative samples for contrastive learning has been widely studied in the areas of CV and NLP, very few work has focused on graph-structured data. Recently, Mixup has been introduced to synthesize hard negative samples in graph contrastive learning (GCL). However, due to the unsupervised learning nature of GCL, without the help of soft labels, directly mixing representations of samples could inadvertently lead to the information loss of the original hard negative and further adversely affect the quality of the newly generated harder negative. To address the problem, in this paper, we propose a novel method DropMix to synthesize harder negative samples, which consists of two main steps. Specifically, we first select some hard negative samples by measuring their hardness from both local and global views in the graph simultaneously. After that, we mix hard negatives only on partial representation dimensions to generate harder ones and decrease the information loss caused by Mixup. We conduct extensive experiments to verify the effectiveness of DropMix on six benchmark datasets. Our results show that our method can lead to better GCL performance. Our data and codes are publicly available at https://github.com/Mayueq/DropMix-Code. | 翻訳日:2023-10-17 18:23:08 公開日:2023-10-15 |
# 直交オプティマイザを用いた言語モデルの混合表現の多様化 Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer ( http://arxiv.org/abs/2310.09762v1 ) ライセンス: Link先を確認 | Boan Liu, Liang Ding, Li Shen, Keqin Peng, Yu Cao, Dazhao Cheng, Dacheng Tao | (参考訳) 専門家の混合(moe)は、大きな計算コストを伴わずにモデルの容量を最大化するための分割・結合の原則に基づいて、ディープラーニングにおいて非常に成功したテクニックとして出現した。
大規模言語モデル (LLMs) の時代においても、GPT-4 が様々な推論結果を保証するために MoE 構造を採用することを一部の研究者が示しているように、MoE は依然として重要な役割を担っている。
しかし、MoEは、特に専門家間の不均衡と均質表現の問題において、パフォーマンスの縮退に影響を受けやすい。
以前の研究は不均衡の問題に広く取り組んだが、均質表現の課題は未解決のままである。
本研究では,同種表現問題に光を当て,MoEの専門家が多様性の専門化と欠如に失敗し,表現に非常に近い類似性(MoEモデルでは最大99%)が得られた。
この問題はMoEの表現力を制限するものであり、我々はその本来の意図と矛盾していると主張する。
この問題に取り組むため,我々は直交専門家オプティマイザであるomoeを提案する。
さらに,各専門家に対して,他の専門家が分散した部分空間に直交する方向の更新を奨励する交互トレーニング戦略を導入する。
第一に,表現の多様性を明示的に高め,第二に,直交重み計算における専門家間のインタラクションを暗黙的に促進する。
広範にわたる実験により,提案アルゴリズムは,GLUEベンチマーク,SuperGLUEベンチマーク,質問応答タスク,名称エンティティ認識タスクにおいて,MoEモデルを微調整する性能を大幅に向上することを示した。 The Mixture of Experts (MoE) has emerged as a highly successful technique in deep learning, based on the principle of divide-and-conquer to maximize model capacity without significant additional computational cost. Even in the era of large-scale language models (LLMs), MoE continues to play a crucial role, as some researchers have indicated that GPT-4 adopts the MoE structure to ensure diverse inference results. However, MoE is susceptible to performance degeneracy, particularly evident in the issues of imbalance and homogeneous representation among experts. While previous studies have extensively addressed the problem of imbalance, the challenge of homogeneous representation remains unresolved. In this study, we shed light on the homogeneous representation problem, wherein experts in the MoE fail to specialize and lack diversity, leading to frustratingly high similarities in their representations (up to 99% in a well-performed MoE model). This problem restricts the expressive power of the MoE and, we argue, contradicts its original intention. To tackle this issue, we propose a straightforward yet highly effective solution: OMoE, an orthogonal expert optimizer. Additionally, we introduce an alternating training strategy that encourages each expert to update in a direction orthogonal to the subspace spanned by other experts. Our algorithm facilitates MoE training in two key ways: firstly, it explicitly enhances representation diversity, and secondly, it implicitly fosters interaction between experts during orthogonal weights computation. Through extensive experiments, we demonstrate that our proposed optimization algorithm significantly improves the performance of fine-tuning the MoE model on the GLUE benchmark, SuperGLUE benchmark, question-answering task, and name entity recognition tasks. | 翻訳日:2023-10-17 18:22:47 公開日:2023-10-15 |
# CAPro: クロスモダリティ指向プロトタイプによるWeb監視型学習 CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes ( http://arxiv.org/abs/2310.09761v1 ) ライセンス: Link先を確認 | Yulei Qin, Xingyu Chen, Yunhang Shen, Chaoyou Fu, Yun Gu, Ke Li, Xing Sun, Rongrong Ji | (参考訳) ウェブ教師あり学習は、手動のアノテーションなしで大規模に公開アクセス可能なデータを探索する上で、その効果に注目が集まっている。
しかしながら、既存のwebデータセットを用いた学習方法はラベルノイズの課題に直面しており、様々なノイズ下でクリーンサンプルの仮定は限られている。
例えば、トラ猫(猫の種)とドラムスティック(楽器)のクェリで検索されたウェブ画像は、ほとんどトラや鶏の画像によって支配されており、よりきめ細かい視覚概念学習の課題が悪化している。
この場合、webイメージとその関連テキストの両方を利用するのは、現実世界のノイズと戦うための必要な解決策です。
本稿では,視覚表現を正しく学習するための統一型比較学習フレームワークであるcross-modality aligned prototypes (capro)を提案する。
例えば、クラスの概念定義から派生したテキストプロトタイプを利用して、テキストマッチングによってクリーンなイメージを選択することで、ビジュアルプロトタイプの形成を曖昧にする。
もうひとつは、欠落したノイズのあるテキストを扱うために、視覚的特徴空間を利用して個々のテキストを補完し、拡張し、その後、テキストマッチングを改善します。
このような意味的に整合した視覚プロトタイプは、高品質なサンプルによってさらに洗練され、クラスタの正規化とノイズ除去の両方に携わる。
さらに,外見類似事例からのよりスムーズで賢明なラベル参照を辞書検索の方法で促進するブートストラップを提案する。
WebVision1k と NUS-WIDE (Web) に関する大規模な実験は、CAPro がシングルラベルとマルチラベルの両方のシナリオで現実的なノイズをうまく処理していることを示している。
CAProは新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
コードはhttps://github.com/yuleiqin/caproで入手できる。 Webly supervised learning has attracted increasing attention for its effectiveness in exploring publicly accessible data at scale without manual annotation. However, most existing methods of learning with web datasets are faced with challenges from label noise, and they have limited assumptions on clean samples under various noise. For instance, web images retrieved with queries of tiger cat (a cat species) and drumstick (a musical instrument) are almost dominated by images of tigers and chickens, which exacerbates the challenge of fine-grained visual concept learning. In this case, exploiting both web images and their associated texts is a requisite solution to combat real-world noise. In this paper, we propose Cross-modality Aligned Prototypes (CAPro), a unified prototypical contrastive learning framework to learn visual representations with correct semantics. For one thing, we leverage textual prototypes, which stem from the distinct concept definition of classes, to select clean images by text matching and thus disambiguate the formation of visual prototypes. For another, to handle missing and mismatched noisy texts, we resort to the visual feature space to complete and enhance individual texts and thereafter improve text matching. Such semantically aligned visual prototypes are further polished up with high-quality samples, and engaged in both cluster regularization and noise removal. Besides, we propose collective bootstrapping to encourage smoother and wiser label reference from appearance-similar instances in a manner of dictionary look-up. Extensive experiments on WebVision1k and NUS-WIDE (Web) demonstrate that CAPro well handles realistic noise under both single-label and multi-label scenarios. CAPro achieves new state-of-the-art performance and exhibits robustness to open-set recognition. Codes are available at https://github.com/yuleiqin/capro. | 翻訳日:2023-10-17 18:22:11 公開日:2023-10-15 |
# 災害管理のためのプロトタイプ指向教師なし変更検出 Prototype-oriented Unsupervised Change Detection for Disaster Management ( http://arxiv.org/abs/2310.09759v1 ) ライセンス: Link先を確認 | Youngtack Oh, Minseok Seo, Doyi Ki, Junghoon Seo | (参考訳) 気候変動は洪水やサイクロンのような自然災害の頻度を増加させた。
これは効果的な災害監視の重要性を強調している。
これに対し、リモートセンシングコミュニティは変更検出方法を模索している。
これらの手法は主に教師あり技術に分類され、正確な結果を得るが、高いラベル付けコストが伴い、教師なし技術はラベル付けの必要をなくすが、複雑なハイパーパラメータチューニングが伴う。
そこで本研究では,災害管理のための非教師なし変更検出手法であるprototype-oriented unsupervised change detection for disaster managementを提案する。
PUCDは、基本モデルを介して、プレイベント、ポストイベント、プロトタイプ指向の変更合成画像の特徴を比較することで変化を捉え、Segment Anything Model (SAM)を使用して結果を洗練する。
PUCDは教師なしの変更検出であるが、複雑なハイパーパラメータチューニングを必要としない。
我々は, LEVIR-Extensionデータセットと災害データセットのPUCDフレームワークを評価し, LEVIR-Extensionデータセットの他の手法と比較して最先端の性能を実現する。 Climate change has led to an increased frequency of natural disasters such as floods and cyclones. This emphasizes the importance of effective disaster monitoring. In response, the remote sensing community has explored change detection methods. These methods are primarily categorized into supervised techniques, which yield precise results but come with high labeling costs, and unsupervised techniques, which eliminate the need for labeling but involve intricate hyperparameter tuning. To address these challenges, we propose a novel unsupervised change detection method named Prototype-oriented Unsupervised Change Detection for Disaster Management (PUCD). PUCD captures changes by comparing features from pre-event, post-event, and prototype-oriented change synthesis images via a foundational model, and refines results using the Segment Anything Model (SAM). Although PUCD is an unsupervised change detection, it does not require complex hyperparameter tuning. We evaluate PUCD framework on the LEVIR-Extension dataset and the disaster dataset and it achieves state-of-the-art performance compared to other methods on the LEVIR-Extension dataset. | 翻訳日:2023-10-17 18:21:19 公開日:2023-10-15 |
# MoEmo Vision Transformer:HRI感情検出のための3次元姿勢推定におけるクロスアテンションと運動ベクトルの統合 MoEmo Vision Transformer: Integrating Cross-Attention and Movement Vectors in 3D Pose Estimation for HRI Emotion Detection ( http://arxiv.org/abs/2310.09757v1 ) ライセンス: Link先を確認 | David C. Jeong, Tianma Shen, Hongji Liu, Raghav Kapoor, Casey Nguyen, Song Liu, Christopher A. Kitts | (参考訳) 感情検出は知的人間ロボット相互作用(HRI)に課題をもたらす。
感情検出に使用される基礎的なディープラーニング技術は、異なる文脈における人間の感情の分散など、入力データ要素間の相互作用を学ぶために必要な複雑さを欠いた情報制約データセットやモデルによって制限される。
現在の取り組みで紹介する
1)多様な文脈における3次元ポーズ推定に基づくロボットシステムにおける人間の感情検出のためのクロス・アテンション・ビジョントランスフォーマ(vit)moemo(motion to emotion)
2)人間のジェスチャーや環境状況に基づいて,人間の動きと対応する感情ラベルの全身映像を提供するデータセット。
既存の手法と比較して, ジェスチャーの動作ベクトルと環境コンテキストとの微妙な接続を, 全身ジェスチャの抽出された動きベクトルと環境コンテキストの特徴マップにクロスタッチすることにより効果的に活用する。
我々は,移動ベクトルと環境コンテキストを結合表現に組み合わせ,感情推定を導出するクロスアテンション融合モデルを実装した。
自然運動データベースを活用することで、MoEmoシステムをトレーニングし、動きとコンテキストを共同で分析し、現在の最先端よりも優れた感情を検出する。 Emotion detection presents challenges to intelligent human-robot interaction (HRI). Foundational deep learning techniques used in emotion detection are limited by information-constrained datasets or models that lack the necessary complexity to learn interactions between input data elements, such as the the variance of human emotions across different contexts. In the current effort, we introduce 1) MoEmo (Motion to Emotion), a cross-attention vision transformer (ViT) for human emotion detection within robotics systems based on 3D human pose estimations across various contexts, and 2) a data set that offers full-body videos of human movement and corresponding emotion labels based on human gestures and environmental contexts. Compared to existing approaches, our method effectively leverages the subtle connections between movement vectors of gestures and environmental contexts through the use of cross-attention on the extracted movement vectors of full-body human gestures/poses and feature maps of environmental contexts. We implement a cross-attention fusion model to combine movement vectors and environment contexts into a joint representation to derive emotion estimation. Leveraging our Naturalistic Motion Database, we train the MoEmo system to jointly analyze motion and context, yielding emotion detection that outperforms the current state-of-the-art. | 翻訳日:2023-10-17 18:20:43 公開日:2023-10-15 |
# アジアの顔認識タスクの新しいベンチマーク:大規模基礎モデルによる顔分類 New Benchmarks for Asian Facial Recognition Tasks: Face Classification with Large Foundation Models ( http://arxiv.org/abs/2310.09756v1 ) ライセンス: Link先を確認 | Jinwoo Seo, Soora Choi, Eungyeom Ha, Beomjune Kim, Dongbin Na | (参考訳) 顔分類システムは、個人識別を適切に認識するための重要なツールである。
本稿では,KoInという韓国の大規模インフルエンサーデータセットを紹介する。
提案データセットには、舞台照明、バックアップダンサー、背景オブジェクトを含む様々な環境で、韓国の有名人の現実の写真が多数含まれています。
これらの画像はk-インフルエンサーを分類する分類モデルの訓練に有用である。
提案データセットのほとんどの画像は、Instagramのようなソーシャルネットワークサービス(SNS)から収集されている。
本誌のデータセットKoInには、100あまりの韓国の有名人の写真10万枚が載っている。
さらに当社のデータセットでは,マスクや帽子を備えた人間の顔を含む画像など,追加のハードケースサンプルも提供しています。
ハードケースサンプルは分類システムのロバスト性を評価するのに非常に有用である。
提案したデータセットの有効性を検証するために,様々な分類モデルを用いた実験を幅広く行った。
具体的には、最近のSOTA(State-of-the-art)基盤アーキテクチャは、提案したデータセットでトレーニングした場合、適切な分類性能を示す。
本稿では,提案するデータセットKoInの通常事例に基礎モデルを微調整した場合の大規模基盤モデルのハードケースサンプルに対するロバスト性性能を解析する。
提示されたデータセットとコードはhttps://github.com/dukong1/KoIn_Benchmark_Dataset.comで公開されます。 The face classification system is an important tool for recognizing personal identity properly. This paper introduces a new Large-Scale Korean Influencer Dataset named KoIn. Our presented dataset contains many real-world photos of Korean celebrities in various environments that might contain stage lighting, backup dancers, and background objects. These various images can be useful for training classification models classifying K-influencers. Most of the images in our proposed dataset have been collected from social network services (SNS) such as Instagram. Our dataset, KoIn, contains over 100,000 K-influencer photos from over 100 Korean celebrity classes. Moreover, our dataset provides additional hard case samples such as images including human faces with masks and hats. We note that the hard case samples are greatly useful in evaluating the robustness of the classification systems. We have extensively conducted several experiments utilizing various classification models to validate the effectiveness of our proposed dataset. Specifically, we demonstrate that recent state-of-the-art (SOTA) foundation architectures show decent classification performance when trained on our proposed dataset. In this paper, we also analyze the robustness performance against hard case samples of large-scale foundation models when we fine-tune the foundation models on the normal cases of the proposed dataset, KoIn. Our presented dataset and codes will be publicly available at https://github.com/dukong1/KoIn_Benchmark_Dataset. | 翻訳日:2023-10-17 18:20:16 公開日:2023-10-15 |
# セグメンテーションを超えて:マルチモーダルLCMを用いた道路ネットワーク生成 Beyond Segmentation: Road Network Generation with Multi-Modal LLMs ( http://arxiv.org/abs/2310.09755v1 ) ライセンス: Link先を確認 | Sumedh Rasal and Sanjay Kumar Boddhu | (参考訳) 本稿では,マルチモーダル大規模言語モデル (LLM) を利用した道路網構築の革新的アプローチを提案する。
本モデルは,道路レイアウトの航空画像の処理と,入力画像内の詳細な道路網の作成を目的としている。
システムの中核的なイノベーションは,大規模言語モデルがアウトプットとして道路ネットワークを生成するために採用する,ユニークなトレーニング手法にあります。
このアプローチは BLIP-2 アーキテクチャ arXiv:2301.12597 からインスピレーションを得て,事前学習した凍結画像エンコーダと大規模言語モデルを活用し,多目的なマルチモーダル LLM を作成する。
我々の研究は、LISA論文arXiv:2308.00692に提案されている推論セグメンテーション手法の代替も提供する。
LISA論文 arXiv:2308.00692 で提案されているように,我々のアプローチで大規模言語モデルを訓練することにより,バイナリセグメンテーションマスクの生成の必要性を効果的に排除する。
実験結果は,マルチモーダルllmによるナビゲーション指導の有効性を裏付けるものである。
この研究は、自動運転ナビゲーションシステム、特に正確な誘導が最重要である道路ネットワークシナリオの強化において重要な進歩を示している。 This paper introduces an innovative approach to road network generation through the utilization of a multi-modal Large Language Model (LLM). Our model is specifically designed to process aerial images of road layouts and produce detailed, navigable road networks within the input images. The core innovation of our system lies in the unique training methodology employed for the large language model to generate road networks as its output. This approach draws inspiration from the BLIP-2 architecture arXiv:2301.12597, leveraging pre-trained frozen image encoders and large language models to create a versatile multi-modal LLM. Our work also offers an alternative to the reasoning segmentation method proposed in the LISA paper arXiv:2308.00692. By training the large language model with our approach, the necessity for generating binary segmentation masks, as suggested in the LISA paper arXiv:2308.00692, is effectively eliminated. Experimental results underscore the efficacy of our multi-modal LLM in providing precise and valuable navigational guidance. This research represents a significant stride in bolstering autonomous navigation systems, especially in road network scenarios, where accurate guidance is of paramount importance. | 翻訳日:2023-10-17 18:19:36 公開日:2023-10-15 |
# EX-FEVER:マルチホップ説明可能なファクト検証のためのデータセット EX-FEVER: A Dataset for Multi-hop Explainable Fact Verification ( http://arxiv.org/abs/2310.09754v1 ) ライセンス: Link先を確認 | Huanhuan Ma and Weizhi Xu and Yifan Wei and Liuji Chen and Liang Wang and Qiang Liu and Shu Wu and Liang Wang | (参考訳) 事実検証は、複数の証拠に基づいてクレームの妥当性を自動的に調査することを目的としている。
既存の作業は常に正確性の向上に関わっており、説明可能性や事実検証システムの重要な能力は言うまでもない。
複雑なマルチホップシナリオにおける説明可能な事実検証システムの構築は、関連する高品質データセットの欠如によって一貫して妨げられる。
以前のデータセットは、過剰な単純化に悩まされたり、説明可能性に不可欠な考慮事項を組み込まなかったりする。
そこで我々は,マルチホップで説明可能な事実検証のための先駆的データセットEX-FEVERを提案する。
2-hopと3-hopの推論を含む6万以上の主張があり、それぞれがハイパーリンクされたwikipedia文書からの情報を要約し、修正することで作成される。
各インスタンスにはveracityラベルと、veracity分類をサポートする推論パスを概説する説明が添付されている。
さらに,EX-FEVERデータセットに新たなベースラインシステムを導入し,文書検索,説明生成,クレーム検証を行い,過去のデータセットでトレーニングされた既存の事実検証モデルがデータセットの性能向上に苦慮していることを確認する。
さらに,事実検証タスクにおいて,大規模言語モデルを活用する可能性を強調した。
私たちのデータセットは、事実検証の領域における自然言語の説明の統合を探求する十分な機会を提供することで、大きな貢献を期待しています。 Fact verification aims to automatically probe the veracity of a claim based on several pieces of evidence. Existing works are always engaging in the accuracy improvement, let alone the explainability, a critical capability of fact verification system. Constructing an explainable fact verification system in a complex multi-hop scenario is consistently impeded by the absence of a relevant high-quality dataset. Previous dataset either suffer from excessive simplification or fail to incorporate essential considerations for explainability. To address this, we present EX-FEVER, a pioneering dataset for multi-hop explainable fact verification. With over 60,000 claims involving 2-hop and 3-hop reasoning, each is created by summarizing and modifying information from hyperlinked Wikipedia documents. Each instance is accompanied by a veracity label and an explanation that outlines the reasoning path supporting the veracity classification. Additionally, we demonstrate a novel baseline system on our EX-FEVER dataset, showcasing document retrieval, explanation generation, and claim verification and observe that existing fact verification models trained on previous datasets struggle to perform well on our dataset. Furthermore, we highlight the potential of utilizing Large Language Models in the fact verification task. We hope our dataset could make a significant contribution by providing ample opportunities to explore the integration of natural language explanations in the domain of fact verification. | 翻訳日:2023-10-17 18:19:16 公開日:2023-10-15 |
# トランスフォーマーはいつ抽象記号で推論できるのか? When can transformers reason with abstract symbols? ( http://arxiv.org/abs/2310.09753v1 ) ライセンス: Link先を確認 | Enric Boix-Adsera and Omid Saremi and Emmanuel Abbe and Samy Bengio and Etai Littwin and Joshua Susskind | (参考訳) 抽象記号を含む関係推論タスクにおけるトランスフォーマティブ大言語モデル(llms)の機能について検討する。
このようなタスクは、プログラミング、数学、言語推論におけるより複雑な能力の基本的な構成要素として、神経科学の文献で長い間研究されてきた。
のために
(i)回帰タスクでは,トランスフォーマはトレーニング時に一般化するが,驚くほど大量のトレーニングデータを必要とすることが証明される。
のために
(ii) シンボリックラベル付き次の予測タスクでは、トランスフォーマは埋め込み次元が増加するにつれて一般化しない「逆スケーリング則」を示す。
両方の設定
(i)および
(II) 頭部に2つのトレーニング可能なパラメータを加えることで、必要なデータ量を削減できる微妙なトランスフォーマー修正を提案する。 We investigate the capabilities of transformer large language models (LLMs) on relational reasoning tasks involving abstract symbols. Such tasks have long been studied in the neuroscience literature as fundamental building blocks for more complex abilities in programming, mathematics, and verbal reasoning. For (i) regression tasks, we prove that transformers generalize when trained, but require astonishingly large quantities of training data. For (ii) next-token-prediction tasks with symbolic labels, we show an "inverse scaling law": transformers fail to generalize as their embedding dimension increases. For both settings (i) and (ii), we propose subtle transformer modifications which can reduce the amount of data needed by adding two trainable parameters per head. | 翻訳日:2023-10-17 18:18:56 公開日:2023-10-15 |
# 時間グラフネットワークにおける新しいノードの動的リンク予測 Dynamic Link Prediction for New Nodes in Temporal Graph Networks ( http://arxiv.org/abs/2310.09787v1 ) ライセンス: Link先を確認 | Xiaobo Zhu, Yan Wu, Qinhu Zhang, Zhanheng Chen, Ying He | (参考訳) 新しいノードの動的リンク予測のための時間的ネットワークのモデリングには、レコメンデーションシステムで新しい顧客に関連するアイテムレコメンデーションを提供し、ソーシャルプラットフォーム上の新しいユーザーに対して適切な投稿を提案するなど、多くの現実世界のアプリケーションがある。
古いノードとは異なり、新しいノードには履歴リンクがほとんどなく、動的リンク予測タスクの課題となる。
ほとんどの既存の動的モデルは全てのノードを等しく扱い、新しいノードに特化していない。
本稿では,新しいノードの動的リンク予測を数ショット問題とみなし,メタラーニング原理に基づく新しいモデルを提案し,この問題を効果的に軽減する。
具体的には、ノードレベルのスパンメモリを持つ時間エンコーダを開発し、新しいノード埋め込みを取得し、予測器を用いて、新しいノードがリンクを生成するかどうかを判断する。
この課題を克服するために、エンコーダ予測器をメタラーニングパラダイムに組み込み、スパン適応とノード適応によって時間ネットワークの形成中に2種類の暗黙情報を学ぶことができる。
獲得された暗黙的情報はモデル初期化として機能し、ほんの数リンクの微調整プロセスを通じて新しいノードへの迅速な適応を促進する。
3つの公開データセットの実験は、既存の最先端手法と比較して、我々のモデルの優れた性能を示している。 Modelling temporal networks for dynamic link prediction of new nodes has many real-world applications, such as providing relevant item recommendations to new customers in recommender systems and suggesting appropriate posts to new users on social platforms. Unlike old nodes, new nodes have few historical links, which poses a challenge for the dynamic link prediction task. Most existing dynamic models treat all nodes equally and are not specialized for new nodes, resulting in suboptimal performances. In this paper, we consider dynamic link prediction of new nodes as a few-shot problem and propose a novel model based on the meta-learning principle to effectively mitigate this problem. Specifically, we develop a temporal encoder with a node-level span memory to obtain a new node embedding, and then we use a predictor to determine whether the new node generates a link. To overcome the few-shot challenge, we incorporate the encoder-predictor into the meta-learning paradigm, which can learn two types of implicit information during the formation of the temporal network through span adaptation and node adaptation. The acquired implicit information can serve as model initialisation and facilitate rapid adaptation to new nodes through a fine-tuning process on just a few links. Experiments on three publicly available datasets demonstrate the superior performance of our model compared to existing state-of-the-art methods. | 翻訳日:2023-10-17 18:10:57 公開日:2023-10-15 |
# 知識グラフ埋め込みのための適応型Denoising Mixupによるネガティブサンプリング Negative Sampling with Adaptive Denoising Mixup for Knowledge Graph Embedding ( http://arxiv.org/abs/2310.09781v1 ) ライセンス: Link先を確認 | Xiangnan Chen, Wen Zhang, Zhen Yao, Mingyang Chen, Siliang Tang | (参考訳) 知識グラフ埋め込み(KGE)は、知識グラフ(KG)の実体と関係を、正の三重項と負の三重項を対比して、低次元で密度のベクトル空間にマッピングすることを目的としている。
kgesのトレーニングプロセスでは、負のサンプリングは高品質の負のトリプルを見つけるのに不可欠である。
既存の負サンプリング法の多くは、高いスコアを持つ存在しない三重項が高品質な負三重項であると仮定する。
しかし、これらの方法でサンプリングされた負の三重項はノイズを含む可能性が高い。
具体的には、高いスコアを持つ存在しない三重項は、通常偽負三重項と呼ばれるKGの不完全性のため、真の事実であるかもしれないことを無視する。
上記の問題を緩和するために,サンプル負三重項を自己監督的に精製することで高品質な三重項を生成する,DeMixと呼ばれる容易にプラグ可能な混合法を提案する。
標本化された未ラベルの三重項が与えられたとき、デミックスはまず、KGEモデル自体の判断に基づいて、それを境界的な擬正三重項または負三重項に分類する。
第2に、電流三重項に対する適切な混合パートナーを選択し、部分的に正または強負の三重項を合成する。
知識グラフ補完タスクの実験結果から,提案したDeMixは他の負のサンプリング手法よりも優れており,対応するKGEがより高速に収束し,リンク予測精度が向上することが示された。 Knowledge graph embedding (KGE) aims to map entities and relations of a knowledge graph (KG) into a low-dimensional and dense vector space via contrasting the positive and negative triples. In the training process of KGEs, negative sampling is essential to find high-quality negative triples since KGs only contain positive triples. Most existing negative sampling methods assume that non-existent triples with high scores are high-quality negative triples. However, negative triples sampled by these methods are likely to contain noise. Specifically, they ignore that non-existent triples with high scores might also be true facts due to the incompleteness of KGs, which are usually called false negative triples. To alleviate the above issue, we propose an easily pluggable denoising mixup method called DeMix, which generates high-quality triples by refining sampled negative triples in a self-supervised manner. Given a sampled unlabeled triple, DeMix firstly classifies it into a marginal pseudo-negative triple or a negative triple based on the judgment of the KGE model itself. Secondly, it selects an appropriate mixup partner for the current triple to synthesize a partially positive or a harder negative triple. Experimental results on the knowledge graph completion task show that the proposed DeMix is superior to other negative sampling techniques, ensuring corresponding KGEs a faster convergence and better link prediction results. | 翻訳日:2023-10-17 18:10:35 公開日:2023-10-15 |
# 永続ホモロジーで抽出した特徴を用いた機械学習モデルへの説明可能なAI手法の適用性について Notes on Applicability of Explainable AI Methods to Machine Learning Models Using Features Extracted by Persistent Homology ( http://arxiv.org/abs/2310.09780v1 ) ライセンス: Link先を確認 | Naofumi Hama | (参考訳) トポロジカルデータ解析の出力を機械学習アルゴリズムの入力として利用するデータ解析は、広範な研究の対象となっている。
このアプローチは、データのグローバル構造をキャプチャする手段を提供する。
TDA分野における一般的な方法論である Persistent homology (PH) は、機械学習に広く応用されている。
PH-MLパイプラインの成功のおもな理由の1つは、PHを通して行われる特徴抽出の決定論的性質にある。比較的単純な下流機械学習モデルで十分な精度を達成する能力は、抽出された特徴を処理する際に、パイプラインの優れた解釈可能性の基盤となる。
しかし、この解釈が問題に遭遇したことに注意する必要がある。
具体的には、データ生成プロセスにおける実現可能なパラメータ領域と、このプロセスを制限する物理的または化学的制約を正確に反映することができない。
この背景から、このPH-MLパイプラインへの説明可能なAI方法論の適用の可能性を探る。
本手法は, 金属-有機系におけるガス吸着の予測問題に適用し, 提案的な結果が得られることを示す。
結果はhttps://github.com/naofumihama/xai_ph_mlで再生できます。 Data analysis that uses the output of topological data analysis as input for machine learning algorithms has been the subject of extensive research. This approach offers a means of capturing the global structure of data. Persistent homology (PH), a common methodology within the field of TDA, has found wide-ranging applications in machine learning. One of the key reasons for the success of the PH-ML pipeline lies in the deterministic nature of feature extraction conducted through PH. The ability to achieve satisfactory levels of accuracy with relatively simple downstream machine learning models, when processing these extracted features, underlines the pipeline's superior interpretability. However, it must be noted that this interpretation has encountered issues. Specifically, it fails to accurately reflect the feasible parameter region in the data generation process, and the physical or chemical constraints that restrict this process. Against this backdrop, we explore the potential application of explainable AI methodologies to this PH-ML pipeline. We apply this approach to the specific problem of predicting gas adsorption in metal-organic frameworks and demonstrate that it can yield suggestive results. The codes to reproduce our results are available at https://github.com/naofumihama/xai_ph_ml | 翻訳日:2023-10-17 18:10:11 公開日:2023-10-15 |
# CBARF:不完全なカメラケースからの束調整型ニューラルラジアンスフィールド CBARF: Cascaded Bundle-Adjusting Neural Radiance Fields from Imperfect Camera Poses ( http://arxiv.org/abs/2310.09776v1 ) ライセンス: Link先を確認 | Hongyu Fu, Xin Yu, Lincheng Li, and Li Zhang | (参考訳) ニューラル・ラジアンス・フィールド(Neural Radiance Fields, NeRF)のような既存のボリューム・ニューラルレンダリング技術は、入力画像のカメラポーズが不完全である場合に、高品質なノベルビューを合成する際の制限に直面している。
そこで我々は,CBARF(Cascaded Bundle-Adjusting NeRF)と呼ばれるカメラポーズの同時最適化を実現する新しい3D再構成フレームワークを提案する。
簡単に言えば、我々のフレームワークはカメラのポーズを粗い方法で最適化し、修正されたポーズに基づいてシーンを再構築する。
カメラポーズの初期化は,バンドル調整(BA)の性能に大きな影響を与えることが観察された。
したがって、複数のBAモジュールを異なるスケールでカスケードし、カメラのポーズを徐々に改善する。
一方,各段階においてbaの結果をさらに最適化する隣り合わせ戦略を考案する。
本稿では,推定精度の低いカメラポーズを効果的に識別するための新しい基準を提案する。
そして、それらを隣り合うカメラのポーズに置き換え、不正確なカメラポーズの影響をさらに排除します。
カメラのポーズが最適化されると、高画質の3D再構成シーンと画像を生成するために密度ボクセルグリッドが使用される。
実験結果から,CBARFモデルはポーズ最適化と新しいビュー合成の両方において,特に大きなカメラポーズノイズの存在下で,最先端の性能を実現することが示された。 Existing volumetric neural rendering techniques, such as Neural Radiance Fields (NeRF), face limitations in synthesizing high-quality novel views when the camera poses of input images are imperfect. To address this issue, we propose a novel 3D reconstruction framework that enables simultaneous optimization of camera poses, dubbed CBARF (Cascaded Bundle-Adjusting NeRF).In a nutshell, our framework optimizes camera poses in a coarse-to-fine manner and then reconstructs scenes based on the rectified poses. It is observed that the initialization of camera poses has a significant impact on the performance of bundle-adjustment (BA). Therefore, we cascade multiple BA modules at different scales to progressively improve the camera poses. Meanwhile, we develop a neighbor-replacement strategy to further optimize the results of BA in each stage. In this step, we introduce a novel criterion to effectively identify poorly estimated camera poses. Then we replace them with the poses of neighboring cameras, thus further eliminating the impact of inaccurate camera poses. Once camera poses have been optimized, we employ a density voxel grid to generate high-quality 3D reconstructed scenes and images in novel views. Experimental results demonstrate that our CBARF model achieves state-of-the-art performance in both pose optimization and novel view synthesis, especially in the existence of large camera pose noise. | 翻訳日:2023-10-17 18:09:51 公開日:2023-10-15 |
# 最悪事例分析は最大a-posteriori推定である Worst-Case Analysis is Maximum-A-Posteriori Estimation ( http://arxiv.org/abs/2310.09774v1 ) ライセンス: Link先を確認 | Hongjun Wu and Di Wang | (参考訳) プログラムの最悪のリソース使用は、性能最適化やアルゴリズム・複雑さ・脆弱性発見など、多くのソフトウェアエンジニアリングタスクに有用な情報を提供することができる。
本稿では,DSE-SMCとよばれる,汎用的で適応的で音質の高いファジリングフレームワークを提案する。
DSE-SMCは、ユーザが与えられた入力に対してリソース使用情報を取得するインターフェースを提供する限り、ブラックボックスであり、候補入力の探索と利用のバランスを保ち、分析プログラムの真のリソース利用分布に収束することが保証されているため、適応性がある。
dse-smcは、プログラム内の資源の蓄積は、ベイズ確率計画におけるソフトコンディショニング機構に同型であるので、最悪の場合の資源分析は、ベイズ統計の最大-a-posteriori-estimation問題に同型である。
DSE-SMCはシーケンシャルなモンテカルロ(SMC)と適応的な進化的ファジリングアルゴリズムを組み込んでおり、DSE-SMCは分析プログラムの資源利用行動によって引き起こされる後部分布に漸近的に収束する。
Javaアプリケーションの実験的評価により、DSE-SMCは、最悪のケース解析のために既存のブラックボックスファジィ法よりもはるかに効果的であることが示された。 The worst-case resource usage of a program can provide useful information for many software-engineering tasks, such as performance optimization and algorithmic-complexity-vulnerability discovery. This paper presents a generic, adaptive, and sound fuzzing framework, called DSE-SMC, for estimating worst-case resource usage. DSE-SMC is generic because it is black-box as long as the user provides an interface for retrieving resource-usage information on a given input; adaptive because it automatically balances between exploration and exploitation of candidate inputs; and sound because it is guaranteed to converge to the true resource-usage distribution of the analyzed program. DSE-SMC is built upon a key observation: resource accumulation in a program is isomorphic to the soft-conditioning mechanism in Bayesian probabilistic programming; thus, worst-case resource analysis is isomorphic to the maximum-a-posteriori-estimation problem of Bayesian statistics. DSE-SMC incorporates sequential Monte Carlo (SMC) -- a generic framework for Bayesian inference -- with adaptive evolutionary fuzzing algorithms, in a sound manner, i.e., DSE-SMC asymptotically converges to the posterior distribution induced by resource-usage behavior of the analyzed program. Experimental evaluation on Java applications demonstrates that DSE-SMC is significantly more effective than existing black-box fuzzing methods for worst-case analysis. | 翻訳日:2023-10-17 18:09:27 公開日:2023-10-15 |
# RSVP: エージェント応答コントラストと生成事前訓練による顧客インテント検出 RSVP: Customer Intent Detection via Agent Response Contrastive and Generative Pre-Training ( http://arxiv.org/abs/2310.09773v1 ) ライセンス: Link先を確認 | Yu-Chien Tang, Wei-Yao Wang, An-Zi Yen, Wen-Chih Peng | (参考訳) カスタマサービスの対話システムは,発話に基づいてユーザの意図を検出することによって,タスク指向会話における正確な回答と時間単位のサポートを提供するために,ニューラルモデルとともに開発された。
既存の意図検出アプローチは、大規模データセットを用いた適応的な事前学習言語モデルに大きく依存している。
さらに、収集コストが低いエージェントの会話応答内の情報を無視するが、エージェントは顧客の意図に基づいて応答を調整しなければならないため、顧客の意図に重要な意味を持つ。
本稿では,タスク指向対話に特化した自己教師型フレームワークRSVPを提案する。
具体的には,発話応答対の関係性を取り入れた事前学習課題を2つ導入する。
1) 候補のバッチから正しい応答を選択した応答検索、及び
2 エージェントを模倣して所定の発話に対する応答を生成することによる応答生成
実世界の2つのカスタマサービスデータセットのベンチマーク結果から,rsvpは精度が4.95%,mr@3が3.4%,mr@5が2.75%,最先端のベースラインを有意に上回っていることがわかった。
事前学習段階にエージェント応答を組み込むことの有効性を示すために,広範なケーススタディを行った。 The dialogue systems in customer services have been developed with neural models to provide users with precise answers and round-the-clock support in task-oriented conversations by detecting customer intents based on their utterances. Existing intent detection approaches have highly relied on adaptively pre-training language models with large-scale datasets, yet the predominant cost of data collection may hinder their superiority. In addition, they neglect the information within the conversational responses of the agents, which have a lower collection cost, but are significant to customer intent as agents must tailor their replies based on the customers' intent. In this paper, we propose RSVP, a self-supervised framework dedicated to task-oriented dialogues, which utilizes agent responses for pre-training in a two-stage manner. Specifically, we introduce two pre-training tasks to incorporate the relations of utterance-response pairs: 1) Response Retrieval by selecting a correct response from a batch of candidates, and 2) Response Generation by mimicking agents to generate the response to a given utterance. Our benchmark results for two real-world customer service datasets show that RSVP significantly outperforms the state-of-the-art baselines by 4.95% for accuracy, 3.4% for MRR@3, and 2.75% for MRR@5 on average. Extensive case studies are investigated to show the validity of incorporating agent responses into the pre-training stage. | 翻訳日:2023-10-17 18:08:58 公開日:2023-10-15 |
# 文脈表現学習と構造情報伝達の分離によるグラフ意味表現の再検討 Revisiting Graph Meaning Representations through Decoupling Contextual Representation Learning and Structural Information Propagation ( http://arxiv.org/abs/2310.09772v1 ) ライセンス: Link先を確認 | Li Zhou, Wenyu Chen, Dingyi Zeng, Hong Qu, Daniel Hershcovich | (参考訳) 自然言語理解の分野では、ニューラルモデルとグラフの意味表現(GMR)の交わりは、依然として魅力的な研究分野である。
関心の高まりにもかかわらず、GMRの正確な影響、特に関係抽出タスクの理解において重要なギャップが持続する。
そこで本研究では,文脈表現学習と構造情報伝達を分離した,シンプルでパラメータ効率のよいニューラルネットワークdagnn-plusを提案する。
様々なシーケンスエンコーダとGMRを組み合わせることで、このアーキテクチャは2つの英語と2つの中国語データセットの体系的な実験の基礎を提供する。
実験分析では4つの異なるグラフ形式と9つのパーサを用いる。
その結果、GMRの微妙な理解が得られ、4つのデータセットのうち3つの改善が示されている。
興味深いことに、GMRは汎用ドメインデータセットに比べて文学ドメインデータセットでは効果が低いように見える。
これらの知見は、自然言語理解研究の今後の軌道に接するであろう関係分類を改善するためのgmrとパーサーのより良いインフォームド設計の土台となる。 In the field of natural language understanding, the intersection of neural models and graph meaning representations (GMRs) remains a compelling area of research. Despite the growing interest, a critical gap persists in understanding the exact influence of GMRs, particularly concerning relation extraction tasks. Addressing this, we introduce DAGNN-plus, a simple and parameter-efficient neural architecture designed to decouple contextual representation learning from structural information propagation. Coupled with various sequence encoders and GMRs, this architecture provides a foundation for systematic experimentation on two English and two Chinese datasets. Our empirical analysis utilizes four different graph formalisms and nine parsers. The results yield a nuanced understanding of GMRs, showing improvements in three out of the four datasets, particularly favoring English over Chinese due to highly accurate parsers. Interestingly, GMRs appear less effective in literary-domain datasets compared to general-domain datasets. These findings lay the groundwork for better-informed design of GMRs and parsers to improve relation classification, which is expected to tangibly impact the future trajectory of natural language understanding research. | 翻訳日:2023-10-17 18:08:34 公開日:2023-10-15 |
# vlis: ユニモーダル言語モデルがマルチモーダル言語生成をガイド VLIS: Unimodal Language Models Guide Multimodal Language Generation ( http://arxiv.org/abs/2310.09767v1 ) ライセンス: Link先を確認 | Jiwan Chung, Youngjae Yu | (参考訳) 言語とビジョンのシナジーを活用したマルチモーダル言語生成は急速に拡大する分野である。
しかし、既存のビジョン言語モデルは複雑な言語理解を必要とする課題に直面している。
この問題を解決するために,視覚言語モデルの視覚条件付け能力と単調テキストのみの言語モデルの言語理解を組み合わせた新しいフレームワークである「重要サンプリング重み(vlis)」として視覚言語モデルを導入する。
視覚言語モデルから各画像とテキストのポイントワイズ情報を抽出し、その値を重要サンプリング重みとして使い、テキストのみのモデルからトークンの確率を調整する。
VLISは、共通理解(WHOOPS、OK-VQA、ScienceQA)や複雑なテキスト生成(Concadia、Image Paragraph Captioning、ROCStories)など、様々なタスクにおける視覚言語モデルを改善する。
以上の結果から,VLISは多モーダル言語生成の新たな方向性を示す可能性が示唆された。 Multimodal language generation, which leverages the synergy of language and vision, is a rapidly expanding field. However, existing vision-language models face challenges in tasks that require complex linguistic understanding. To address this issue, we introduce Visual-Language models as Importance Sampling weights (VLIS), a novel framework that combines the visual conditioning capability of vision-language models with the language understanding of unimodal text-only language models without further training. It extracts pointwise mutual information of each image and text from a visual-language model and uses the value as an importance sampling weight to adjust the token likelihood from a text-only model. VLIS improves vision-language models on diverse tasks, including commonsense understanding (WHOOPS, OK-VQA, and ScienceQA) and complex text generation (Concadia, Image Paragraph Captioning, and ROCStories). Our results suggest that VLIS represents a promising new direction for multimodal language generation. | 翻訳日:2023-10-17 18:08:17 公開日:2023-10-15 |
# 擬似ベイズ最適化 Pseudo-Bayesian Optimization ( http://arxiv.org/abs/2310.09766v1 ) ライセンス: Link先を確認 | Haoxian Chen, Henry Lam | (参考訳) ベイズ最適化は高価なブラックボックス関数を最適化するための一般的なアプローチである。
その鍵となる考え方は、サロゲートモデルを用いて目的を近似し、重要なことは、エクスプロレーション探索のバランスをとるクエリポイントのシーケンシャルな探索を可能にする関連する不確実性を定量化することである。
ガウス過程(GP)は、ベイジアンが導いた不確実な定量化力とモデリングの柔軟性のおかげで、サロゲートモデルの主要な候補となっている。
しかし、その課題は、収束特性がより不透明な可能性のある代替案の配列を刺激した。
そこで本研究では,GP関連の手法を超えて適用可能なブラックボックス最適化収束を保証するため,最小限の要件を満たす公理的枠組みを提案する。
さらに、Pseudo-Bayesian Optimizationと呼ばれるフレームワークの設計自由を利用して、経験的に優れたアルゴリズムを構築する。
特に,高次元合成実験から現実的なハイパーパラメータチューニングやロボット応用まで,単純な局所回帰と不確かさを定量化するための適切な"ランダム化事前"構成を用いることによって,収束性を保証するだけでなく,最先端のベンチマークを一貫して上回っていることを示す。 Bayesian Optimization is a popular approach for optimizing expensive black-box functions. Its key idea is to use a surrogate model to approximate the objective and, importantly, quantify the associated uncertainty that allows a sequential search of query points that balance exploitation-exploration. Gaussian process (GP) has been a primary candidate for the surrogate model, thanks to its Bayesian-principled uncertainty quantification power and modeling flexibility. However, its challenges have also spurred an array of alternatives whose convergence properties could be more opaque. Motivated by these, we study in this paper an axiomatic framework that elicits the minimal requirements to guarantee black-box optimization convergence that could apply beyond GP-related methods. Moreover, we leverage the design freedom in our framework, which we call Pseudo-Bayesian Optimization, to construct empirically superior algorithms. In particular, we show how using simple local regression, and a suitable "randomized prior" construction to quantify uncertainty, not only guarantees convergence but also consistently outperforms state-of-the-art benchmarks in examples ranging from high-dimensional synthetic experiments to realistic hyperparameter tuning and robotic applications. | 翻訳日:2023-10-17 18:07:56 公開日:2023-10-15 |
# インド人人口の司法アクセスの改善:インド語への法的テキストの翻訳を評価するためのベンチマーク Improving Access to Justice for the Indian Population: A Benchmark for Evaluating Translation of Legal Text to Indian Languages ( http://arxiv.org/abs/2310.09765v1 ) ライセンス: Link先を確認 | Sayan Mahapatra, Debtanu Datta, Shubham Soni, Adrijit Goswami, Saptarshi Ghosh | (参考訳) インド司法裁判所の法的文書の多くは、歴史的理由から複雑な英語で書かれている。
しかし、インディアン人口の約10%が英語を読むのが快適である。
したがって、英語から利用可能な法的テキストを翻訳することで、様々なインド語で法的テキストを利用可能にする必要がある。
インド語間の翻訳については、我々の知る限り、多くの研究が行われてきたが、法的な領域における翻訳に関する先行研究はあまり行われていない。
そこで本研究では,複数の低リソース言語を含む英語と9つのインド語文単位を含む,最初の高品質な並列並列コーパスを構築した。
我々はまた、商用mtシステム、オープンソースmtシステム、大規模言語モデルを含む、このコーパス上での多種多様な機械翻訳(mt)システムの性能をベンチマークする。
法実務者による包括的調査を通じて,これらのmtシステムの翻訳にどの程度満足しているか,mt評価指標が法実務者の意見にどの程度合致しているかを確認した。 Most legal text in the Indian judiciary is written in complex English due to historical reasons. However, only about 10% of the Indian population is comfortable in reading English. Hence legal text needs to be made available in various Indian languages, possibly by translating the available legal text from English. Though there has been a lot of research on translation to and between Indian languages, to our knowledge, there has not been much prior work on such translation in the legal domain. In this work, we construct the first high-quality legal parallel corpus containing aligned text units in English and nine Indian languages, that includes several low-resource languages. We also benchmark the performance of a wide variety of Machine Translation (MT) systems over this corpus, including commercial MT systems, open-source MT systems and Large Language Models. Through a comprehensive survey by Law practitioners, we check how satisfied they are with the translations by some of these MT systems, and how well automatic MT evaluation metrics agree with the opinions of Law practitioners. | 翻訳日:2023-10-17 18:07:33 公開日:2023-10-15 |
# OAAFormer: Transformerの重複認識によるロバストで効率的なポイントクラウド登録 OAAFormer: Robust and Efficient Point Cloud Registration Through Overlapping-Aware Attention in Transformer ( http://arxiv.org/abs/2310.09817v1 ) ライセンス: Link先を確認 | Junjie Gao, Qiujie Dong, Ruian Wang, Shuangmin Chen, Shiqing Xin, Changhe Tu, Wenping Wang | (参考訳) ポイントクラウド登録の分野では、粗い機能マッチングパラダイムが目覚ましいパフォーマンスのために大きな注目を集めている。
このパラダイムは、まずマルチレベル特徴の抽出と、次に粗いレベルから細かいレベルへの対応の伝播という、2段階のプロセスを含む。
第一に、デュアルソフトマックス演算の利用はスーパーポイント間の1対1対応を促進する可能性があり、必然的に貴重な対応を除外する。
この確率性は、ソーススーパーポイントが典型的に複数のターゲットスーパーポイントとの関連を維持するという事実から生じる。
第二に、これらの領域内の対応のみが実際の変換を決定するため、点雲間の重なり合う領域を精査することが不可欠である。
これらの考察に基づき, 対応品質を高めるために, oaaformer {\em oaaformer} を提案する。
一方, ソフトマッチング機構を導入し, 潜在的に有意な対応を粗いレベルから細かなレベルへと伝播させる。
さらに、オーバーラップする領域検出モジュールを統合し、ミスマッチを可能な限り最小化する。
さらに, 抽出された特徴の識別能力を高めるために, 細粒度マッチングフェーズ中に線形複雑性を有する領域的注意モジュールを提案する。
挑戦的な3DLoMatchベンチマークによるテストでは、我々のアプローチは、インリア比が約7倍に向上し、登録リコールが2~4倍に向上することを示した。
= In the domain of point cloud registration, the coarse-to-fine feature matching paradigm has received substantial attention owing to its impressive performance. This paradigm involves a two-step process: first, the extraction of multi-level features, and subsequently, the propagation of correspondences from coarse to fine levels. Nonetheless, this paradigm exhibits two notable limitations.Firstly, the utilization of the Dual Softmax operation has the potential to promote one-to-one correspondences between superpoints, inadvertently excluding valuable correspondences. This propensity arises from the fact that a source superpoint typically maintains associations with multiple target superpoints. Secondly, it is imperative to closely examine the overlapping areas between point clouds, as only correspondences within these regions decisively determine the actual transformation. Based on these considerations, we propose {\em OAAFormer} to enhance correspondence quality. On one hand, we introduce a soft matching mechanism, facilitating the propagation of potentially valuable correspondences from coarse to fine levels. Additionally, we integrate an overlapping region detection module to minimize mismatches to the greatest extent possible. Furthermore, we introduce a region-wise attention module with linear complexity during the fine-level matching phase, designed to enhance the discriminative capabilities of the extracted features. Tests on the challenging 3DLoMatch benchmark demonstrate that our approach leads to a substantial increase of about 7\% in the inlier ratio, as well as an enhancement of 2-4\% in registration recall. = | 翻訳日:2023-10-17 18:01:42 公開日:2023-10-15 |
# 量子中心極限定理の最適収束率に向けて Towards Optimal Convergence Rates for the Quantum Central Limit Theorem ( http://arxiv.org/abs/2310.09812v1 ) ライセンス: Link先を確認 | Salman Beigi, Hami Mehrabi | (参考訳) ボゾン系の量子中心極限定理は、中心量子状態の$n$-fold畳み込みから得られる状態の列$\rho^{\boxplus n}$は、量子ガウス状態$\rho_G$に収束し、$\rho$と同じ第1と第2のモーメントを持つ。
本稿では,この定理に対する最適収束率を求める問題に寄与する。
まず、$m$モードの量子状態が$\max\{3, 2m\}$の有限モーメントを持つならば、$\|\rho - \rho_g\|_1=\mathcal o(n^{-1/2})$となる。
明示的な例を挙げることで、この収束率が最適であることを検証できる。
また、量子状態に対する poincar\'e の不等式の概念を導入し、もし $\rho$ がこの poincar\'e 不等式を満たすなら、$d(\rho\| \rho_g)= \mathcal o(n^{-1})$ であることを示す。 Quantum central limit theorem for bosonic systems states that the sequence of states $\rho^{\boxplus n}$ obtained from the $n$-fold convolution of a centered quantum state $\rho$ converges to a quantum Gaussian state $\rho_G$ that has the same first and second moments as $\rho$. In this paper, we contribute to the problem of finding optimal rate of convergence for this theorem. We first show that if an $m$-mode quantum state has a finite moment of order $\max\{3, 2m\}$, then we have $\|\rho - \rho_G\|_1=\mathcal O(n^{-1/2})$. By giving an explicit example, we verify that this convergence rate is optimal. We also introduce a notion of Poincar\'e inequality for quantum states and show that if $\rho$ satisfies this Poincar\'e inequality, then $D(\rho\| \rho_G)= \mathcal O(n^{-1})$. | 翻訳日:2023-10-17 18:01:16 公開日:2023-10-15 |
# LSH(Locality-Sensitive Hashing)はニューラルネットワークによって置き換えられるか? Can LSH (Locality-Sensitive Hashing) Be Replaced by Neural Network? ( http://arxiv.org/abs/2310.09806v1 ) ライセンス: Link先を確認 | Renyang Liu, Jun Zhao, Xing Chu, Yu Liang, Wei Zhou, Jing He | (参考訳) GPU(Graphics Processing Unit)技術とニューラルネットワークの急速な開発により、より適切なデータ構造とアルゴリズムを探索することができる。
最近の進歩は、ニューラルネットワークが従来のデータ構造を部分的に置き換えることができることを示している。
本稿では,高次元データを低次元空間に効率よく柔軟にマッピングする,LLSHと呼ばれる新しいDNNに基づく学習的局所性感性ハッシュ法を提案する。
LLSHは従来のLSH(Locality-sensitive Hashing)関数ファミリを並列多層ニューラルネットワークに置き換え、時間とメモリ消費を削減し、クエリの精度を同時に保証する。
提案したLLSHは、ハッシュインデックスを学習ベースのニューラルネットワークに置き換える可能性を示し、開発者がより正確にデータ組織を設計、構成し、情報検索のパフォーマンスを向上させるための新たな扉を開く。
異なるタイプのデータセットに対する大規模な実験は、クエリ精度、時間消費、メモリ使用量において提案手法の優位性を示す。 With the rapid development of GPU (Graphics Processing Unit) technologies and neural networks, we can explore more appropriate data structures and algorithms. Recent progress shows that neural networks can partly replace traditional data structures. In this paper, we proposed a novel DNN (Deep Neural Network)-based learned locality-sensitive hashing, called LLSH, to efficiently and flexibly map high-dimensional data to low-dimensional space. LLSH replaces the traditional LSH (Locality-sensitive Hashing) function families with parallel multi-layer neural networks, which reduces the time and memory consumption and guarantees query accuracy simultaneously. The proposed LLSH demonstrate the feasibility of replacing the hash index with learning-based neural networks and open a new door for developers to design and configure data organization more accurately to improve information-searching performance. Extensive experiments on different types of datasets show the superiority of the proposed method in query accuracy, time consumption, and memory usage. | 翻訳日:2023-10-17 18:00:49 公開日:2023-10-15 |
# 長距離相互作用量子系の中間スペクトル固有状態に対する平均場アプローチ Mean-field approach to Mid-spectrum Eigenstates of long-range interacting Quantum Systems ( http://arxiv.org/abs/2310.09803v1 ) ライセンス: Link先を確認 | Bojan \v{Z}unkovi\v{c} and Pedro Ribeiro | (参考訳) スピン-1/2$XY鎖と無限範囲の逆相互作用の平衡特性について検討する。
ゼロ温度では、無限範囲相互作用によって引き起こされるxy-と$z$-秩序相の競合は、横結合を増加させる際に一階遷移をもたらす。
等方性スピン鎖は有限結合で一階遷移を経験する; 極大異方性鎖は結合強度ゼロの非代数的相転移を克服する。
位相図は、常磁性相と有限温度の秩序相を分離する三臨界線に沿って二階を回転させる一階再帰遷移を描いている。
平均場アプローチは固有状態の局所的性質を捉え、スペクトルにおける磁化ギャップの出現を明らかにする。
例えば、絡み合いエントロピーのようなグローバルな性質は、スペクトル境界においてのみよく近似される。
平均絡み合いエントロピーとレベルスペーシング比はガウス的結果から逸脱し、問題の相互作用の性質を明らかにする。 We study the equilibrium properties of the spin-$1/2$ XY chain with an infinite-range transverse interaction. At zero temperature, competition between the XY- and the $z$-ordered phases induced by the infinite-range interactions gives rise to a first-order transition upon increasing the transverse coupling. We show that the two gapless points of the XY model behave in fundamentally different ways: isotropic spin chains experience a first-order transition at finite coupling; maximal anisotropic chains overcome a non-algebraic phase transition at zero coupling strength. The phase diagram depicts a first-order reentrant transition that turns second-order along a tricritical line separating a paramagnetic phase from an ordered one at finite temperature. The mean-field approach captures the local properties of the eigenstates and reveals the appearance of a magnetization gap in the spectrum. Global properties, e.g., entanglement entropy, are well approximated only at spectral boundaries. The mean entanglement entropy and the level-spacing ratio deviate from the Gaussian results, revealing the interacting nature of the problem. | 翻訳日:2023-10-17 18:00:33 公開日:2023-10-15 |
# 搾取事業:情報非対称性の活用 Exploitation Business: Leveraging Information Asymmetry ( http://arxiv.org/abs/2310.09802v1 ) ライセンス: Link先を確認 | Kwangseob Ahn | (参考訳) 本稿では,情報非対称性を利用して脆弱な人口を搾取するExploitation Businessモデルについて検討する。
非専門家や詐欺師をターゲットとするビジネスに重点を置いており、情報非対称性を利用して必死の個人に製品やサービスを販売している。
この現象は「情報利用に基づく営利活動」ともいわれ、情報への限られたアクセス、専門知識の欠如、Fear of Missing Out (FOMO) を育成している。 This paper investigates the "Exploitation Business" model, which capitalizes on information asymmetry to exploit vulnerable populations. It focuses on businesses targeting non-experts or fraudsters who capitalize on information asymmetry to sell their products or services to desperate individuals. This phenomenon is also described as "profit-making activities based on informational exploitation," which thrives on individuals' limited access to information, lack of expertise, and Fear of Missing Out (FOMO). | 翻訳日:2023-10-17 18:00:13 公開日:2023-10-15 |
# 均一・不均一グラフニューラルネットワークにおけるモデル反転攻撃 Model Inversion Attacks on Homogeneous and Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2310.09800v1 ) ライセンス: Link先を確認 | Renyang Liu, Wei Zhou, Jinhong Zhang, Xiaoyuan Liu, Peiyuan Si, Haoran Li | (参考訳) 近年,ホモジニアスグラフニューラルネットワーク (HomoGNN) やヘテロジニアスグラフニューラルネットワーク (HeteGNN) を含むグラフニューラルネットワーク (GNN) は,多くの物理的シナリオ,特に通信アプリケーションにおいて顕著な進歩を遂げている。
大きな成功を収めたものの、こうしたモデルのプライバシー問題も大きな注目を集めている。
従来の研究によると、十分に適合したターゲットGNNが与えられた場合、攻撃者はモデル反転攻撃によってこのモデルのセンシティブなトレーニンググラフを再構築できる。
我々は、この脆弱性は、ターゲットのGNN自身と、現実世界のグラフにおける共有プロパティに関する以前の知識から来ていることを主張する。
そこで本研究では,HomoGNNとHeteGNNのモデル反転攻撃手法,すなわちHomoGMIとHeteGMIを提案する。
具体的には、HomoGMI と HeteGMI は、目標 GNN 上のクロスエントロピー損失を最大化し、再構成されたグラフ上の 1^{st}$ および $2^{nd}$-order の近似を最大化することを目的とした勾配依存性に基づく最適化手法である。
私たちの知る限りでは、HeteGMIはHeteGNNに対するモデル逆攻撃を行う最初の試みである。
複数のベンチマーク実験により,提案手法は競合他社よりも優れた性能が得られることが示された。 Recently, Graph Neural Networks (GNNs), including Homogeneous Graph Neural Networks (HomoGNNs) and Heterogeneous Graph Neural Networks (HeteGNNs), have made remarkable progress in many physical scenarios, especially in communication applications. Despite achieving great success, the privacy issue of such models has also received considerable attention. Previous studies have shown that given a well-fitted target GNN, the attacker can reconstruct the sensitive training graph of this model via model inversion attacks, leading to significant privacy worries for the AI service provider. We advocate that the vulnerability comes from the target GNN itself and the prior knowledge about the shared properties in real-world graphs. Inspired by this, we propose a novel model inversion attack method on HomoGNNs and HeteGNNs, namely HomoGMI and HeteGMI. Specifically, HomoGMI and HeteGMI are gradient-descent-based optimization methods that aim to maximize the cross-entropy loss on the target GNN and the $1^{st}$ and $2^{nd}$-order proximities on the reconstructed graph. Notably, to the best of our knowledge, HeteGMI is the first attempt to perform model inversion attacks on HeteGNNs. Extensive experiments on multiple benchmarks demonstrate that the proposed method can achieve better performance than the competitors. | 翻訳日:2023-10-17 18:00:03 公開日:2023-10-15 |
# AFLOW:超低騒音環境下での敵対的事例の開発 AFLOW: Developing Adversarial Examples under Extremely Noise-limited Settings ( http://arxiv.org/abs/2310.09795v1 ) ライセンス: Link先を確認 | Renyang Liu, Jinhong Zhang, Haoran Li, Jin Zhang, Yuanyu Wang, Wei Zhou | (参考訳) 大規模な研究により、ディープニューラルネットワーク(DNN)が敵の攻撃に弱いことが示されている。
近年の攻撃成功率の有意な進歩にもかかわらず、既存の攻撃方法のほとんどによって生じる敵対的ノイズは、まだ人間の目には目立たず、防御機構によって容易に検出できることが判明した。
その結果、これらの悪意のある例は、既存のDNNの脆弱性を十分に探究できない。
したがって、DNNの欠陥をよりよく明らかにし、騒音に制限された状況下での堅牢性を高めるために、新しい不都合な逆例生成法を提案する必要がある。
このギャップを埋めるために,AFLOWと呼ばれる新しい正規化フローに基づくエンドツーエンド攻撃フレームワークを提案する。
具体的には、ノイズ付加方式ではなく、対応する画像の隠れた表現を直接摂動させ、望ましい敵の例を作る。
既存の方法と比較すると、3つのベンチマークデータセットでの広範囲な実験により、aflowによって構築された敵対的な例は、インセプティビリティ、画像品質、攻撃能力において優れていることが示されている。
堅牢なモデルであっても、AFLOWは以前の方法よりも高い攻撃結果を得ることができる。 Extensive studies have demonstrated that deep neural networks (DNNs) are vulnerable to adversarial attacks. Despite the significant progress in the attack success rate that has been made recently, the adversarial noise generated by most of the existing attack methods is still too conspicuous to the human eyes and proved to be easily detected by defense mechanisms. Resulting that these malicious examples cannot contribute to exploring the vulnerabilities of existing DNNs sufficiently. Thus, to better reveal the defects of DNNs and further help enhance their robustness under noise-limited situations, a new inconspicuous adversarial examples generation method is exactly needed to be proposed. To bridge this gap, we propose a novel Normalize Flow-based end-to-end attack framework, called AFLOW, to synthesize imperceptible adversarial examples under strict constraints. Specifically, rather than the noise-adding manner, AFLOW directly perturbs the hidden representation of the corresponding image to craft the desired adversarial examples. Compared with existing methods, extensive experiments on three benchmark datasets show that the adversarial examples built by AFLOW exhibit superiority in imperceptibility, image quality and attack capability. Even on robust models, AFLOW can still achieve higher attack results than previous methods. | 翻訳日:2023-10-17 17:59:37 公開日:2023-10-15 |
# 猫の顔ランドマークの自動検出 Automated Detection of Cat Facial Landmarks ( http://arxiv.org/abs/2310.09793v1 ) ライセンス: Link先を確認 | George Martvel, Ilan Shimshoni and Anna Zamansky | (参考訳) 動物の感情コンピューティングの分野は急速に発展しており、表情の分析は重要な側面である。
この分野で現在直面している最も重要な課題の1つは、表情分析のためのモデルの開発を可能にする高品質で包括的なデータセットの不足である。
考えられるアプローチの1つは、人間や動物に示される顔のランドマークの利用である。
本稿では,猫顔面解剖学において,境界ボックスと48個の顔ランドマークを付記した,猫顔面画像の新しいデータセットを提案する。
また,拡張型ensembe法を用いたランドマーク検出畳み込み畳み込みニューラルネットワークモデルを提案する。
本モデルは猫の顔に優れた性能を示し,人間の顔のランドマーク検出に応用できる。 The field of animal affective computing is rapidly emerging, and analysis of facial expressions is a crucial aspect. One of the most significant challenges that researchers in the field currently face is the scarcity of high-quality, comprehensive datasets that allow the development of models for facial expressions analysis. One of the possible approaches is the utilisation of facial landmarks, which has been shown for humans and animals. In this paper we present a novel dataset of cat facial images annotated with bounding boxes and 48 facial landmarks grounded in cat facial anatomy. We also introduce a landmark detection convolution neural network-based model which uses a magnifying ensembe method. Our model shows excellent performance on cat faces and is generalizable to human facial landmark detection. | 翻訳日:2023-10-17 17:59:14 公開日:2023-10-15 |
# SCME:データフリーおよびクエリリミットモデル抽出攻撃のためのセルフコントラスト法 SCME: A Self-Contrastive Method for Data-free and Query-Limited Model Extraction Attack ( http://arxiv.org/abs/2310.09792v1 ) ライセンス: Link先を確認 | Renyang Liu, Jinhong Zhang, Kwok-Yan Lam, Jun Zhao, Wei Zhou | (参考訳) これまでの研究で、人工知能(AI)システムは敵の攻撃に弱いことが判明した。
それらのうち、モデル抽出は代替モデル上で逆例を生成してターゲットモデルを騙す。
このような攻撃の中核は、データ依存的でデータフリーな方法でシミュレーションプロセスを分類できるターゲットモデルと可能な限り類似した代替モデルを訓練することである。
データ依存法と比較して、データフリー法は、合成データを用いて代替モデルを訓練するため、実世界ではより実用的であることが証明されている。
しかし、これらの偽データの分布は多様性を欠き、対象モデルの決定境界をうまく検出できないため、不十分なシミュレーション効果をもたらす。
さらに、これらのデータフリー技術は代用モデルをトレーニングするために大量のクエリを必要とし、時間とコンピューティング消費と露出のリスクを増大させる。
そこで,本稿では,偽データ合成におけるクラス間多様性とクラス内多様性の両方を考慮したデータフリーモデル抽出手法であるscme(self-contrastive model extraction)を提案する。
さらに、SCMEは、ターゲットモデルの判断境界を効果的に探索し、シミュレーション能力を向上させることができる偽データを増やすためのMixup操作を導入している。
広範な実験により,提案手法は多様な偽データが得られることがわかった。
さらに,本手法は,クエリ制限シナリオ下での多くの異なる攻撃設定において,特に未ターゲット攻撃において,SCME は5つのベースラインデータセットに対して平均 11.43 % のSOTA 手法より優れていた。 Previous studies have revealed that artificial intelligence (AI) systems are vulnerable to adversarial attacks. Among them, model extraction attacks fool the target model by generating adversarial examples on a substitute model. The core of such an attack is training a substitute model as similar to the target model as possible, where the simulation process can be categorized in a data-dependent and data-free manner. Compared with the data-dependent method, the data-free one has been proven to be more practical in the real world since it trains the substitute model with synthesized data. However, the distribution of these fake data lacks diversity and cannot detect the decision boundary of the target model well, resulting in the dissatisfactory simulation effect. Besides, these data-free techniques need a vast number of queries to train the substitute model, increasing the time and computing consumption and the risk of exposure. To solve the aforementioned problems, in this paper, we propose a novel data-free model extraction method named SCME (Self-Contrastive Model Extraction), which considers both the inter- and intra-class diversity in synthesizing fake data. In addition, SCME introduces the Mixup operation to augment the fake data, which can explore the target model's decision boundary effectively and improve the simulating capacity. Extensive experiments show that the proposed method can yield diversified fake data. Moreover, our method has shown superiority in many different attack settings under the query-limited scenario, especially for untargeted attacks, the SCME outperforms SOTA methods by 11.43\% on average for five baseline datasets. | 翻訳日:2023-10-17 17:59:04 公開日:2023-10-15 |
# FLrce: 関係ベースのクライアント選択と早期停止戦略による効果的なフェデレーション学習 FLrce: Efficient Federated Learning with Relationship-based Client Selection and Early-Stopping Strategy ( http://arxiv.org/abs/2310.09789v1 ) ライセンス: Link先を確認 | Ziru Niu, Hai Dong, A. Kai Qin, Tao Gu | (参考訳) フェデレーション学習(fl)は、データプライバシを維持しながら顧客にインテリジェントなサービスを提供するための強力なインターフェースとして、幅広い分野で大きな人気を得ている。
それでもFLは、エッジデバイスの限られた帯域幅とリソース制約のために、通信と計算のボトルネックに直面している。
ボトルネックに包括的に対処するために、リソース制約されたエッジデバイスがグローバルモデルパラメータのサブセットを協調的にトレーニングできるようにする、ドロップアウトのテクニックが導入される。
しかし、ドロップアウトは、不均衡な局所データ分布下でのFLの学習効率を阻害する。
その結果、FLは適切な精度を達成するためにより多くのラウンドを必要とし、より多くの通信と計算資源を消費する。
本稿では,関係ベースのクライアント選択と早期停止戦略を備えた効率的なflフレームワークflrceを提案する。
FLrceは、より大きな効果を持つクライアントを選択することでFLプロセスを加速し、グローバルモデルがより少ないラウンドで高精度に収束できるようにする。
FLrceはまた、通信と計算資源を節約するために、FLを事前に停止させる早期停止機構を利用する。
実験の結果,FLrce は通信効率を 6% から 73.9% に向上し,20% から 79.5% に向上した。 Federated learning (FL) achieves great popularity in broad areas as a powerful interface to offer intelligent services to customers while maintaining data privacy. Nevertheless, FL faces communication and computation bottlenecks due to limited bandwidth and resource constraints of edge devices. To comprehensively address the bottlenecks, the technique of dropout is introduced, where resource-constrained edge devices are allowed to collaboratively train a subset of the global model parameters. However, dropout impedes the learning efficiency of FL under unbalanced local data distributions. As a result, FL requires more rounds to achieve appropriate accuracy, consuming more communication and computation resources. In this paper, we present FLrce, an efficient FL framework with a relationship-based client selection and early-stopping strategy. FLrce accelerates the FL process by selecting clients with more significant effects, enabling the global model to converge to a high accuracy in fewer rounds. FLrce also leverages an early stopping mechanism to terminate FL in advance to save communication and computation resources. Experiment results show that FLrce increases the communication and computation efficiency by 6% to 73.9% and 20% to 79.5%, respectively, while maintaining competitive accuracy. | 翻訳日:2023-10-17 17:58:37 公開日:2023-10-15 |
# ニューラルネットワークがいかにしてgoゲームをプレイし、人々に学習させるかを説明する Explaining How a Neural Network Play the Go Game and Let People Learn ( http://arxiv.org/abs/2310.09838v1 ) ライセンス: Link先を確認 | Huilin Zhou, Huijie Tang, Mingjie Li, Hao Zhang, Zhenyu Liu, Quanshi Zhang | (参考訳) AIモデルは、Goのゲームにおいて人間のプレイヤーを上回っており、AIモデルは人間のプレイヤー以外のGoゲームに関する新しい知識を符号化したと広く信じられている。
このようにして、AIモデルによって符号化された知識を説明し、それを人間のプレイヤーに教えることは、説明可能なAIにおいて有望な問題である。
この目的のためには、人間のプレイヤーが特異な直感的な分析よりも正確で検証可能な知識を学べるように数学的支援が必要である。
そこで,本稿では,囲碁の値ネットワークによって符号化された石同士の相互作用プリミティブを抽出し,ユーザが値ネットワークから学習できるようにする。
実験により本手法の有効性が示された。 The AI model has surpassed human players in the game of Go, and it is widely believed that the AI model has encoded new knowledge about the Go game beyond human players. In this way, explaining the knowledge encoded by the AI model and using it to teach human players represent a promising-yet-challenging issue in explainable AI. To this end, mathematical supports are required to ensure that human players can learn accurate and verifiable knowledge, rather than specious intuitive analysis. Thus, in this paper, we extract interaction primitives between stones encoded by the value network for the Go game, so as to enable people to learn from the value network. Experiments show the effectiveness of our method. | 翻訳日:2023-10-17 17:50:49 公開日:2023-10-15 |
# MIR2: 相互情報正規化による頑健な多エージェント強化学習を目指して MIR2: Towards Provably Robust Multi-Agent Reinforcement Learning by Mutual Information Regularization ( http://arxiv.org/abs/2310.09833v1 ) ライセンス: Link先を確認 | Simin Li, Ruixiao Xu, Jun Guo, Pu Feng, Jiakai Wang, Aishan Liu, Yaodong Yang, Xianglong Liu, Weifeng Lv | (参考訳) 頑健なマルチエージェント強化学習(MARL)は、未知の同盟者による不確実または最悪の行動に対するレジリエンスを必要とする。
強固なmarlにおける既存のmax-min最適化技術は、最悪のケースの敵に対するエージェントのトレーニングによるレジリエンスの向上を目標としているが、エージェントの数が増えると難易度が低下し、最悪のケースシナリオが指数関数的に増加する。
この複雑さを単純化しようとする試みは、しばしば過度に悲観的なポリシー、シナリオ間の堅牢性、高い計算要求をもたらす。
これらのアプローチとは異なり、人間はあらゆる最悪のシナリオに備える必要がない適応的でレジリエントな振る舞いを自然に学習する。
そこで本研究では,日常的なシナリオでポリシーを訓練し,相互情報をロバスト正規化として最小化するMIR2を提案する。
理論的には、ロバスト性は推論問題であり、履歴と行動の間の相互情報の最小化は、特定の仮定の下でロバスト性に対する低い境界を暗黙的に最大化する。
さらに分析した結果,提案手法は情報ボトルネックを通じてエージェントが他者に対して過剰に反応することを防ぐとともに,前もって堅牢な行動とポリシーを整合させる。
私たちのMIR2は、StarCraft II、Multi-Adnt Mujoco、そしてLendezvousのマックスミン最適化よりも、最悪の敵に対する弾力性が高い。
我々の優位は、実世界のロボット群制御シナリオに挑戦するときに一貫している。
Supplementary Materialsのコードとデモビデオを参照。 Robust multi-agent reinforcement learning (MARL) necessitates resilience to uncertain or worst-case actions by unknown allies. Existing max-min optimization techniques in robust MARL seek to enhance resilience by training agents against worst-case adversaries, but this becomes intractable as the number of agents grows, leading to exponentially increasing worst-case scenarios. Attempts to simplify this complexity often yield overly pessimistic policies, inadequate robustness across scenarios and high computational demands. Unlike these approaches, humans naturally learn adaptive and resilient behaviors without the necessity of preparing for every conceivable worst-case scenario. Motivated by this, we propose MIR2, which trains policy in routine scenarios and minimize Mutual Information as Robust Regularization. Theoretically, we frame robustness as an inference problem and prove that minimizing mutual information between histories and actions implicitly maximizes a lower bound on robustness under certain assumptions. Further analysis reveals that our proposed approach prevents agents from overreacting to others through an information bottleneck and aligns the policy with a robust action prior. Empirically, our MIR2 displays even greater resilience against worst-case adversaries than max-min optimization in StarCraft II, Multi-agent Mujoco and rendezvous. Our superiority is consistent when deployed in challenging real-world robot swarm control scenario. See code and demo videos in Supplementary Materials. | 翻訳日:2023-10-17 17:50:36 公開日:2023-10-15 |
# 専門家を1つにマージする:専門家の混合の計算効率を改善する Merging Experts into One: Improving Computational Efficiency of Mixture of Experts ( http://arxiv.org/abs/2310.09832v1 ) ライセンス: Link先を確認 | Shwai He, Run-Ze Fan, Liang Ding, Li Shen, Tianyi Zhou, Dacheng Tao | (参考訳) 言語モデルのサイズを拡大することは、通常、NLPタスクにおいて顕著な進歩をもたらす。
しかし、しばしば計算コストが増加するという価格が伴う。
スパースミキチャー・オブ・エキスパート(MoE)は、入力ごとにパラメータの小さなサブセット(例えば1つのエキスパート)を活性化することでコストを削減できるが、その計算はアクティベートされた専門家の数を増やして実用性を制限すると著しく増大する。
計算コストを大幅に高めることなく、専門家を増やすという利点を維持できるだろうか?
本稿では,まず,複数の専門家を選択することの優位性を実証し,その上で,計算コストを1人の専門家に還元する「textbf{\texttt{Merging Experts into One}} (MEO)」という計算効率の高い手法を提案する。
大規模な実験により、MEOは計算効率を著しく改善し、例えば、FLOPSはバニラMoEの72.0Gから28.6G(MEO)へと低下する。
さらに,トークンレベルのMEO(例えば 83.3\% (MEO) 対 82.6\% (vanilla MoE) 平均スコア) の GLUE ベンチマークにおける効率と性能をさらに向上させるトークンレベルの注目ブロックを提案する。
私たちのコードは受け入れ次第解放されます。
コードは \url{https://github.com/shwai-he/meo} でリリースされる。 Scaling the size of language models usually leads to remarkable advancements in NLP tasks. But it often comes with a price of growing computational cost. Although a sparse Mixture of Experts (MoE) can reduce the cost by activating a small subset of parameters (e.g., one expert) for each input, its computation escalates significantly if increasing the number of activated experts, limiting its practical utility. Can we retain the advantages of adding more experts without substantially increasing the computational costs? In this paper, we first demonstrate the superiority of selecting multiple experts and then propose a computation-efficient approach called \textbf{\texttt{Merging Experts into One}} (MEO), which reduces the computation cost to that of a single expert. Extensive experiments show that MEO significantly improves computational efficiency, e.g., FLOPS drops from 72.0G of vanilla MoE to 28.6G (MEO). Moreover, we propose a token-level attention block that further enhances the efficiency and performance of token-level MEO, e.g., 83.3\% (MEO) vs. 82.6\% (vanilla MoE) average score on the GLUE benchmark. Our code will be released upon acceptance. Code will be released at: \url{https://github.com/Shwai-He/MEO}. | 翻訳日:2023-10-17 17:50:11 公開日:2023-10-15 |
# 弱教師付きセマンティックセグメンテーションのためのパッチコントラスト学習によるトップKプーリング Top-K Pooling with Patch Contrastive Learning for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2310.09828v1 ) ライセンス: Link先を確認 | Wangyu Wu, Tianhong Dai, Xiaowei Huang, Fei Ma, Jimin Xiao | (参考訳) 画像レベルラベルのみを用いたWSSS(Weakly Supervised Semantic Segmentation)は費用対効果から注目されている。
近年,クラスアクティベーションマップ(CAM)を持たない視覚変換器(ViT)を用いた手法は,従来の手法よりも信頼性の高い擬似ラベルを生成する能力が高いことが示された。
しかし、現在のViTベースの手法では、最大プーリングを用いて、パッチレベルの分類を画像レベルにマッピングするために、パッチの正確な分類による擬似ラベルの品質に影響を与える可能性のある、最高の予測スコアを持つパッチを選択する。
本稿では,新しいvitベースのwsss法であるtop-k pooling with patch contrastive learning (tkp-pcl)を提案する。
また,パッチ埋め込みを向上し,最終的な結果を改善するパッチコントラッシブエラー (PCE) も提案されている。
実験の結果,本手法はPASCAL VOC 2012データセットの他の最先端のWSSS手法よりも効率が良く,性能も優れていた。 Weakly Supervised Semantic Segmentation (WSSS) using only image-level labels has gained significant attention due to cost-effectiveness. Recently, Vision Transformer (ViT) based methods without class activation map (CAM) have shown greater capability in generating reliable pseudo labels than previous methods using CAM. However, the current ViT-based methods utilize max pooling to select the patch with the highest prediction score to map the patch-level classification to the image-level one, which may affect the quality of pseudo labels due to the inaccurate classification of the patches. In this paper, we introduce a novel ViT-based WSSS method named top-K pooling with patch contrastive learning (TKP-PCL), which employs a top-K pooling layer to alleviate the limitations of previous max pooling selection. A patch contrastive error (PCE) is also proposed to enhance the patch embeddings to further improve the final results. The experimental results show that our approach is very efficient and outperforms other state-of-the-art WSSS methods on the PASCAL VOC 2012 dataset. | 翻訳日:2023-10-17 17:49:41 公開日:2023-10-15 |
# VFLAIR: 垂直的フェデレーション学習のための研究ライブラリとベンチマーク VFLAIR: A Research Library and Benchmark for Vertical Federated Learning ( http://arxiv.org/abs/2310.09827v1 ) ライセンス: Link先を確認 | Tianyuan Zou, Zixuan Gu, Yu He, Hideaki Takahashi, Yang Liu, Guangnan Ye, Ya-Qin Zhang | (参考訳) Vertical Federated Learning(VFL)は、同じグループの異なる機能を持つ参加者が、生のデータやモデルパラメータを公開せずに協調トレーニングを達成できるようにする、協調トレーニングパラダイムとして登場した。
近年、VFLは研究の可能性や現実世界の応用に大きな注目を集めているが、様々な種類のデータ推論やバックドア攻撃の防衛など、依然として重大な課題に直面している。
さらに、既存のvflプロジェクトのほとんどが業界向けであり、現在の研究進捗の追跡に簡単には使われていない。
このニーズに対処するために、私たちは、さまざまなモデル、データセット、プロトコルによるvflトレーニングをサポートする拡張可能で軽量なvflフレームワークvflair(https://github.com/flair-thu/vflairで利用可能)と、攻撃と防御戦略の包括的な評価のための標準モジュールを紹介します。
また、異なる通信およびモデル分割設定下での11攻撃と8防御性能をベンチマークし、異なる実用的なvfl展開シナリオに対する防衛戦略の選択に関する具体的な洞察と推奨事項を提示する。 Vertical Federated Learning (VFL) has emerged as a collaborative training paradigm that allows participants with different features of the same group of users to accomplish cooperative training without exposing their raw data or model parameters. VFL has gained significant attention for its research potential and real-world applications in recent years, but still faces substantial challenges, such as in defending various kinds of data inference and backdoor attacks. Moreover, most of existing VFL projects are industry-facing and not easily used for keeping track of the current research progress. To address this need, we present an extensible and lightweight VFL framework VFLAIR (available at https://github.com/FLAIR-THU/VFLAIR), which supports VFL training with a variety of models, datasets and protocols, along with standardized modules for comprehensive evaluations of attacks and defense strategies. We also benchmark 11 attacks and 8 defenses performance under different communication and model partition settings and draw concrete insights and recommendations on the choice of defense strategies for different practical VFL deployment scenario. | 翻訳日:2023-10-17 17:49:23 公開日:2023-10-15 |
# 変分量子アルゴリズムのためのアルゴリズム指向量子ビットマッピング Algorithm-oriented qubit mapping for variational quantum algorithms ( http://arxiv.org/abs/2310.09826v1 ) ライセンス: Link先を確認 | Yanjun Ji, Xi Chen, Ilia Polian, Yue Ban | (参考訳) 量子ビットマッピングの最適化は、短期量子デバイス上での量子アルゴリズムの実装の成功に不可欠である。
本稿では,量子アルゴリズム内の固有正則部分構造を活かしたアルゴリズム指向量子ビットマッピング(aoqmap)を提案する。
厳密な手法は最適解を提供するが、指数関数的スケーリングはそれらを非現実的なものにする。
AOQMAPはこの課題に戦略的2段階のアプローチで対処する。
まず、接続制約を満たすために、ターゲット量子デバイスのサブトポロジーに回路を適応させる。
線形、t型、h型部分位相上のすべての連結相互作用を持つ変分量子アルゴリズムに対して、最小回路深さの最適かつスケーラブルな解を提供する。
第二に、現在のデバイスノイズに基づくコスト関数を用いて最適マッピング方式を特定する。
IBMの様々な量子デバイスにおける実証は、AOQMAPが従来のマッピング手法と比較してゲート数と回路深さの両方を著しく減少させ、その結果性能が向上することを示している。
具体的には、AOQMAPは、Qiskit、Tket、SWAPネットワークと比較して、最大82.1%の深さ減少と138%の成功確率の上昇を達成する。
この特殊でスケーラブルなマッピングパラダイムは、より広い量子アルゴリズムクラスを最適化することができる。
アルゴリズム的特徴を活用するためにキュービットマッピングを設計することは、短期量子アルゴリズムの性能を最大化する約束である。 Optimizing qubit mapping is critical for the successful implementation of quantum algorithms on near-term quantum devices. In this paper we present an algorithm-oriented qubit mapping (AOQMAP) that capitalizes on the inherent regular substructures within quantum algorithms. While exact methods provide optimal solutions, their exponential scaling renders them impractical. AOQMAP addresses this challenge through a strategic two-step approach. First, it adapts circuits onto subtopologies of the target quantum device to satisfy connectivity constraints. Optimal and scalable solutions with minimum circuit depth are provided for variational quantum algorithms with all-to-all connected interactions on linear, T-shaped, and H-shaped subtopologies. Second, it identifies the optimal mapping scheme by using a cost function based on current device noise. Demonstrations on various IBM quantum devices indicate that AOQMAP significantly reduces both gate count and circuit depth compared to traditional mapping approaches, consequently enhancing performance. Specifically, AOQMAP achieves up to 82.1% depth reduction and a 138% average increase in success probability compared to Qiskit, Tket, and SWAP network. This specialized and scalable mapping paradigm can potentially optimize broader quantum algorithm classes. Tailoring qubit mapping to leverage algorithmic features holds the promise of maximizing the performance of near-term quantum algorithms. | 翻訳日:2023-10-17 17:49:02 公開日:2023-10-15 |
# Turn Passive to Active: A Survey on Active Intellectual Property Protection of Deep Learning Models Turn Passive to Active: A Survey on Active Intellectual Property Protection of Deep Learning Models ( http://arxiv.org/abs/2310.09822v1 ) ライセンス: Link先を確認 | Mingfu Xue, Leo Yu Zhang, Yushu Zhang, Weiqiang Liu | (参考訳) 深層学習モデル(DL)の知的財産保護は深刻な関心を集めている。
ディープニューラルネットワーク(DNN)モデルの知的財産保護に関する多くの研究が提案されている。
既存の作業の大部分は、海賊行為後のモデルの所有権を検証するためにDNN透かしを使用しており、これは受動的検証と呼ばれる。
逆に我々は,DNNモデルのアクティブな認証制御とユーザアイデンティティ管理を参考に,アクティブ著作権保護という新たなタイプの知的財産保護手法に注目した。
現在、DNN著作権保護の分野では比較的限定的な研究が行われている。
本稿では,アクティブなdnn著作権保護の意義,属性,要件の明確化,アクティブな著作権保護のための評価方法と指標の提供,アクティブなdlモデル知的財産保護に関する既存の作業のレビューと分析,アクティブなdlモデル著作権保護技術が直面する可能性のある潜在的な攻撃の議論,アクティブなdlモデル知的財産保護の課題と今後の方向性について述べる。
このレビューは、DNN著作権保護の新しい分野を体系的に導入し、その後の作業の参考と基礎を提供するのに役立つ。 The intellectual property protection of deep learning (DL) models has attracted increasing serious concerns. Many works on intellectual property protection for Deep Neural Networks (DNN) models have been proposed. The vast majority of existing work uses DNN watermarking to verify the ownership of the model after piracy occurs, which is referred to as passive verification. On the contrary, we focus on a new type of intellectual property protection method named active copyright protection, which refers to active authorization control and user identity management of the DNN model. As of now, there is relatively limited research in the field of active DNN copyright protection. In this review, we attempt to clearly elaborate on the connotation, attributes, and requirements of active DNN copyright protection, provide evaluation methods and metrics for active copyright protection, review and analyze existing work on active DL model intellectual property protection, discuss potential attacks that active DL model copyright protection techniques may face, and provide challenges and future directions for active DL model intellectual property protection. This review is helpful to systematically introduce the new field of active DNN copyright protection and provide reference and foundation for subsequent work. | 翻訳日:2023-10-17 17:48:40 公開日:2023-10-15 |
# licO: 言語イメージの一貫性を備えた説明可能なモデル LICO: Explainable Models with Language-Image Consistency ( http://arxiv.org/abs/2310.09821v1 ) ライセンス: Link先を確認 | Yiming Lei, Zilong Li, Yangyang Li, Junping Zhang, Hongming Shan | (参考訳) ディープニューラルネットワークの爆発以降、ディープラーニングモデルの決定を解釈する研究が活発に行われている。
最も説得力のある解釈手法の1つは、Grad-CAMのようなサリエンスに基づく視覚的解釈であり、注意マップの生成は分類ラベルにのみ依存する。
既存の解釈手法は説明可能な決定手がかりを提供することができるが、一方のホットラベルからの限定的な識別情報のために、画像とサルジェンシーマップの間に部分的対応を与えることが多い。
本稿では,学習可能な言語プロンプトと対応する視覚特徴を大まかに関連付けることで,説明可能な画像分類のための言語画像一貫性モデル「lico」を開発した。
具体的には,まず画像と言語の特徴の分布間の距離を最小化し,粗大大域多様体構造アライメントを確立する。
次に,局所特徴写像をクラス固有のプロンプトに割り当てるために最適な輸送(OT)理論を適用することにより,細粒度なサリエンシマップを実現する。
8つのベンチマークデータセットの大規模な実験結果から,提案したlicOはGrad-CAMなどの既存の解釈手法と合わせて,より説明可能な注意マップを生成する上で,大幅な改善を達成していることが示された。
注目すべきは、licOは推論中に計算オーバーヘッドを発生させることなく、既存のモデルの分類性能を改善することである。
ソースコードはhttps://github.com/ymleifdu/licoで入手できる。 Interpreting the decisions of deep learning models has been actively studied since the explosion of deep neural networks. One of the most convincing interpretation approaches is salience-based visual interpretation, such as Grad-CAM, where the generation of attention maps depends merely on categorical labels. Although existing interpretation methods can provide explainable decision clues, they often yield partial correspondence between image and saliency maps due to the limited discriminative information from one-hot labels. This paper develops a Language-Image COnsistency model for explainable image classification, termed LICO, by correlating learnable linguistic prompts with corresponding visual features in a coarse-to-fine manner. Specifically, we first establish a coarse global manifold structure alignment by minimizing the distance between the distributions of image and language features. We then achieve fine-grained saliency maps by applying optimal transport (OT) theory to assign local feature maps with class-specific prompts. Extensive experimental results on eight benchmark datasets demonstrate that the proposed LICO achieves a significant improvement in generating more explainable attention maps in conjunction with existing interpretation methods such as Grad-CAM. Remarkably, LICO improves the classification performance of existing models without introducing any computational overhead during inference. Source code is made available at https://github.com/ymLeiFDU/LICO. | 翻訳日:2023-10-17 17:48:19 公開日:2023-10-15 |
# 大規模言語モデル知識の信頼性の評価 Assessing the Reliability of Large Language Model Knowledge ( http://arxiv.org/abs/2310.09820v1 ) ライセンス: Link先を確認 | Weixuan Wang, Barry Haddow, Alexandra Birch, Wei Peng | (参考訳) 大規模言語モデル(llm)は、知識探索タスクの性能が高いため、知識ベースとして扱われてきた。
LLMは通常、精度で評価されるが、この測定基準は、プロンプトや文脈変数のような幻覚誘発因子に対するLSMの脆弱性を捉えていない。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
本稿では,LLMの信頼性を直接測定する手法であるMOdel kNowledge relIabiliTy scORe (MONITOR)を提案する。
MONITORは, 有効出力の確率分布と同一のLLMが生成する確率分布との距離を, プロンプトとコンテキストの異なるスタイルを用いて計算し, 計算オーバーヘッドを低く抑えながら, 実際の信頼性を評価するMONITORの有効性を実証した。
さらに、FKTC(Factual Knowledge Test Corpus)テストセットをリリースし、210,158のプロンプトを合計して、この線に沿った研究を促進する(https://github.com/Vicky-Wil/MONITOR)。 Large language models (LLMs) have been treated as knowledge bases due to their strong performance in knowledge probing tasks. LLMs are typically evaluated using accuracy, yet this metric does not capture the vulnerability of LLMs to hallucination-inducing factors like prompt and context variability. How do we evaluate the capabilities of LLMs to consistently produce factually correct answers? In this paper, we propose MOdel kNowledge relIabiliTy scORe (MONITOR), a novel metric designed to directly measure LLMs' factual reliability. MONITOR computes the distance between the probability distributions of a valid output and its counterparts produced by the same LLM probing the same fact using different styles of prompts and contexts.Experiments on a comprehensive range of 12 LLMs demonstrate the effectiveness of MONITOR in evaluating the factual reliability of LLMs while maintaining a low computational overhead. In addition, we release the FKTC (Factual Knowledge Test Corpus) test set, containing 210,158 prompts in total to foster research along this line (https://github.com/Vicky-Wil/MONITOR). | 翻訳日:2023-10-17 17:47:56 公開日:2023-10-15 |
# ビッグデータのためのK平均の最適化:比較研究 Optimizing K-means for Big Data: A Comparative Study ( http://arxiv.org/abs/2310.09819v1 ) ライセンス: Link先を確認 | Ravil Mussabayev, Rustam Mussabayev | (参考訳) 本稿では,ビッグデータの文脈におけるk-meansアルゴリズムの最適化手法の比較分析を行う。
k-meansは広く使用されているクラスタリングアルゴリズムだが、大規模なデータセットを扱う場合、スケーラビリティの問題に苦しむ可能性がある。
この論文は、並列化、近似、サンプリング法など、これらの問題を克服するための様々なアプローチを探求する。
筆者らは,様々なベンチマークデータセットにおけるこれらの手法の性能を評価し,lima支配基準に従って,速度,クラスタリングの質,スケーラビリティの観点から比較した。
その結果、異なる手法がデータセットの異なるタイプに適していることが示され、ビッグデータのK平均クラスタリングにおける速度と精度のトレードオフに関する洞察を提供する。
全体として、この論文は、ビッグデータアプリケーションにK平均をどのように最適化するかについて、実践者や研究者に包括的なガイドを提供する。 This paper presents a comparative analysis of different optimization techniques for the K-means algorithm in the context of big data. K-means is a widely used clustering algorithm, but it can suffer from scalability issues when dealing with large datasets. The paper explores different approaches to overcome these issues, including parallelization, approximation, and sampling methods. The authors evaluate the performance of these techniques on various benchmark datasets and compare them in terms of speed, quality of clustering, and scalability according to the LIMA dominance criterion. The results show that different techniques are more suitable for different types of datasets and provide insights into the trade-offs between speed and accuracy in K-means clustering for big data. Overall, the paper offers a comprehensive guide for practitioners and researchers on how to optimize K-means for big data applications. | 翻訳日:2023-10-17 17:47:37 公開日:2023-10-15 |
# 大規模言語モデル(LLM)を用いたテキスト分散グラフ学習 Empower Text-Attributed Graphs Learning with Large Language Models (LLMs) ( http://arxiv.org/abs/2310.09872v1 ) ライセンス: Link先を確認 | Jianxiang Yu, Yuxiang Ren, Chenghua Gong, Jiaqi Tan, Xiang Li, Xuecang Zhang | (参考訳) テキスト属性グラフは最近、webドメインの幅広いアプリケーションのために大きな注目を集めている。
既存の手法では、単語埋め込みモデルを用いてテキスト表現をノードの特徴として取得し、訓練のためにグラフニューラルネットワーク(GNN)に入力する。
近年,大規模言語モデル(llms)の出現により,グラフデータのテキスト属性が大幅に向上する情報検索とテキスト生成において,その強力な能力が導入された。
さらに、広範囲なデータセットの取得とラベリングはコストも時間もかかる作業である。
その結果、グラフ学習タスクの文脈において、わずかなショット学習が重要な問題として現れてきた。
この課題に対処するために,LLMを用いたノード生成によるテキスト分散グラフの強化にプラグイン・アンド・プレイ方式を採用したENGという軽量パラダイムを提案する。
具体的には、LSMを用いてラベルから意味情報を抽出し、これらのカテゴリに属するサンプルを例示として生成する。
次に、エッジ予測器を用いて、生のデータセットに固有の構造情報をキャプチャし、新たに生成されたサンプルを元のグラフに統合する。
このアプローチでは、クラスレベルの情報を強化するためにllmを利用し、生のデータセットを変更することなくラベル付きノードとエッジをシームレスに導入する。
広範な実験により,提案手法,特に低ショットシナリオの性能が実証された。
例えば、ogbn-arxivデータセットの1ショット設定では、ENGはベースラインモデルよりも76%改善されている。 Text-attributed graphs have recently garnered significant attention due to their wide range of applications in web domains. Existing methodologies employ word embedding models for acquiring text representations as node features, which are subsequently fed into Graph Neural Networks (GNNs) for training. Recently, the advent of Large Language Models (LLMs) has introduced their powerful capabilities in information retrieval and text generation, which can greatly enhance the text attributes of graph data. Furthermore, the acquisition and labeling of extensive datasets are both costly and time-consuming endeavors. Consequently, few-shot learning has emerged as a crucial problem in the context of graph learning tasks. In order to tackle this challenge, we propose a lightweight paradigm called ENG, which adopts a plug-and-play approach to empower text-attributed graphs through node generation using LLMs. Specifically, we utilize LLMs to extract semantic information from the labels and generate samples that belong to these categories as exemplars. Subsequently, we employ an edge predictor to capture the structural information inherent in the raw dataset and integrate the newly generated samples into the original graph. This approach harnesses LLMs for enhancing class-level information and seamlessly introduces labeled nodes and edges without modifying the raw dataset, thereby facilitating the node classification task in few-shot scenarios. Extensive experiments demonstrate the outstanding performance of our proposed paradigm, particularly in low-shot scenarios. For instance, in the 1-shot setting of the ogbn-arxiv dataset, ENG achieves a 76% improvement over the baseline model. | 翻訳日:2023-10-17 17:41:46 公開日:2023-10-15 |
# フェデレーション多目的学習 Federated Multi-Objective Learning ( http://arxiv.org/abs/2310.09866v1 ) ライセンス: Link先を確認 | Haibo Yang, Zhuqing Liu, Jia Liu, Chaosheng Dong, Michinari Momma | (参考訳) 近年、多目的最適化(MOO)は多くのマルチエージェントマルチタスク学習アプリケーションを支える基礎的な問題として現れている。
しかし,MOO文学における既存のアルゴリズムは,マルチエージェントマルチタスク学習アプリケーションの分散性やデータプライバシ要求を満足しない集中型学習設定に限定されている。
これにより、複数のクライアントがMOO問題を分散的かつ協調的に解決し、トレーニングデータをプライベートに保ちながら、新しいFMOL(Federated Multi-Objective Learning)フレームワークを提案することができる。
特に,我々のFMOLフレームワークは,異なるクライアント間で異なる目的関数のセットを提供して,MOOの定式化を初めてフェデレート学習パラダイムに発展させ,一般化する幅広いアプリケーションをサポートする。
このfmolフレームワークのために,federated multi-gradient descent averaging (fmgda) と federated stochastic multi-gradient descent averaging (fsmgda) と呼ばれる2つの新しいfederated multi-objective optimization (fmoo) アルゴリズムを提案する。
どちらのアルゴリズムも、局所的な更新によって通信コストを大幅に削減できる一方で、単一目的のフェデレーション学習におけるアルゴリズムのコンバージェンスレートも向上している。
また,提案したFMOOアルゴリズムの有効性についても検討した。 In recent years, multi-objective optimization (MOO) emerges as a foundational problem underpinning many multi-agent multi-task learning applications. However, existing algorithms in MOO literature remain limited to centralized learning settings, which do not satisfy the distributed nature and data privacy needs of such multi-agent multi-task learning applications. This motivates us to propose a new federated multi-objective learning (FMOL) framework with multiple clients distributively and collaboratively solving an MOO problem while keeping their training data private. Notably, our FMOL framework allows a different set of objective functions across different clients to support a wide range of applications, which advances and generalizes the MOO formulation to the federated learning paradigm for the first time. For this FMOL framework, we propose two new federated multi-objective optimization (FMOO) algorithms called federated multi-gradient descent averaging (FMGDA) and federated stochastic multi-gradient descent averaging (FSMGDA). Both algorithms allow local updates to significantly reduce communication costs, while achieving the {\em same} convergence rates as those of the their algorithmic counterparts in the single-objective federated learning. Our extensive experiments also corroborate the efficacy of our proposed FMOO algorithms. | 翻訳日:2023-10-17 17:41:22 公開日:2023-10-15 |
# ツイストを持つバビロフ・チェレンコフの放出:最後の絡み合い状態の研究 Vavilov-Cherenkov emission with a twist: a study of the final entangled state ( http://arxiv.org/abs/2310.09864v1 ) ライセンス: Link先を確認 | A.D. Chaikovskaia, D.V. Karlovets, V.G. Serbo | (参考訳) 平面波電子またはツイスト電子によるバヴィロフ・チェレンコフ放射は、量子電磁力学において考慮される。
ねじれた電子は、運動の方向に全角運動量 (tam) $m=\pm 1/2,\, \pm 3/2,\ldots$ の明確な射影を持つ。
座標と運動量表現の正確な解析式は、放射過程自体の結果発生し、検出器の特性に依存しない最終二成分系の進化した波動関数に対して見出される。
この進化した波動関数は電子と光子の絡み合った状態であり、どちらの粒子もねじれることが示されている。
興味深い可能性として、一定のTAM射影を持つツイスト電子に敏感な検出器を用いると、最終光子も自動的にツイスト状態に投影される。
ソフト光子の近似や超相対論的電子も考慮される。
さらに、議論された問題と、深部非弾性な$ep$-scatteringにおける仮想光子の放出と、Weizs\acker-Williams法における等価光子の放出に対する進化波関数との密接な類似性を指摘した。 The Vavilov-Cherenkov radiation by a plane-wave electron or a twisted electron is considered within quantum electrodynamics. A twisted electron has a definite projection of the total angular momentum (TAM) $m=\pm 1/2,\, \pm 3/2,\ldots$ on the direction of motion. An exact analytical expression in the coordinate and momentum representations is found for the evolved wave function of the final bipartite system, which has arisen as a result of the radiation process itself and does not depend on the properties of a detector. It is shown that this evolved wave function is an entangled state of an electron and a photon, and both particles can be twisted. It provides an interesting possibility: if we use a detector sensitive to the twisted electron with the definite TAM projection, then the final photon also is automatically projected onto the twisted state. Approximations of soft photons as well as of ultra-relativistic electrons are considered. Besides, we point out a close similarity between the discussed problem and the problem of the evolved wave function for the emission of the virtual photons in the deep inelastic $ep$-scattering as well as for the emission of the equivalent photons in the Weizs\"acker-Williams method. | 翻訳日:2023-10-17 17:41:01 公開日:2023-10-15 |
# V2Xネットワークにおける資源配分のためのフェデレーション強化学習 Federated Reinforcement Learning for Resource Allocation in V2X Networks ( http://arxiv.org/abs/2310.09858v1 ) ライセンス: Link先を確認 | Kaidi Xu, Shenglong Zhou, and Geoffrey Ye Li | (参考訳) 資源配分はV2Xネットワークの性能に大きな影響を及ぼす。
リソース割り当てのための既存のアルゴリズムのほとんどは最適化や機械学習(強化学習など)に基づいている。
本稿では,フェデレート強化学習(FRL)の枠組みの下で,V2Xネットワークにおける資源配分について検討する。
一方、RLの使用はモデルベースの最適化スキームから多くの課題を克服する。
一方、連合学習(federated learning:fl)は、エージェントがプライバシ、通信オーバーヘッド、探索効率など、多くの実用的な問題に対処することを可能にする。
FRLのフレームワークは、不正確な乗算器の代替方向法(ADMM)によって実装され、サブプロブレムはポリシー勾配を用いてほぼ解決され、第2モーメントから計算された適応ステップサイズによって加速される。
開発アルゴリズムPASMは, 緩やかな条件下で収束することが証明され, V2Xネットワークにおける資源配分問題の解法に比べて, 優れた数値計算性能を有する。 Resource allocation significantly impacts the performance of vehicle-to-everything (V2X) networks. Most existing algorithms for resource allocation are based on optimization or machine learning (e.g., reinforcement learning). In this paper, we explore resource allocation in a V2X network under the framework of federated reinforcement learning (FRL). On one hand, the usage of RL overcomes many challenges from the model-based optimization schemes. On the other hand, federated learning (FL) enables agents to deal with a number of practical issues, such as privacy, communication overhead, and exploration efficiency. The framework of FRL is then implemented by the inexact alternative direction method of multipliers (ADMM), where subproblems are solved approximately using policy gradients and accelerated by an adaptive step size calculated from their second moments. The developed algorithm, PASM, is proven to be convergent under mild conditions and has a nice numerical performance compared with some baseline methods for solving the resource allocation problem in a V2X network. | 翻訳日:2023-10-17 17:40:35 公開日:2023-10-15 |
# MERTech:マルチタスクファインタニングによる自己教師付き事前学習モデルによる楽器演奏検出 MERTech: Instrument Playing Technique Detection Using Self-Supervised Pretrained Model With Multi-Task Finetuning ( http://arxiv.org/abs/2310.09853v1 ) ライセンス: Link先を確認 | Dichucheng Li, Yinghao Ma, Weixing Wei, Qiuqiang Kong, Yulun Wu, Mingjin Che, Fan Xia, Emmanouil Benetos, Wei Li | (参考訳) 楽器演奏技術(IPT)は、音楽表現の重要な要素である。
しかし,IPT自動検出手法の開発は,ラベル付きデータやクラス不均衡の問題に悩まされている。
本稿では,大規模未ラベル音楽データに事前学習した自己教師型学習モデルを適用し,IPT検出タスクに微調整する。
このアプローチはデータの不足とクラス不均衡の問題に対処する。
IPTのニュアンスを捕捉する際のピッチの重要性と、IPTイベントの位置決定におけるオンセットの重要性を認識し、ピッチとオンセット検出によるマルチタスクファインタニングを補助課題として検討した。
さらに、イベントレベルの予測に後処理アプローチを適用し、オンセット出力がそのフレームのオンセットを確認する場合にのみ、IPTアクティベーションがイベントを開始する。
提案手法は, フレームレベルとイベントレベルの両方のメトリクスにおいて, 複数のIMTベンチマークデータセットで先行手法より優れていた。
さらなる実験では、各IMTクラスにおけるマルチタスクファインタニングの有効性が示されている。 Instrument playing techniques (IPTs) constitute a pivotal component of musical expression. However, the development of automatic IPT detection methods suffers from limited labeled data and inherent class imbalance issues. In this paper, we propose to apply a self-supervised learning model pre-trained on large-scale unlabeled music data and finetune it on IPT detection tasks. This approach addresses data scarcity and class imbalance challenges. Recognizing the significance of pitch in capturing the nuances of IPTs and the importance of onset in locating IPT events, we investigate multi-task finetuning with pitch and onset detection as auxiliary tasks. Additionally, we apply a post-processing approach for event-level prediction, where an IPT activation initiates an event only if the onset output confirms an onset in that frame. Our method outperforms prior approaches in both frame-level and event-level metrics across multiple IPT benchmark datasets. Further experiments demonstrate the efficacy of multi-task finetuning on each IPT class. | 翻訳日:2023-10-17 17:40:16 公開日:2023-10-15 |
# アルファ除去: 深部強化学習を用いたスパースマトリックス分解時のフィルイン低減 Alpha Elimination: Using Deep Reinforcement Learning to Reduce Fill-In during Sparse Matrix Decomposition ( http://arxiv.org/abs/2310.09852v1 ) ライセンス: Link先を確認 | Arpan Dasgupta, Pawan Kumar | (参考訳) 多くの計算および科学的手法では、一般に LU 分解としてスパース行列を三角要素に分解する必要がある。
この分解の間に直面する一般的な問題は、与えられた行列が非常にスパースであるとしても、分解は充填によってより密な三角因子をもたらす可能性があることである。
重要な補充は、分解時や解法段階での計算コストとメモリ要求を著しく増大させる可能性がある。
この目的のために、分解前の補充を減らすために、いくつかのヒューリスティックスパース行列再構成法が提案されている。
しかし、そのような分解の際の最小の補充につながる最適再順序アルゴリズムを見つけることはNPハード問題であることが知られている。
この問題に対して強化学習に基づくアプローチを提案する。
スパース行列のリオーダー問題は単一プレイヤーゲームとして定式化される。
より具体的には、ニューラルネットワークと組み合わせたモンテカルロ木探索は、我々のゲームで最高の動きを探すための決定アルゴリズムとして使用される。
提案手法であるアルファエリミネーションは,アルゴリズム全体の実行時間をほとんど増減させることなく,既存の最先端ヒューリスティックアルゴリズムに比べ,lu分解の非零度が有意に小さいことが判明した。
プロジェクトのコードは、github.com/misterpawan/alphaeliminationpaper}}で公開されている。 A large number of computational and scientific methods commonly require decomposing a sparse matrix into triangular factors as LU decomposition. A common problem faced during this decomposition is that even though the given matrix may be very sparse, the decomposition may lead to a denser triangular factors due to fill-in. A significant fill-in may lead to prohibitively larger computational costs and memory requirement during decomposition as well as during the solve phase. To this end, several heuristic sparse matrix reordering methods have been proposed to reduce fill-in before the decomposition. However, finding an optimal reordering algorithm that leads to minimal fill-in during such decomposition is known to be a NP-hard problem. A reinforcement learning based approach is proposed for this problem. The sparse matrix reordering problem is formulated as a single player game. More specifically, Monte-Carlo tree search in combination with neural network is used as a decision making algorithm to search for the best move in our game. The proposed method, alphaElimination is found to produce significantly lesser non-zeros in the LU decomposition as compared to existing state-of-the-art heuristic algorithms with little to no increase in overall running time of the algorithm. The code for the project will be publicly available here\footnote{\url{https://github.com/misterpawan/alphaEliminationPaper}}. | 翻訳日:2023-10-17 17:40:00 公開日:2023-10-15 |
# 非マルコフチャネルによるロバスト量子テレポーテーション Robust quantum teleportation via a non-Markovian channel ( http://arxiv.org/abs/2310.09851v1 ) ライセンス: Link先を確認 | Yanfang Wang, Shibei Xue, Hongbin Song, Min Jiang | (参考訳) 本稿では,連続可変量子テレポーテーションにおける平均忠実度劣化を緩和する非マルコフ量子チャネル手法を提案する。
非マルコフ量子チャネルは、非マルコフ環境の内部モードを表現するために補助系を導入する拡張系によってモデル化される。
適切な非マルコフ性により、連続可変量子テレポーテーションに対するチャネルの強化効果が観察される。
また、絡み合った状態の対数否定性は、量子テレポーテーションの平均忠実度の減衰を緩和するように効果的に維持することができる。
さらに、異なるテレポーティング量子状態の解析は、コヒーレント状態が非マルコフチャネルとの量子テレポーテーションにおいて、圧縮状態や猫状態よりも強い強靭性を示すことを示している。 In this paper, we propose a non-Markovian quantum channel approach to mitigating the degradation of the average fidelity in continuous-variable quantum teleportation. The non-Markovian quantum channel is modeled by an augmented system, where ancillary systems are introduced to represent the internal modes of non-Markovian environments. With a proper non-Markovianity, enhanced effects of the channels on continuous-variable quantum teleportation are observed. Also, the logarithmic negativity of entangled states can be effectively maintained so that the decay of the average fidelity of quantum teleportation is mitigated. In addition, the analysis on different teleported quantum states shows that coherent states exhibit stronger robustness than those of squeezed states and cat states in quantum teleportation with a non-Markovian channel. | 翻訳日:2023-10-17 17:39:43 公開日:2023-10-15 |
# 数量化モラル基盤によるスタンス分類の強化 Enhancing Stance Classification with Quantified Moral Foundations ( http://arxiv.org/abs/2310.09848v1 ) ライセンス: Link先を確認 | Hong Zhang, Prasanta Bhattacharya, Wei Gao, Liang Ze Wong, Brandon Siyuan Loh, Joseph J. P. Simons, Jisun An | (参考訳) 本研究は,より深い心理的属性,特に個人のモラル基盤を取り入れ,ソーシャルメディアにおけるスタンス検出を強化する。
これらの理論的に派生した次元は、社会、政治、健康、環境など、様々な領域における行動と結びついている個人の道徳的関心の包括的プロファイルを提供することを目的としている。
本稿では,モラル基礎次元が対象に対する個人のスタンス予測にどのように寄与するかを検討する。
具体的には、テキストから抽出した道徳的基礎的特徴とメッセージ意味的特徴を組み込んで、さまざまなターゲットやモデルにわたるメッセージレベルとユーザレベルのスタンスを分類する。
予備結果は,モラル基盤の符号化により,スタンス検出タスクの性能が向上し,特定のモラル基盤と対象トピックに対するオンラインスタンスとの関連性が高まることを示唆する。
その結果、スタンス分析においてより深い心理的属性を考慮することの重要性を強調し、オンライン社会行動を導く上での道徳的基礎の役割を強調した。 This study enhances stance detection on social media by incorporating deeper psychological attributes, specifically individuals' moral foundations. These theoretically-derived dimensions aim to provide a comprehensive profile of an individual's moral concerns which, in recent work, has been linked to behaviour in a range of domains, including society, politics, health, and the environment. In this paper, we investigate how moral foundation dimensions can contribute to predicting an individual's stance on a given target. Specifically we incorporate moral foundation features extracted from text, along with message semantic features, to classify stances at both message- and user-levels across a range of targets and models. Our preliminary results suggest that encoding moral foundations can enhance the performance of stance detection tasks and help illuminate the associations between specific moral foundations and online stances on target topics. The results highlight the importance of considering deeper psychological attributes in stance analysis and underscores the role of moral foundations in guiding online social behavior. | 翻訳日:2023-10-17 17:39:31 公開日:2023-10-15 |
# XRMDN: 高ボラティリティを有するモビリティオンデスマンドシステムにおける短期確率的需要予測のための繰り返し混合密度ネットワークに基づくアーキテクチャ XRMDN: A Recurrent Mixture Density Networks-based Architecture for Short-Term Probabilistic Demand Forecasting in Mobility-on-Demand Systems with High Volatility ( http://arxiv.org/abs/2310.09847v1 ) ライセンス: Link先を確認 | Xiaoming Li, Hubert Normandin-Taillon, Chun Wang, Xiao Huang | (参考訳) 実際のモビリティ・オン・デマンド(MoD)システムでは、需要は高度かつ動的に変動し、従来の時系列予測手法では予測が困難である。
既存の予測手法のほとんどは、予測結果としてポイント値を与え、予測結果に存在する不確かさを無視する。
これにより、需要に存在するボラティリティの高いため、真の需要値から大幅にずれる予測結果につながる。
このギャップを埋めるために,重みと平均ニューラルネットワークをリカレントニューラルネットワークに拡張した拡張リカレント混合密度ネットワーク(xrmdn)を提案する。
平均と分散の繰り返しニューロンは、過去のデータシリーズデータの傾向を捉え、動的かつ高いボラティリティの予測結果を改善することができる。
xrmdnの性能を検証するために,タクシー旅行記録1台と自転車シェアリング実機データ1台について総合的な実験を行った。
具体的には,3つの評価指標を用いて,統計モデル,機械学習モデル,ディープラーニングモデルなどの3種類のベンチマークモデルと比較した。
評価結果から,XRMDNは評価指標の点でベンチマークモデルの3つのグループよりも優れていた。
最も重要な点として、XRMDNは強いボラティリティの要求により予測精度を大幅に改善する。
最後に、この確率的需要予測モデルは、MoDシステムの需要予測だけでなく、MoDアプリケーションの他の最適化アプリケーション問題、特に不確実性の下での最適化にも寄与する。 In real Mobility-on-Demand (MoD) systems, demand is subject to high and dynamic volatility, which is difficult to predict by conventional time-series forecasting approaches. Most existing forecasting approaches yield the point value as the prediction result, which ignores the uncertainty that exists in the forecasting result. This will lead to the forecasting result severely deviating from the true demand value due to the high volatility existing in demand. To fill the gap, we propose an extended recurrent mixture density network (XRMDN), which extends the weight and mean neural networks to recurrent neural networks. The recurrent neurons for mean and variance can capture the trend of the historical data-series data, which enables a better forecasting result in dynamic and high volatility. We conduct comprehensive experiments on one taxi trip record and one bike-sharing real MoD data set to validate the performance of XRMDN. Specifically, we compare our model to three types of benchmark models, including statistical, machine learning, and deep learning models on three evaluation metrics. The validation results show that XRMDN outperforms the three groups of benchmark models in terms of the evaluation metrics. Most importantly, XRMDN substantially improves the forecasting accuracy with the demands in strong volatility. Last but not least, this probabilistic demand forecasting model contributes not only to the demand prediction in MoD systems but also to other optimization application problems, especially optimization under uncertainty, in MoD applications. | 翻訳日:2023-10-17 17:39:13 公開日:2023-10-15 |
# CoCoFormer: 制御可能な機能豊富なポリフォニック音楽生成法 CoCoFormer: A controllable feature-rich polyphonic music generation method ( http://arxiv.org/abs/2310.09843v1 ) ライセンス: Link先を確認 | Jiuyang Zhou, Tengfei Niu, Hong Zhu, Xingping Wang | (参考訳) 本稿では,ポリフォニック音楽系列のモデル化手法について述べる。
音楽生成におけるトランスフォーマーモデルの可能性が大きいため、制御可能な音楽生成が注目されている。
ポリフォニック音楽の課題において、現在制御可能な生成研究はコード生成の制御に焦点を当てているが、合唱音楽テクスチャの制御可能な生成の正確な調整が欠けている。
本稿では,コードとリズムの入力をきめ細かいレベルで制御することで,モデルの出力を制御する条件合唱変換器(CoCoFormer)を提案する。
本稿では,自己教師方式により損失関数が向上し,条件制御入力と非条件入力トレーニングによる共同訓練を行う。
そこで本研究では,教師の強制訓練による生成サンプルの多様性の欠如を緩和するために,逆訓練法を付加した。
CoCoFormerは、コードとリズムへの明示的で暗黙的な入力でモデルパフォーマンスを向上させる。
本稿では,CoCoFormerが現在のモデルよりも優れたレベルに達したことを実証する。
ポリフォニック音楽のテクスチャを規定する前提では、同じメロディを様々な方法で生成することも可能である。 This paper explores the modeling method of polyphonic music sequence. Due to the great potential of Transformer models in music generation, controllable music generation is receiving more attention. In the task of polyphonic music, current controllable generation research focuses on controlling the generation of chords, but lacks precise adjustment for the controllable generation of choral music textures. This paper proposed Condition Choir Transformer (CoCoFormer) which controls the output of the model by controlling the chord and rhythm inputs at a fine-grained level. In this paper, the self-supervised method improves the loss function and performs joint training through conditional control input and unconditional input training. In order to alleviate the lack of diversity on generated samples caused by the teacher forcing training, this paper added an adversarial training method. CoCoFormer enhances model performance with explicit and implicit inputs to chords and rhythms. In this paper, the experiments proves that CoCoFormer has reached the current better level than current models. On the premise of specifying the polyphonic music texture, the same melody can also be generated in a variety of ways. | 翻訳日:2023-10-17 17:38:47 公開日:2023-10-15 |
# ゼロショットクロスランガル生成のための事前訓練された多言語言語モデルの実証的研究 Empirical study of pretrained multilingual language models for zero-shot cross-lingual generation ( http://arxiv.org/abs/2310.09917v1 ) ライセンス: Link先を確認 | Nadezhda Chirkova, Sheng Liang, Vassilina Nikoulina | (参考訳) ゼロショットクロスランガル生成は、ある言語における生成タスクにおいて、多言語事前訓練言語モデル(mPLM)を微調整し、そのタスクを他の言語で予測するために使用する。
以前の作業では、間違った言語で頻繁に発生する問題に気付き、通常、mT5をバックボーンモデルとして使用して対処するためのアプローチを提案する。
本研究では,mBART や NLLB などの代替 mPLM を,アダプタを用いた完全微調整およびパラメータ効率の高い微調整について検討する。
アダプタ付きmbartはmt5と同じ大きさで動作し、場合によってはnllbと競合する可能性がある。
また、微調整に使用する学習率の調整の重要性も強調し、誤った言語で生成する問題を緩和するのに役立ちます。 Zero-shot cross-lingual generation assumes finetuning the multilingual pretrained language model (mPLM) on a generation task in one language and then using it to make predictions for this task in other languages. Previous works notice a frequent problem of generation in a wrong language and propose approaches to address it, usually using mT5 as a backbone model. In this work, we test alternative mPLMs, such as mBART and NLLB, considering full finetuning and parameter-efficient finetuning with adapters. We find that mBART with adapters performs similarly to mT5 of the same size, and NLLB can be competitive in some cases. We also underline the importance of tuning learning rate used for finetuning, which helps to alleviate the problem of generation in the wrong language. | 翻訳日:2023-10-17 17:31:50 公開日:2023-10-15 |
# 事前学習拡散モデルのh空間における解釈方向の教師なし発見 Unsupervised Discovery of Interpretable Directions in h-space of Pre-trained Diffusion Models ( http://arxiv.org/abs/2310.09912v1 ) ライセンス: Link先を確認 | Zijian Zhang, Luping Liu. Zhijie Lin, Yichen Zhu, Zhou Zhao | (参考訳) 本稿では,事前学習された拡散モデルのh空間における解釈可能な方向を識別する,教師なし学習に基づく最初の手法を提案する。
提案手法は,GAN潜在空間で動作する既存の手法から導かれる。
簡単に言うと、我々は事前訓練された拡散モデルにシフト制御モジュールを使用し、サンプルを自分自身のシフトバージョンに操作し、次いで再構成器を用いて操作のタイプと強度を再現する。
それらを共同で最適化することで、モデルは自然に絡み合った解釈可能な方向を発見する。
無意味かつ破壊的な方向の発見を防止するため、シフトサンプルの忠実性を維持するために識別器を用いる。
拡散モデルの反復的生成過程のため、バックプロパゲート勾配に多くの中間テンソルを格納するために、我々のトレーニングは相当量のGPU VRAMを必要とする。
この問題に対処するために,我々はまず,vramの占有と訓練効率の犠牲を許容し,生成過程全体を通して任意の勾配をバックプロパゲーションする勾配チェックポイント技術に基づく一般的なvram効率のトレーニングアルゴリズムを提案する。
拡散モデルに関する既存の研究と比較して,本手法は,他の複雑な手順を必要とせず,本質的にグローバルかつスケーラブルな方向を識別する。
各種データセットに対する大規模な実験により,本手法の有効性が示された。 We propose the first unsupervised and learning-based method to identify interpretable directions in the h-space of pre-trained diffusion models. Our method is derived from an existing technique that operates on the GAN latent space. In a nutshell, we employ a shift control module for pre-trained diffusion models to manipulate a sample into a shifted version of itself, followed by a reconstructor to reproduce both the type and the strength of the manipulation. By jointly optimizing them, the model will spontaneously discover disentangled and interpretable directions. To prevent the discovery of meaningless and destructive directions, we employ a discriminator to maintain the fidelity of shifted sample. Due to the iterative generative process of diffusion models, our training requires a substantial amount of GPU VRAM to store numerous intermediate tensors for back-propagating gradient. To address this issue, we first propose a general VRAM-efficient training algorithm based on gradient checkpointing technique to back-propagate any gradient through the whole generative process, with acceptable occupancy of VRAM and sacrifice of training efficiency. Compared with existing related works on diffusion models, our method inherently identifies global and scalable directions, without necessitating any other complicated procedures. Extensive experiments on various datasets demonstrate the effectiveness of our method. | 翻訳日:2023-10-17 17:31:35 公開日:2023-10-15 |
# GPT-4V(ision)は医療応用に有効か?
マルチモーダル医療診断のためのgpt-4vのケーススタディ Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for Multimodal Medical Diagnosis ( http://arxiv.org/abs/2310.09909v1 ) ライセンス: Link先を確認 | Chaoyi Wu, Jiayu Lei, Qiaoyu Zheng, Weike Zhao, Weixiong Lin, Xiaoman Zhang, Xiao Zhou, Ziheng Zhao, Ya Zhang, Yanfeng Wang and Weidi Xie | (参考訳) 大規模なファンデーションモデルによって主導された人工知能の開発は、最近大きな進歩を目の当たりにしており、一般大衆の関心が高まっている。
本研究では,openaiの最新モデルであるgpt-4v(ision)の性能をマルチモーダル医療診断の分野で評価することを目的とした。
Our evaluation encompasses 17 human body systems, including Central Nervous System, Head and Neck, Cardiac, Chest, Hematology, Hepatobiliary, Gastrointestinal, Urogenital, Gynecology, Obstetrics, Breast, Musculoskeletal, Spine, Vascular, Oncology, Trauma, Pediatrics, with images taken from 8 modalities used in daily clinic routine, e.g., X-ray, Computed Tomography (CT), Magnetic Resonance Imaging (MRI), Positron Emission Tomography (PET), Digital Subtraction Angiography (DSA), Mammography, Ultrasound, and Pathology.
画像診断,解剖学的認識,疾患診断,レポート生成,疾患局所化など,特許歴の有無に関わらず,複数の臨床課題においてgpt-4vの能力を調べる。
以上の結果から,GPT-4Vは医用画像モダリティと解剖学を区別する能力を示したが,疾患の診断や包括的報告の獲得には大きな課題があった。
これらの結果は、大規模なマルチモーダルモデルがコンピュータビジョンと自然言語処理に大きな進歩を遂げた一方で、現実の医療応用や臨床的意思決定を効果的にサポートするには程遠いことを示している。
このレポートで使用されるすべての画像はhttps://github.com/chaoyi-wu/GPT-4V_Medical_Evaluationで見ることができる。 Driven by the large foundation models, the development of artificial intelligence has witnessed tremendous progress lately, leading to a surge of general interest from the public. In this study, we aim to assess the performance of OpenAI's newest model, GPT-4V(ision), specifically in the realm of multimodal medical diagnosis. Our evaluation encompasses 17 human body systems, including Central Nervous System, Head and Neck, Cardiac, Chest, Hematology, Hepatobiliary, Gastrointestinal, Urogenital, Gynecology, Obstetrics, Breast, Musculoskeletal, Spine, Vascular, Oncology, Trauma, Pediatrics, with images taken from 8 modalities used in daily clinic routine, e.g., X-ray, Computed Tomography (CT), Magnetic Resonance Imaging (MRI), Positron Emission Tomography (PET), Digital Subtraction Angiography (DSA), Mammography, Ultrasound, and Pathology. We probe the GPT-4V's ability on multiple clinical tasks with or without patent history provided, including imaging modality and anatomy recognition, disease diagnosis, report generation, disease localisation. Our observation shows that, while GPT-4V demonstrates proficiency in distinguishing between medical image modalities and anatomy, it faces significant challenges in disease diagnosis and generating comprehensive reports. These findings underscore that while large multimodal models have made significant advancements in computer vision and natural language processing, it remains far from being used to effectively support real-world medical applications and clinical decision-making. All images used in this report can be found in https://github.com/chaoyi-wu/GPT-4V_Medical_Evaluation. | 翻訳日:2023-10-17 17:30:59 公開日:2023-10-15 |
# 認知症における言語障害の経時的管理のためのNLPタスクの再構築 Reformulating NLP tasks to Capture Longitudinal Manifestation of Language Disorders in People with Dementia ( http://arxiv.org/abs/2310.09897v1 ) ライセンス: Link先を確認 | Dimitris Gkoumas, Matthew Purver, Maria Liakata | (参考訳) 認知症はコミュニケーションを妨げる言語障害と関連している。
そこで我々は,中程度の大きさの事前学習型言語モデルを用いて言語障害パターンを自動的に学習し,自然言語処理(NLP)タスクと関連する言語パターンに着目した。
実験の結果,文脈情報をカプセル化し,言語パターンによる勾配信号を強化するNLPタスクは,性能に有益であることがわかった。
次に、最良のモデルからの確率推定を用いて、コミュニケーションにおける全体的な品質と様々な言語障害の強度を測定するデジタル言語マーカーを構築する。
デジタルマーカーが認知症音声を縦断的に特徴づける方法について検討した。
提案するコミュニケーションマーカーは,認知症患者の言語を堅牢かつ確実に特徴付けることができ,既存の言語的アプローチよりも優れており,臨床的行動マーカーとの有意な相関による外的妥当性を示す。
最後に, 言語障害マーカーは, 疾患進行に伴う言語障害に関する有用な知見を提供する。 Dementia is associated with language disorders which impede communication. Here, we automatically learn linguistic disorder patterns by making use of a moderately-sized pre-trained language model and forcing it to focus on reformulated natural language processing (NLP) tasks and associated linguistic patterns. Our experiments show that NLP tasks that encapsulate contextual information and enhance the gradient signal with linguistic patterns benefit performance. We then use the probability estimates from the best model to construct digital linguistic markers measuring the overall quality in communication and the intensity of a variety of language disorders. We investigate how the digital markers characterize dementia speech from a longitudinal perspective. We find that our proposed communication marker is able to robustly and reliably characterize the language of people with dementia, outperforming existing linguistic approaches; and shows external validity via significant correlation with clinical markers of behaviour. Finally, our proposed linguistic disorder markers provide useful insights into gradual language impairment associated with disease progression. | 翻訳日:2023-10-17 17:30:15 公開日:2023-10-15 |
# 深層学習における離散最適化のためのスコアベース手法 Score-Based Methods for Discrete Optimization in Deep Learning ( http://arxiv.org/abs/2310.09890v1 ) ライセンス: Link先を確認 | Eric Lei, Arman Adibi, Hamed Hassani | (参考訳) ニューラルネットワークが通常連続データ上で動作しているにもかかわらず、離散最適化問題はディープラーニングタスクでしばしば発生する。
これらの問題の1つのクラスは、ニューラルネットワークに依存する客観的関数であるが、最適化変数は離散である。
離散最適化文献は効率的なアルゴリズムを提供するが、ニューラルネットワークのフォワードパスを含む客観的関数評価のコストが高いため、これらの設定ではまだ実用的ではない。
特に、イテレーション毎に$o(n)$の複雑さを必要とするが、ポイントクラウドのような実際のデータは、数千ドル以上の値を持っている。
本稿では,このような問題を解決するためのスコアベース近似フレームワークについて検討する。
このフレームワークは、目標の限界ゲインのプロキシとしてスコア関数を使用し、離散変数の埋め込みと自動微分フレームワークの速度を利用して、並列に後方通過を計算する。
逆集合分類タスクにおいて,本手法がヒューリスティック法に比べて速度と解品質の面で優れたトレードオフを達成することを実験的に証明した。 Discrete optimization problems often arise in deep learning tasks, despite the fact that neural networks typically operate on continuous data. One class of these problems involve objective functions which depend on neural networks, but optimization variables which are discrete. Although the discrete optimization literature provides efficient algorithms, they are still impractical in these settings due to the high cost of an objective function evaluation, which involves a neural network forward-pass. In particular, they require $O(n)$ complexity per iteration, but real data such as point clouds have values of $n$ in thousands or more. In this paper, we investigate a score-based approximation framework to solve such problems. This framework uses a score function as a proxy for the marginal gain of the objective, leveraging embeddings of the discrete variables and speed of auto-differentiation frameworks to compute backward-passes in parallel. We experimentally demonstrate, in adversarial set classification tasks, that our method achieves a superior trade-off in terms of speed and solution quality compared to heuristic methods. | 翻訳日:2023-10-17 17:29:26 公開日:2023-10-15 |
# 動的モジュール展開と適応による生涯シーケンス生成 Lifelong Sequence Generation with Dynamic Module Expansion and Adaptation ( http://arxiv.org/abs/2310.09886v1 ) ライセンス: Link先を確認 | Chengwei Qin, Shafiq Joty, Chen Chen | (参考訳) 連続学習の課題である生涯シーケンス生成(LSG)は、連続的なタスクのシーケンス上でモデルを継続的に訓練し、過去の知識の忘れを回避しつつ、常に新しい世代パターンを学習することを目的としている。
既存のLSG手法は主に、タスク間の知識伝達にほとんど注意を払わずに、古い知識を維持することに焦点を当てている。
対照的に、人間は以前に獲得した類似のタスクからの知識を活用することで、新しいタスクをよりよく学べる。
ヒトの学習パラダイムにインスパイアされた動的モジュール拡張・適応(DMEA)を提案し,タスク相関に基づく新しい知識獲得のためのアーキテクチャを動的に決定し,最も類似したタスクを選択し,新しいタスクへの適応を容易にする。
さらに,学習プロセスが現在のタスクに偏りやすく,学習前の知識をより厳しく忘れてしまう可能性があることから,現在のタスクと再生タスクの学習のバランスをとるために,動的勾配スケーリングを提案する。
大規模な実験により、DMEAはLSG設定の異なる既存手法より一貫して優れていることを示す。 Lifelong sequence generation (LSG), a problem in continual learning, aims to continually train a model on a sequence of generation tasks to learn constantly emerging new generation patterns while avoiding the forgetting of previous knowledge. Existing LSG methods mainly focus on maintaining old knowledge while paying little attention to knowledge transfer across tasks. In contrast, humans can better learn new tasks by leveraging previously acquired knowledge from similar tasks. Inspired by the learning paradigm of humans, we propose Dynamic Module Expansion and Adaptation (DMEA), which enables the model to dynamically determine the architecture for acquiring new knowledge based on task correlation and select the most similar previous tasks to facilitate adaptation to new tasks. In addition, as the learning process can easily be biased towards the current task which might cause more severe forgetting of previously learned knowledge, we propose dynamic gradient scaling to balance the learning of the current task and replayed tasks. With extensive experiments, we demonstrate that DMEA can consistently outperform existing methods in different LSG settings. | 翻訳日:2023-10-17 17:29:01 公開日:2023-10-15 |
# クラス非依存関係ネットワークを用いたゼロショットオブジェクトゴールビジュアルナビゲーション Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network ( http://arxiv.org/abs/2310.09883v1 ) ライセンス: Link先を確認 | Xinting Li and Shizhou Zhang and Yue LU and Kerry Dan and Lingyan Ran and Peng Wang and Yanning Zhang | (参考訳) 本稿では,ゼロショット目標視覚ナビゲーション問題について検討する。
object goal visual navigationタスクでは、エージェントはエゴセントリックなビジュアル入力からナビゲーションターゲットを見つける必要があります。
ゼロショット」とは、エージェントが見つける必要があるターゲットがトレーニングフェーズで訓練されていないことを意味する。
訓練中のナビゲーション能力と目標特徴とを結合する問題に対処するため,クラス独立関係ネットワーク(CIRN)を提案する。
ターゲット検出情報を目標とナビゲーション対象との間の相対的意味的類似性と組み合わせ、類似度ランキングに基づく真新しい状態表現を構築し、この状態表現にはターゲット特徴や環境特徴が含まれず、エージェントのナビゲーション能力をターゲット特徴から効果的に分離する。
また、グラフ畳み込みネットワーク(GCN)を用いて、異なるオブジェクト間の関係を類似性に基づいて学習する。
テスト中、私たちのアプローチは、ターゲットや環境が異なるゼロショットナビゲーションタスクを含む、強力な一般化機能を示しています。
AI2-THOR仮想環境における広範囲な実験を通じて、この手法はゼロショット目標視覚ナビゲーションタスクにおける最先端のアプローチよりも優れている。
さらに,提案手法のロバスト性と一般化性をさらに検証し,より難易度の高いクロスターゲットおよびクロスシーン設定実験を行った。
私たちのコードは、https://github.com/SmartAndCleverRobot/ICRA-CIRN.comで利用可能です。 This paper investigates the zero-shot object goal visual navigation problem. In the object goal visual navigation task, the agent needs to locate navigation targets from its egocentric visual input. "Zero-shot" means that the target the agent needs to find is not trained during the training phase. To address the issue of coupling navigation ability with target features during training, we propose the Class-Independent Relationship Network (CIRN). This method combines target detection information with the relative semantic similarity between the target and the navigation target, and constructs a brand new state representation based on similarity ranking, this state representation does not include target feature or environment feature, effectively decoupling the agent's navigation ability from target features. And a Graph Convolutional Network (GCN) is employed to learn the relationships between different objects based on their similarities. During testing, our approach demonstrates strong generalization capabilities, including zero-shot navigation tasks with different targets and environments. Through extensive experiments in the AI2-THOR virtual environment, our method outperforms the current state-of-the-art approaches in the zero-shot object goal visual navigation task. Furthermore, we conducted experiments in more challenging cross-target and cross-scene settings, which further validate the robustness and generalization ability of our method. Our code is available at: https://github.com/SmartAndCleverRobot/ICRA-CIRN. | 翻訳日:2023-10-17 17:28:42 公開日:2023-10-15 |
# 反復演示選択を用いたインテクスト学習 In-Context Learning with Iterative Demonstration Selection ( http://arxiv.org/abs/2310.09881v1 ) ライセンス: Link先を確認 | Chengwei Qin, Aston Zhang, Anirudh Dagar, Wenming Ye | (参考訳) 大規模化により,大規模言語モデル (LLM) は,文脈内学習 (ICL) を介して,強力な数発学習能力を示した。
しかし、iclの性能は、少数のデモの選択に非常に敏感であることが示されている。
コンテキストとして最も適切な例を選択することは、現在も進行中の課題であり、オープンな問題である。
既存の文献は、最適選択次元(多様性または類似性)がタスク固有であるという事実を無視しながら、テストサンプルと多様性または意味的に類似した例を選択することの重要性を強調している。
両次元のメリットを生かして,反復デモ選択(IDS)を提案する。
ゼロショットチェーン・オブ・シークレット推論(Zero-shot-CoT)を用いて、IDSは多種多様であるが、ICLの実証としてテストサンプルと強く相関する例を反復的に選択する。
具体的には、デモ選択前のテストサンプルにZero-shot-CoTを適用する。
出力推論パスは、推論のためにテストサンプルに事前設定されたデモを選択するために使用される。
生成された回答には、次のイテレーションで新しいデモセットを抽出する対応する推論パスが添付されている。
数回のイテレーションの後、idsは多数決を採用して最終結果を得る。
本研究は,コモンセンス推論,質問応答,トピック分類,感情分析などのタスクに関する広範な実験を通じて,IDSが既存のICLの実証選択手法を一貫して上回ることを示す。 Spurred by advancements in scale, large language models (LLMs) have demonstrated strong few-shot learning ability via in-context learning (ICL). However, the performance of ICL has been shown to be highly sensitive to the selection of few-shot demonstrations. Selecting the most suitable examples as context remains an ongoing challenge and an open problem. Existing literature has highlighted the importance of selecting examples that are diverse or semantically similar to the test sample while ignoring the fact that the optimal selection dimension, i.e., diversity or similarity, is task-specific. Leveraging the merits of both dimensions, we propose Iterative Demonstration Selection (IDS). Using zero-shot chain-of-thought reasoning (Zero-shot-CoT), IDS iteratively selects examples that are diverse but still strongly correlated with the test sample as ICL demonstrations. Specifically, IDS applies Zero-shot-CoT to the test sample before demonstration selection. The output reasoning path is then used to choose demonstrations that are prepended to the test sample for inference. The generated answer is accompanied by its corresponding reasoning path for extracting a new set of demonstrations in the next iteration. After several iterations, IDS adopts majority voting to obtain the final result. Through extensive experiments on tasks including commonsense reasoning, question answering, topic classification, and sentiment analysis, we demonstrate that IDS can consistently outperform existing ICL demonstration selection methods. | 翻訳日:2023-10-17 17:28:20 公開日:2023-10-15 |
# 蓄積局所効果(ALE)に基づく機械学習と古典的手法を用いた統計的推測 Statistical inference using machine learning and classical techniques based on accumulated local effects (ALE) ( http://arxiv.org/abs/2310.09877v1 ) ライセンス: Link先を確認 | Chitu Okoli | (参考訳) Accumulated Local Effects (ALE)は、ブラックボックス機械学習(ML)アルゴリズムの結果のグローバルな説明のためのモデルに依存しないアプローチである。
ALEに基づく統計的推論を行う上で、少なくとも3つの課題がある。ALE分析の信頼性を保証すること、特に小さなデータセットのコンテキストにおいて、MLにおける変数の全体的な影響を直感的に特徴づけること、MLデータ分析から堅牢な推論を行うことである。
これに対し、ALEを用いた統計的推論のための革新的なツールや手法を導入し、データセットのサイズに合わせて自己申告された信頼区間を確立し、結果変数尺度と正規化尺度の両方に直感的に影響を示すALE効果尺度を導入する。
さらに,これらのツールを用いて信頼性の高い統計的推論を行う方法を示すとともに,r の 'ale' パッケージに実装されているフレキシブルなパターンを例示する。本研究は ale に関する議論と ml と統計解析におけるその適用可能性を促進し,この分野の課題を克服するための実用的なソリューションを提供する。 Accumulated Local Effects (ALE) is a model-agnostic approach for global explanations of the results of black-box machine learning (ML) algorithms. There are at least three challenges with conducting statistical inference based on ALE: ensuring the reliability of ALE analyses, especially in the context of small datasets; intuitively characterizing a variable's overall effect in ML; and making robust inferences from ML data analysis. In response, we introduce innovative tools and techniques for statistical inference using ALE, establishing bootstrapped confidence intervals tailored to dataset size and introducing ALE effect size measures that intuitively indicate effects on both the outcome variable scale and a normalized scale. Furthermore, we demonstrate how to use these tools to draw reliable statistical inferences, reflecting the flexible patterns ALE adeptly highlights, with implementations available in the 'ale' package in R. This work propels the discourse on ALE and its applicability in ML and statistical analysis forward, offering practical solutions to prevailing challenges in the field. | 翻訳日:2023-10-17 17:27:54 公開日:2023-10-15 |
# バウンディングとフィリング: 画像キャプションのための高速で柔軟なフレームワーク Bounding and Filling: A Fast and Flexible Framework for Image Captioning ( http://arxiv.org/abs/2310.09876v1 ) ライセンス: Link先を確認 | Zheng Ma, Changxin Wang, Bo Huang, Zixuan Zhu and Jianbing Zhang | (参考訳) 自己回帰的手法に従う画像キャプションモデルの多くは、かなりの推論遅延を伴っている。
いくつかのモデルはプロセスのスピードアップのために非自己回帰方式を採用した。
しかしながら、バニラ非自己回帰的手法は、すべての単語を同時に生成するので、記述中の単語間の関係をキャプチャできないため、サブパーパフォーマンスをもたらす。
半自己回帰法は性能を維持するために部分的に平行な手法を用いるが、推論速度を犠牲にする。
本稿では,BoFiCapと呼ばれる高速かつ柔軟な画像キャプションフレームワークを提案する。
BoFiCapモデルは、画像キャプションタスクの固有の特性を利用して、画像領域とその関連性のための境界ボックスを事前に定義する。
その後、BoFiCapモデルは、2世代方式で各ボックスの対応する単語を埋める。
ボックスヒントを活用することで、各単語が他の単語をよりよく認識できるようになります。
さらに、このモデルは柔軟な画像記述生成を提供する。
1) 速度又は性能要求に基づいて異なる世代方式を採用する。
2)ユーザが指定したボックスに基づいて様々な文を生成する。
ms-cocoベンチマークデータセットにおける実験的評価は、非自己回帰的な方法でのフレームワークがタスク固有のメトリックcider (125.6) の最先端を達成し、自己回帰的な方法でベースラインモデルよりも9.22倍高速であることを示している。
私たちのコードとデータはhttps://github.com/ChangxinWang/BoFiCapで公開されています。 Most image captioning models following an autoregressive manner suffer from significant inference latency. Several models adopted a non-autoregressive manner to speed up the process. However, the vanilla non-autoregressive manner results in subpar performance, since it generates all words simultaneously, which fails to capture the relationships between words in a description. The semi-autoregressive manner employs a partially parallel method to preserve performance, but it sacrifices inference speed. In this paper, we introduce a fast and flexible framework for image captioning called BoFiCap based on bounding and filling techniques. The BoFiCap model leverages the inherent characteristics of image captioning tasks to pre-define bounding boxes for image regions and their relationships. Subsequently, the BoFiCap model fills corresponding words in each box using two-generation manners. Leveraging the box hints, our filling process allows each word to better perceive other words. Additionally, our model offers flexible image description generation: 1) by employing different generation manners based on speed or performance requirements, 2) producing varied sentences based on user-specified boxes. Experimental evaluations on the MS-COCO benchmark dataset demonstrate that our framework in a non-autoregressive manner achieves the state-of-the-art on task-specific metric CIDEr (125.6) while speeding up 9.22x than the baseline model with an autoregressive manner; in a semi-autoregressive manner, our method reaches 128.4 on CIDEr while a 3.69x speedup. Our code and data is available at https://github.com/ChangxinWang/BoFiCap. | 翻訳日:2023-10-17 17:27:36 公開日:2023-10-15 |
# マルチエージェントネットワークを用いた誤り伝播様訓練における次層ニューロンの注意 Seeking Next Layer Neurons' Attention for Error-Backpropagation-Like Training in a Multi-Agent Network Framework ( http://arxiv.org/abs/2310.09952v1 ) ライセンス: Link先を確認 | Arshia Soltani Moakhar, Mohammad Azizmalayeri, Hossein Mirzaei, Mohammad Taghi Manzuri, Mohammad Hossein Rohban | (参考訳) ニューロンのマルチエージェントシステムと見なされるニューラルネットワークのトレーニング、特に生物学的信頼性と分散トレーニングに関する理論上の進歩にもかかわらず、その現実世界の問題への適用性はスケーラビリティの問題のために限られている。
対照的に、エラーバックプロパゲーションは、実際にディープネットワークのトレーニングに有効であることを示した。
本研究では,ニューロンが個々に追従すると,学習中の効率とスケーラビリティの観点からエラーバックプロパゲーションと類似性を示すために,ニューロンの局所的目標を提案する。
本研究の目的は,神経細胞の局所的目的(後の層ニューロンからの注意)を最大化し,神経細胞の最適な戦略を見極めるために,分散された自己関心ニューロンからなるニューラルネットワークを検討することである。
また,この戦略とバックプロパゲーションの関係を解析し,導出戦略がエラーバックプロパゲーションと同等の条件を確立する。
最後に,これらマルチエージェントニューラルネットワークの学習能力について,3つのデータセットを用いた実験を通じて実証し,大惨事忘れるベンチマークにおいて,エラーバックプロパゲーションよりも優れた性能を示す。 Despite considerable theoretical progress in the training of neural networks viewed as a multi-agent system of neurons, particularly concerning biological plausibility and decentralized training, their applicability to real-world problems remains limited due to scalability issues. In contrast, error-backpropagation has demonstrated its effectiveness for training deep networks in practice. In this study, we propose a local objective for neurons that, when pursued by neurons individually, align them to exhibit similarities to error-backpropagation in terms of efficiency and scalability during training. For this purpose, we examine a neural network comprising decentralized, self-interested neurons seeking to maximize their local objective -- attention from subsequent layer neurons -- and identify the optimal strategy for neurons. We also analyze the relationship between this strategy and backpropagation, establishing conditions under which the derived strategy is equivalent to error-backpropagation. Lastly, we demonstrate the learning capacity of these multi-agent neural networks through experiments on three datasets and showcase their superior performance relative to error-backpropagation in a catastrophic forgetting benchmark. | 翻訳日:2023-10-17 17:22:03 公開日:2023-10-15 |
# Chameleon: Retrieval-Augmented Language Modelのための不均一・非凝集型加速器システム Chameleon: a Heterogeneous and Disaggregated Accelerator System for Retrieval-Augmented Language Models ( http://arxiv.org/abs/2310.09949v1 ) ライセンス: Link先を確認 | Wenqi Jiang, Marco Zeller, Roger Waleffe, Torsten Hoefler, Gustavo Alonso | (参考訳) Retrieval-Augmented Language Model (RALM)は、外部データベースからコンテキスト固有の知識を取得することで、生成言語モデルを拡張する。
この戦略は、小さなモデルでも印象的なテキスト生成品質を促進し、計算要求の桁違いを削減します。
しかし、ALMは独自のシステム設計の課題を導入している。
(a)lm推論と検索の多様なワークロード特性
(b)モデルサイズ,データベースサイズ,検索頻度など,さまざまなALM構成に対するさまざまなシステム要件とボトルネック。
分散アーキテクチャにおいてlmと検索アクセラレータを統合したヘテロジニアスアクセラレータシステムchameleonを提案する。
不均一性は、LM推論と検索の両方の効率的な加速を保証する一方、加速器の分解により、システムは両方のタイプの加速器を独立にスケールし、様々なRALM要求を満たすことができる。
我々のChameleonプロトタイプはFPGA上で検索アクセラレータを実装し、LM推論をGPUに割り当て、CPUサーバがこれらのアクセラレータをネットワーク上でオーケストレーションする。
CPUベースとCPU-GPUベクターサーチシステムと比較して、Chameleonは最大23.72倍のスピードアップと26.2倍のエネルギー効率を実現している。
様々なRALMを評価したChameleonは、ハイブリッドCPU-GPUアーキテクチャと比較してレイテンシが2.16倍、スループットが3.18倍に向上した。
これらの有望な結果は、将来のRALMシステムに加速器の不均一性と分解をもたらす道を開く。 A Retrieval-Augmented Language Model (RALM) augments a generative language model by retrieving context-specific knowledge from an external database. This strategy facilitates impressive text generation quality even with smaller models, thus reducing orders of magnitude of computational demands. However, RALMs introduce unique system design challenges due to (a) the diverse workload characteristics between LM inference and retrieval and (b) the various system requirements and bottlenecks for different RALM configurations such as model sizes, database sizes, and retrieval frequencies. We propose Chameleon, a heterogeneous accelerator system that integrates both LM and retrieval accelerators in a disaggregated architecture. The heterogeneity ensures efficient acceleration of both LM inference and retrieval, while the accelerator disaggregation enables the system to independently scale both types of accelerators to fulfill diverse RALM requirements. Our Chameleon prototype implements retrieval accelerators on FPGAs and assigns LM inference to GPUs, with a CPU server orchestrating these accelerators over the network. Compared to CPU-based and CPU-GPU vector search systems, Chameleon achieves up to 23.72x speedup and 26.2x energy efficiency. Evaluated on various RALMs, Chameleon exhibits up to 2.16x reduction in latency and 3.18x speedup in throughput compared to the hybrid CPU-GPU architecture. These promising results pave the way for bringing accelerator heterogeneity and disaggregation into future RALM systems. | 翻訳日:2023-10-17 17:21:44 公開日:2023-10-15 |
# WMT23汎用翻訳タスクにおけるUvA-MTの参加 UvA-MT's Participation in the WMT23 General Translation Shared Task ( http://arxiv.org/abs/2310.09946v1 ) ライセンス: Link先を確認 | Di Wu, Shaomu Tan, David Stap, Ali Araabi, Christof Monz | (参考訳) 本稿では,UvA-MTがWMT 2023に提案した汎用機械翻訳タスクについて述べる。
制約付きトラックには,英語<->ヘブライ語という2つの方向で参加する。
本コンペティションでは,多言語機械翻訳(MMT)の最小設定として,一方のモデルを用いて双方向タスクを処理することにより,両方向の従来のバイリンガル翻訳と同等の結果が得られることを示す。
逆翻訳,再パラメータ化埋め込み表,タスク指向の微調整などの効果的な戦略を含めることで,英語 ->ヘブライ語とヘブライ語 ->英語方向の自動評価において,競争的な最終結果を得た。 This paper describes the UvA-MT's submission to the WMT 2023 shared task on general machine translation. We participate in the constrained track in two directions: English <-> Hebrew. In this competition, we show that by using one model to handle bidirectional tasks, as a minimal setting of Multilingual Machine Translation (MMT), it is possible to achieve comparable results with that of traditional bilingual translation for both directions. By including effective strategies, like back-translation, re-parameterized embedding table, and task-oriented fine-tuning, we obtained competitive final results in the automatic evaluation for both English -> Hebrew and Hebrew -> English directions. | 翻訳日:2023-10-17 17:21:19 公開日:2023-10-15 |
# 空間幾何学的推論を必要とするオブジェクトアセンブリタスクにおける視覚的表現のロバスト性評価 Evaluating Robustness of Visual Representations for Object Assembly Task Requiring Spatio-Geometrical Reasoning ( http://arxiv.org/abs/2310.09943v1 ) ライセンス: Link先を確認 | Chahyon Ku (1), Carl Winge (1), Ryan Diaz (1), Wentao Yuan (2), Karthik Desingh (1) ((1) University of Minnesota, (2) University of Washington) | (参考訳) 本稿では主に、オブジェクトアセンブリタスクのコンテキストにおける視覚表現の堅牢性の評価とベンチマークに焦点をあてる。
具体的には、一般にpeg-in-holeタスクと呼ばれる幾何学的押出しと侵入を伴う物体のアライメントと挿入について検討する。
成功組立のためにSE(3)空間のペグと穴形状を検出・オリエントするために必要な精度は大きな課題となる。
そこで我々はヴィジュアル・エンコーダとして視覚前訓練モデルを利用するvisosomotor policy learningの汎用フレームワークを採用している。
本研究は,両腕操作設定,特に把持変動に対して適用した場合のロバスト性について検討する。
我々の定量的分析は、既存の事前学習モデルでは、このタスクに必要な視覚的特徴を捉えることができないことを示している。
しかし、スクラッチから訓練されたビジュアルエンコーダは、凍結した事前訓練されたモデルよりも一貫して優れている。
さらに、政策学習を大幅に改善する回転表現と関連する損失関数について論じる。
本稿では,幾何学的・空間的推論を必要とする複雑な組み立て作業のロバスト性向上に特に焦点をあてた,visosomotor policy learningの進歩を評価するための新しいタスクシナリオを提案する。
ビデオ、追加の実験、データセット、コードはhttps://bit.ly/geometric-peg-in-hole.com/で入手できる。 This paper primarily focuses on evaluating and benchmarking the robustness of visual representations in the context of object assembly tasks. Specifically, it investigates the alignment and insertion of objects with geometrical extrusions and intrusions, commonly referred to as a peg-in-hole task. The accuracy required to detect and orient the peg and the hole geometry in SE(3) space for successful assembly poses significant challenges. Addressing this, we employ a general framework in visuomotor policy learning that utilizes visual pretraining models as vision encoders. Our study investigates the robustness of this framework when applied to a dual-arm manipulation setup, specifically to the grasp variations. Our quantitative analysis shows that existing pretrained models fail to capture the essential visual features necessary for this task. However, a visual encoder trained from scratch consistently outperforms the frozen pretrained models. Moreover, we discuss rotation representations and associated loss functions that substantially improve policy learning. We present a novel task scenario designed to evaluate the progress in visuomotor policy learning, with a specific focus on improving the robustness of intricate assembly tasks that require both geometrical and spatial reasoning. Videos, additional experiments, dataset, and code are available at https://bit.ly/geometric-peg-in-hole . | 翻訳日:2023-10-17 17:21:07 公開日:2023-10-15 |
# 熱間の読み」--非誘引的ストレス検出のための身体熱シグネチャ- "Reading Between the Heat": Co-Teaching Body Thermal Signatures for Non-intrusive Stress Detection ( http://arxiv.org/abs/2310.09932v1 ) ライセンス: Link先を確認 | Yi Xiao, Harshit Sharma, Zhongyang Zhang, Dessa Bergen-Cico, Tauhidur Rahman, Asif Salekin | (参考訳) ストレスは私たちの身体と精神の健康と社会生活に影響を与える。
受動的で接触のない屋内ストレスモニタリングシステムは、職場の生産性評価、スマートホーム、パーソナライズされたメンタルヘルスモニタリングなど、数多くの重要な応用を解き放つことができる。
サーマルカメラで撮影されたユーザーの身体からのサーマルシグネチャは、交感神経および副交感神経系の「戦闘飛行」応答に関する重要な情報を提供することができるが、ストレス予測モデルを訓練するためのサーマルイメージングのみに頼ると、しばしば過剰フィッティングと亜最適性能につながる。
本稿では,ウェアラブルのモダリティから非接触熱のモダリティへ知識を伝達することで,高いストレス予測性能を実現する新しいコトレーニングフレームワークであるThermaStrainを導入することで,この問題に対処する。
トレーニング中、ThermaStrainはウェアラブル・エレクトロミカル・アクティビティ(EDA)センサーを組み込んで、サーマルビデオからストレス指示表現を生成し、ウェアラブルEDAセンサーからストレス指示表現をエミュレートする。
試験では, 温度センサのみを使用し, 熱データから応力指示パターンを抽出し, EDA表現をエミュレートし, 応力評価を改善する。
本研究では,様々な応力条件と距離を考慮したサーマルビデオとedaデータを用いた総合データセットを収集した。
ThermaStrainは2次応力分類においてF1スコアが0.8293であり、熱のみのベースラインのアプローチを9%以上上回っている。
広範な評価では、ストレスを示唆する属性の認識におけるthermastrainの有効性、距離とストレスシナリオ間の適応性、エッジプラットフォームでのリアルタイム実行性、マルチ個別センシングへの適用性、可視性と不慣れな条件で機能する能力、そして共同ティーチングアプローチの利点が強調されている。 Stress impacts our physical and mental health as well as our social life. A passive and contactless indoor stress monitoring system can unlock numerous important applications such as workplace productivity assessment, smart homes, and personalized mental health monitoring. While the thermal signatures from a user's body captured by a thermal camera can provide important information about the "fight-flight" response of the sympathetic and parasympathetic nervous system, relying solely on thermal imaging for training a stress prediction model often lead to overfitting and consequently a suboptimal performance. This paper addresses this challenge by introducing ThermaStrain, a novel co-teaching framework that achieves high-stress prediction performance by transferring knowledge from the wearable modality to the contactless thermal modality. During training, ThermaStrain incorporates a wearable electrodermal activity (EDA) sensor to generate stress-indicative representations from thermal videos, emulating stress-indicative representations from a wearable EDA sensor. During testing, only thermal sensing is used, and stress-indicative patterns from thermal data and emulated EDA representations are extracted to improve stress assessment. The study collected a comprehensive dataset with thermal video and EDA data under various stress conditions and distances. ThermaStrain achieves an F1 score of 0.8293 in binary stress classification, outperforming the thermal-only baseline approach by over 9%. Extensive evaluations highlight ThermaStrain's effectiveness in recognizing stress-indicative attributes, its adaptability across distances and stress scenarios, real-time executability on edge platforms, its applicability to multi-individual sensing, ability to function on limited visibility and unfamiliar conditions, and the advantages of its co-teaching approach. | 翻訳日:2023-10-17 17:20:46 公開日:2023-10-15 |
# FiLM: 任意の順序生成のための言語モデル FiLM: Fill-in Language Models for Any-Order Generation ( http://arxiv.org/abs/2310.09930v1 ) ライセンス: Link先を確認 | Tianxiao Shen, Hao Peng, Ruoqi Shen, Yao Fu, Zaid Harchaoui, Yejin Choi | (参考訳) 言語モデルは、今日のAIシステムのバックボーンとなっている。
しかし、その左から右への生成は、テキストを中央に埋め込むタスクに必須の双方向コンテキストの使用を制限する。
我々は,特定の生成順序に固執することなく,任意の位置に柔軟に生成できる新しい言語モデリング手法であるfill-in language model (film)を提案する。
そのトレーニングは、FiLMの生成能力を高めるためにベータ分布からサンプリングされた様々なマスク確率を採用することで、マスク言語モデリングの目的を拡張する。
推論中、FiLMは、欠落したフレーズ、文、段落をシームレスに挿入することができ、出力が流動的で、周囲のコンテキストと整合していることを保証する。
自動評価と人間評価の両方において、フィルムはテキストセグメントを並べ替えて訓練した左から右への言語モデルに依存する既存の埋め込み手法よりも優れている。
FiLMは実装が容易で、スクラッチからトレーニングするか、左から右への言語モデルから微調整できる。
特に、モデルのサイズが大きくなるにつれて、FiLMの難易度は、同じサイズの強い左から右の言語モデルに近づき、FiLMのスケーラビリティと大きな言語モデルとしての可能性を示している。 Language models have become the backbone of today's AI systems. However, their predominant left-to-right generation limits the use of bidirectional context, which is essential for tasks that involve filling text in the middle. We propose the Fill-in Language Model (FiLM), a new language modeling approach that allows for flexible generation at any position without adhering to a specific generation order. Its training extends the masked language modeling objective by adopting varying mask probabilities sampled from the Beta distribution to enhance the generative capabilities of FiLM. During inference, FiLM can seamlessly insert missing phrases, sentences, or paragraphs, ensuring that the outputs are fluent and are coherent with the surrounding context. In both automatic and human evaluations, FiLM outperforms existing infilling methods that rely on left-to-right language models trained on rearranged text segments. FiLM is easy to implement and can be either trained from scratch or fine-tuned from a left-to-right language model. Notably, as the model size grows, FiLM's perplexity approaches that of strong left-to-right language models of similar sizes, indicating FiLM's scalability and potential as a large language model. | 翻訳日:2023-10-17 17:20:10 公開日:2023-10-15 |
# ゼロショット種認識のための科学名の提案 Prompting Scientific Names for Zero-Shot Species Recognition ( http://arxiv.org/abs/2310.09929v1 ) ライセンス: Link先を確認 | Shubham Parashar, Zhiqiu Lin, Yanan Li, Shu Kong | (参考訳) ウェブスケールの画像テキストペアに基づいてトレーニングされたCLIPのようなビジョン言語モデル(VLM)は、ゼロショット方式で共通のオブジェクトの画像を認識することができる。
しかし、その科学的名称がラテン語やギリシア語で書かれる鳥、植物、動物の種など、高度に専門的な概念をゼロショットで認識するためにクリップをどのように使うかは未検討である。
事実、CLIPはゼロショット種認識において、科学的な名前を使うプロンプト、例えば「Lepus Timidusの写真」(ラテン語で科学的な名前)では不十分である。
これらの名前は通常、CLIPのトレーニングセットには含まれない。
性能を向上させるために、先行研究では、大型言語モデル(LLM)を使用して記述(例えば種の色と形)を生成し、さらにプロンプトに使用することを提案した。
彼らは限界利得しか持っていない。
異なることに、我々は科学的な名前(例:レプス・ティミドゥス)を一般的な英語名(例:マウンテンヘア)に翻訳し、プロンプトで使用する動機がある。
私たちは、一般的な名前がクリップのトレーニングセットに含まれる可能性が高いことを発見し、細粒度の種認識のベンチマークデータセットの精度を2$\sim$5倍向上させるように促した。 Trained on web-scale image-text pairs, Vision-Language Models (VLMs) such as CLIP can recognize images of common objects in a zero-shot fashion. However, it is underexplored how to use CLIP for zero-shot recognition of highly specialized concepts, e.g., species of birds, plants, and animals, for which their scientific names are written in Latin or Greek. Indeed, CLIP performs poorly for zero-shot species recognition with prompts that use scientific names, e.g., "a photo of Lepus Timidus" (which is a scientific name in Latin). Because these names are usually not included in CLIP's training set. To improve performance, prior works propose to use large-language models (LLMs) to generate descriptions (e.g., of species color and shape) and additionally use them in prompts. We find that they bring only marginal gains. Differently, we are motivated to translate scientific names (e.g., Lepus Timidus) to common English names (e.g., mountain hare) and use such in the prompts. We find that common names are more likely to be included in CLIP's training set, and prompting them achieves 2$\sim$5 times higher accuracy on benchmarking datasets of fine-grained species recognition. | 翻訳日:2023-10-17 17:19:48 公開日:2023-10-15 |
# 公共インターネットデータを用いたマルチモーダル基礎モデルの不確かさの推定 Estimating Uncertainty in Multimodal Foundation Models using Public Internet Data ( http://arxiv.org/abs/2310.09926v1 ) ライセンス: Link先を確認 | Shiladitya Dutta, Hongbo Wei, Lars van der Laan, Ahmed M. Alaa | (参考訳) ファンデーションモデルは、自己教師付き学習を使用して大規模な大量のデータに基づいて訓練されており、幅広い下流タスクへの適応を可能にする。
テスト時には、これらのモデルはゼロショット機能を示し、以前は目に見えない(ユーザ指定)カテゴリを分類することができる。
本稿では,これらのゼロショット予測における不確かさを定量化する問題に対処する。
ウェブデータとの共形予測を用いたゼロショット設定における不確実性推定のためのヒューリスティック手法を提案する。
テスト時に一連のクラスが与えられると、プロンプトテンプレート("a image of a <category>"など)を使用してクリップスタイルのモデルでゼロショットの分類を行い、オープンwebからのキャリブレーションデータに対する検索クエリと同じテンプレートを使用する。
webベースのキャリブレーションセットが与えられた場合、検索されたwebデータの潜在的なエラーを考慮し、新しいコンフォメーションスコアにコンフォメーション予測を適用する。
本研究は, 生物医学基礎モデルにおける提案手法の有用性を評価し, 様々な生体医学データセットにおいて, 対象範囲を満足できる効率で達成できることを予備的に示した。 Foundation models are trained on vast amounts of data at scale using self-supervised learning, enabling adaptation to a wide range of downstream tasks. At test time, these models exhibit zero-shot capabilities through which they can classify previously unseen (user-specified) categories. In this paper, we address the problem of quantifying uncertainty in these zero-shot predictions. We propose a heuristic approach for uncertainty estimation in zero-shot settings using conformal prediction with web data. Given a set of classes at test time, we conduct zero-shot classification with CLIP-style models using a prompt template, e.g., "an image of a <category>", and use the same template as a search query to source calibration data from the open web. Given a web-based calibration set, we apply conformal prediction with a novel conformity score that accounts for potential errors in retrieved web data. We evaluate the utility of our proposed method in Biomedical foundation models; our preliminary results show that web-based conformal prediction sets achieve the target coverage with satisfactory efficiency on a variety of biomedical datasets. | 翻訳日:2023-10-17 17:19:25 公開日:2023-10-15 |
# 音声変換器における文脈混合パターンの相違 Homophone Disambiguation Reveals Patterns of Context Mixing in Speech Transformers ( http://arxiv.org/abs/2310.09925v1 ) ライセンス: Link先を確認 | Hosein Mohebbi, Grzegorz Chrupa{\l}a, Willem Zuidema, Afra Alishahi | (参考訳) トランスフォーマーは音声処理において重要なアーキテクチャとなっているが、音響的および言語的構造の表現を構築する方法に対する我々の理解は限られている。
本研究では,テキストモデルのための"context-mixing"の尺度をどのように適応し,音声言語のモデルに適用するかを検討することで,このギャップに対処する。
このようなケーススタディに理想的な言語現象を識別する:フランス語のホモフォニー(例:リヴル対リヴル)。文法的合意を尊重しながら、同一の発音で話し言葉をあいまいにするためには、音声認識モデルが決定子や代名詞などの構文的手がかりに従わなければならない。
変圧器に基づく音声モデルの一連の制御実験と探索分析を行う。
その結果,エンコーダのみのモデルにおける表現は,これらのキューを効果的に組み込んで正しい転写を識別するのに対し,エンコーダ-デコーダモデルのエンコーダは,主にデコーダモジュールへのコンテキスト依存を捕捉するタスクを緩和することがわかった。 Transformers have become a key architecture in speech processing, but our understanding of how they build up representations of acoustic and linguistic structure is limited. In this study, we address this gap by investigating how measures of 'context-mixing' developed for text models can be adapted and applied to models of spoken language. We identify a linguistic phenomenon that is ideal for such a case study: homophony in French (e.g. livre vs livres), where a speech recognition model has to attend to syntactic cues such as determiners and pronouns in order to disambiguate spoken words with identical pronunciations and transcribe them while respecting grammatical agreement. We perform a series of controlled experiments and probing analyses on Transformer-based speech models. Our findings reveal that representations in encoder-only models effectively incorporate these cues to identify the correct transcription, whereas encoders in encoder-decoder models mainly relegate the task of capturing contextual dependencies to decoder modules. | 翻訳日:2023-10-17 17:19:02 公開日:2023-10-15 |
# 明示的文脈表現を用いた深層強化学習 Deep Reinforcement Learning with Explicit Context Representation ( http://arxiv.org/abs/2310.09924v1 ) ライセンス: Link先を確認 | Francisco Munguia-Galeano, Ah-Hwee Tan, Ze Ji | (参考訳) 強化学習(rl)は複雑な計算問題を解決する優れた能力を示している。
しかし、ほとんどのrlアルゴリズムには、文脈情報から学習できる明示的な方法が欠けている。
人間はコンテキストを使って環境中の要素間のパターンや関係を識別し、間違った行動を避ける方法を見つける。
一方、人間の視点からの明らかに間違った判断が、RLエージェントが避けることを学ぶのに何百ステップもかかるかもしれない。
本稿では iota explicit context representation (iecr) と呼ばれる離散環境のためのフレームワークを提案する。
このフレームワークは、コンテキストキーフレーム(CKF)を使用して各状態を表現することを含み、それによって状態の空き度を表す関数を抽出し、さらに状態の空き度に関して2つの損失関数を導入する。
IECRフレームワークの新規性は、環境からコンテキスト情報を抽出し、CKFの表現から学ぶ能力にある。
Iota Deep Q-network (IDDQN), Iota double Q-network (IDDQN), Iota dueling Deep Q-network (IDuDQN), Iota dueling double Q-network (IDDDQN), Iota dueling double Q-network (IDDDDQN)である。
さらに, 5つの離散環境において, フレームワークと新しいアルゴリズムを評価した。
文脈情報を使用するアルゴリズムはすべて、ニューラルネットワークの約4万のトレーニングステップに収束し、最先端の同等性を大幅に上回っています。 Reinforcement learning (RL) has shown an outstanding capability for solving complex computational problems. However, most RL algorithms lack an explicit method that would allow learning from contextual information. Humans use context to identify patterns and relations among elements in the environment, along with how to avoid making wrong actions. On the other hand, what may seem like an obviously wrong decision from a human perspective could take hundreds of steps for an RL agent to learn to avoid. This paper proposes a framework for discrete environments called Iota explicit context representation (IECR). The framework involves representing each state using contextual key frames (CKFs), which can then be used to extract a function that represents the affordances of the state; in addition, two loss functions are introduced with respect to the affordances of the state. The novelty of the IECR framework lies in its capacity to extract contextual information from the environment and learn from the CKFs' representation. We validate the framework by developing four new algorithms that learn using context: Iota deep Q-network (IDQN), Iota double deep Q-network (IDDQN), Iota dueling deep Q-network (IDuDQN), and Iota dueling double deep Q-network (IDDDQN). Furthermore, we evaluate the framework and the new algorithms in five discrete environments. We show that all the algorithms, which use contextual information, converge in around 40,000 training steps of the neural networks, significantly outperforming their state-of-the-art equivalents. | 翻訳日:2023-10-17 17:18:42 公開日:2023-10-15 |
# 車両経路最適化のための分岐境界の統計的学習について On Statistical Learning of Branch and Bound for Vehicle Routing Optimization ( http://arxiv.org/abs/2310.09986v1 ) ライセンス: Link先を確認 | Andrew Naguib, Waleed A. Yousef, Issa Traor\'e, Mohammed Mamun | (参考訳) 近年,分枝境界アルゴリズムの機械学習により,np問題に対する有能解の近似が期待されている。
本稿では,3つのニューラルネットワーク – Graph Convolutional Neural Network (GCNN), GraphSAGE, Graph attention Network (GAT) の結果を総合的に比較し,静電容量化車両ルーティング問題を解決する。
計算コストの高いStrong Branching戦略の決定過程をエミュレートするために,これらのニューラルネットワークをトレーニングする。
ニューラルネットワークは、CVRPLIBとは異なるトポロジを持つ6つのインスタンスでトレーニングされ、8つの追加インスタンスで評価される。
さらに,CVRPインスタンスの解決に必要な車両の最小数を,同様の方法で対処したビンパッケージ問題に削減した。
厳密な実験により、この手法は、計算時間を大幅に削減しつつ、Strong Branching戦略と分岐およびバウンドアルゴリズムの性能を一致または改善できることがわかった。
我々の研究成果と方法論に対応するソースコードは、下記のWebアドレスで参照可能である: \href{https://isotlaboratory.github.io/ml4vrp/}{https://isotlaboratory.github.io/ml4vrp/}。 Recently, machine learning of the branch and bound algorithm has shown promise in approximating competent solutions to NP-hard problems. In this paper, we utilize and comprehensively compare the outcomes of three neural networks--graph convolutional neural network (GCNN), GraphSAGE, and graph attention network (GAT)--to solve the capacitated vehicle routing problem. We train these neural networks to emulate the decision-making process of the computationally expensive Strong Branching strategy. The neural networks are trained on six instances with distinct topologies from the CVRPLIB and evaluated on eight additional instances. Moreover, we reduced the minimum number of vehicles required to solve a CVRP instance to a bin-packing problem, which was addressed in a similar manner. Through rigorous experimentation, we found that this approach can match or improve upon the performance of the branch and bound algorithm with the Strong Branching strategy while requiring significantly less computational time. The source code that corresponds to our research findings and methodology is readily accessible and available for reference at the following web address: \href{https://isotlaboratory.github.io/ml4vrp/}{https://isotlaboratory.github.io/ml4vrp/}. | 翻訳日:2023-10-17 17:09:18 公開日:2023-10-15 |
# Farzi Data: 自動回帰データ蒸留 Farzi Data: Autoregressive Data Distillation ( http://arxiv.org/abs/2310.09983v1 ) ライセンス: Link先を確認 | Noveen Sachdeva, Zexue He, Wang-Cheng Kang, Jianmo Ni, Derek Zhiyuan Cheng, Julian McAuley | (参考訳) 入力と出力が厳格な左右因果構造を持つ自動回帰機械学習タスクのデータ蒸留について検討した。
具体的には,イベントシーケンスデータセットを少数の合成シーケンス – Farzi Data – に要約したFarziを提案する。
内部では、Farziはメモリ効率のよいデータ蒸留を行う。
(i)hessian-vector積を利用したadamオプティマイザの効率的な逆モード分化の導出
2) 高次元離散事象空間を潜在空間に分解し、暗黙の正規化を促進する。
実証的には、シーケンシャルなレコメンデーションと言語モデリングタスクのために、Farzi Dataで最先端モデルをトレーニングする際に、98~120%のダウンストリームフルデータパフォーマンスを、元のデータセットの0.1%以下で達成できます。
特に、より少ないデータでより良いモデルをトレーニングできることは、将来の大規模な自動回帰モデルの設計に光を当て、モデルとデータサイズをさらに拡大する新たな機会を開く。 We study data distillation for auto-regressive machine learning tasks, where the input and output have a strict left-to-right causal structure. More specifically, we propose Farzi, which summarizes an event sequence dataset into a small number of synthetic sequences -- Farzi Data -- which are optimized to maintain (if not improve) model performance compared to training on the full dataset. Under the hood, Farzi conducts memory-efficient data distillation by (i) deriving efficient reverse-mode differentiation of the Adam optimizer by leveraging Hessian-Vector Products; and (ii) factorizing the high-dimensional discrete event-space into a latent-space which provably promotes implicit regularization. Empirically, for sequential recommendation and language modeling tasks, we are able to achieve 98-120% of downstream full-data performance when training state-of-the-art models on Farzi Data of size as little as 0.1% of the original dataset. Notably, being able to train better models with significantly less data sheds light on the design of future large auto-regressive models, and opens up new opportunities to further scale up model and data sizes. | 翻訳日:2023-10-17 17:08:53 公開日:2023-10-15 |
# AP$n$P:未知の異方性スケーリングまたは焦点長を用いた詩推定のための低制約P$n$Pソルバー AP$n$P: A Less-constrained P$n$P Solver for Pose Estimation with Unknown Anisotropic Scaling or Focal Lengths ( http://arxiv.org/abs/2310.09982v1 ) ライセンス: Link先を確認 | Jiaxin Wei, Stefan Leutenegger and Laurent Kneip | (参考訳) perspective-$n$-point (p$n$p) は様々な応用におけるポーズ推定の基本的なアルゴリズムである。
本稿では,P$n$P問題に対して,制約を緩和し,正確な3次元座標や完全校正データを必要としない新しいアプローチを提案する。
これをAP$n$Pと呼ぶのは、3次元座標の未知の異方性スケーリング因子や、従来の剛性ポーズに加えて2つの異なる焦点長を扱う能力のためである。
代数的操作と新しいパラメトリゼーションにより、どちらのケースも、回転の順序と異方性スケーリング操作によって自身を区別する類似の形式に変換される。
さらにAP$n$Pは、両方のケースを同じ多項式問題に分解し、Gr\"オブナー基底アプローチを用いて解決する。
シミュレーションと実データの両方の実験結果はAP$n$Pの有効性を示し、いくつかのポーズ推定タスクに対してより柔軟で実用的なソリューションを提供する。 Perspective-$n$-Point (P$n$P) stands as a fundamental algorithm for pose estimation in various applications. In this paper, we present a new approach to the P$n$P problem with relaxed constraints, eliminating the need for precise 3D coordinates or complete calibration data. We refer to it as AP$n$P due to its ability to handle unknown anisotropic scaling factors of 3D coordinates or alternatively two distinct focal lengths in addition to the conventional rigid pose. Through algebraic manipulations and a novel parametrization, both cases are brought into similar forms that distinguish themselves primarily by the order of a rotation and an anisotropic scaling operation. AP$n$P furthermore brings down both cases to an identical polynomial problem, which is solved using the Gr\"obner basis approach. Experimental results on both simulated and real datasets demonstrate the effectiveness of AP$n$P, providing a more flexible and practical solution to several pose estimation tasks. | 翻訳日:2023-10-17 17:08:37 公開日:2023-10-15 |
# クラス特異的データ拡張:多クラス乳癌分類における不均衡の橋渡し Class-Specific Data Augmentation: Bridging the Imbalance in Multiclass Breast Cancer Classification ( http://arxiv.org/abs/2310.09981v1 ) ライセンス: Link先を確認 | Kanan Mahammadli, Abdullah Burkan Bereketoglu and Ayse Gul Kabakci | (参考訳) 乳癌は女性の間でも最も一般的ながんであり、男性にも見られ、毎年10の新しい癌診断のうち1つ以上を占めている。
また、がんで死亡する女性の2番目に多い原因でもある。
そのため、早期発見と治療が必要である。
早期発見は適切な治療スケジュールと患者ベースの治療スケジュールを提供する。
さらに、早期検出は嚢胞の種類を提供することもできる。
本稿では、クラスレベルのデータ拡張を採用し、アンダーサンプルクラスに対処し、検出率を高める。
ヘマトキシリンおよびエオシン染色画像に対する構造保存染色正規化手法のクラスレベルのデータ拡張と、転移学習による乳癌画像のマルチクラス分類によるトランスフォーマーベースのViTNetアーキテクチャである。
この合併により、乳がん画像の高度な画像処理および深層学習を、乳がんに関連する死亡率の低下につながるアンダーサンプル分類の精度を高めつつ、クラスレベルの増大と各クラス固有の特徴に焦点をあてることにより、良性または4つの異なる悪性サブタイプの1つとして分類することができる。
本研究の目的は,多クラス分類を運用し,画像を良性または4種類の悪性乳癌の1つに分類することで,医療専門家の業務を簡素化することである。 Breast Cancer is the most common cancer among women, which is also visible in men, and accounts for more than 1 in 10 new cancer diagnoses each year. It is also the second most common cause of women who die from cancer. Hence, it necessitates early detection and tailored treatment. Early detection can provide appropriate and patient-based therapeutic schedules. Moreover, early detection can also provide the type of cyst. This paper employs class-level data augmentation, addressing the undersampled classes and raising their detection rate. This approach suggests two key components: class-level data augmentation on structure-preserving stain normalization techniques to hematoxylin and eosin-stained images and transformer-based ViTNet architecture via transfer learning for multiclass classification of breast cancer images. This merger enables categorizing breast cancer images with advanced image processing and deep learning as either benign or as one of four distinct malignant subtypes by focusing on class-level augmentation and catering to unique characteristics of each class with increasing precision of classification on undersampled classes, which leads to lower mortality rates associated with breast cancer. The paper aims to ease the duties of the medical specialist by operating multiclass classification and categorizing the image into benign or one of four different malignant types of breast cancers. | 翻訳日:2023-10-17 17:08:19 公開日:2023-10-15 |
# 深部生成モデルを用いた中国絵画のスタイル伝達 Chinese Painting Style Transfer Using Deep Generative Models ( http://arxiv.org/abs/2310.09978v1 ) ライセンス: Link先を確認 | Weijian Ma, Yanyang Kong | (参考訳) アートスタイルの転送は、コンテンツを保存しながらイメージのスタイルを変更することを目的としている。
ディープラーニングモデルを用いたスタイル転送は2015年から広く研究されており、ほとんどのアプリケーションはVan Gogh、Monet、Cezanneといった特定のアーティストに焦点を当てている。
伝統的な中国の絵画様式の伝来に関する研究や応用は少ない。
そこで本研究では,中国絵画スタイルの転写における最先端の深層生成モデルについて検討し,質的,定量的に評価する。
さらに,タスクに複数のスタイル転送モデルを組み合わせた独自のアルゴリズムを提案する。
具体的には、中国古来の画風である「ゴンビ」と「シュイモ」(自然物、肖像画、風景などの現代像)の2種類を転用する。 Artistic style transfer aims to modify the style of the image while preserving its content. Style transfer using deep learning models has been widely studied since 2015, and most of the applications are focused on specific artists like Van Gogh, Monet, Cezanne. There are few researches and applications on traditional Chinese painting style transfer. In this paper, we will study and leverage different state-of-the-art deep generative models for Chinese painting style transfer and evaluate the performance both qualitatively and quantitatively. In addition, we propose our own algorithm that combines several style transfer models for our task. Specifically, we will transfer two main types of traditional Chinese painting style, known as "Gong-bi" and "Shui-mo" (to modern images like nature objects, portraits and landscapes. | 翻訳日:2023-10-17 17:07:58 公開日:2023-10-15 |
# AMAGO: 適応エージェントのためのスケーラブルなインコンテキスト強化学習 AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents ( http://arxiv.org/abs/2310.09971v1 ) ライセンス: Link先を確認 | Jake Grigsby, Linxi Fan, Yuke Zhu | (参考訳) 汎用化,長期記憶,メタラーニングといった課題に取り組むために,シーケンスモデルを用いたインコンテキスト強化学習(rl)エージェントであるamagoを紹介する。
近年の研究では、非政治的な学習によって、反復的なポリシーでコンテキスト内RLが実現可能であることが示されている。
それでもこれらのアプローチは、エージェントのメモリ容量、計画的地平線、モデルサイズに重要なボトルネックを生じさせることによって、広範なチューニングとスケーラビリティの制限を必要とする。
AMAGOは、エンド・ツー・エンドのRLと並行して、ロングシーケンス・トランスフォーマーをロールアウト全体にわたってトレーニングする、オフ・ポリシー・イン・コンテクストのアプローチを再検討し、再設計する。
私たちのエージェントはユニークにスケーラブルで、幅広い問題に適用できます。
メタRLと長期記憶領域において,その性能を実証的に示す。
AMAGOはスパース報酬や政治外のデータに重点を置いているため、コンテキスト内学習は探索に挑戦しながらゴール条件付き問題にまで拡張することができる。
アマゴは、新しい後見リラベリングスキームと組み合わせることで、従来困難だったオープンワールドドメインのカテゴリを解決し、エージェントは手続き的に生成された環境で多くの可能な命令を完了できる。
我々は,3つの目標条件ドメインについてエージェントを評価し,その個々の改善がいかにコネクトしてジェネラリスト政策を創りだすかを検討する。 We introduce AMAGO, an in-context Reinforcement Learning (RL) agent that uses sequence models to tackle the challenges of generalization, long-term memory, and meta-learning. Recent works have shown that off-policy learning can make in-context RL with recurrent policies viable. Nonetheless, these approaches require extensive tuning and limit scalability by creating key bottlenecks in agents' memory capacity, planning horizon, and model size. AMAGO revisits and redesigns the off-policy in-context approach to successfully train long-sequence Transformers over entire rollouts in parallel with end-to-end RL. Our agent is uniquely scalable and applicable to a wide range of problems. We demonstrate its strong performance empirically in meta-RL and long-term memory domains. AMAGO's focus on sparse rewards and off-policy data also allows in-context learning to extend to goal-conditioned problems with challenging exploration. When combined with a novel hindsight relabeling scheme, AMAGO can solve a previously difficult category of open-world domains, where agents complete many possible instructions in procedurally generated environments. We evaluate our agent on three goal-conditioned domains and study how its individual improvements connect to create a generalist policy. | 翻訳日:2023-10-17 17:07:44 公開日:2023-10-15 |
# ProteusNeRF:3次元画像コンテキストを用いた高速軽量NeRF編集 ProteusNeRF: Fast Lightweight NeRF Editing using 3D-Aware Image Context ( http://arxiv.org/abs/2310.09965v1 ) ライセンス: Link先を確認 | Binglun Wang, Niladri Shekhar Dutt, Niloy J. Mitra | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、ハンドヘルドビデオ入力からでも高忠実度ボリュームコンテンツを忠実にキャプチャできるため、フォトリアリスティック・オブジェクトキャプチャの一般的な選択肢として最近登場した。
リアルタイムのトレーニングとレンダリングにつながる効率的な最適化に多くの研究が費やされているが、対話型編集の選択肢は依然として限られている。
我々は,メモリフットプリントの低さを維持しながら,高速かつ効率的なニューラルネットワークアーキテクチャを提案する。
このアーキテクチャは、ユーザーフレンドリーな画像ベースの編集を通じて徐々にガイドすることができる。
我々の表現は、訓練段階における意味的特徴蒸留による簡単なオブジェクト選択を可能にする。
より重要なことは、幾何学的および外観的調整により、細調整されたNeRFに蒸留できるビュー一貫性画像編集を容易にするために、局所的な3D対応画像コンテキストを提案することである。
テキスト誘導型NeRF編集に焦点をあてた同時作業に対して,外観と幾何学的編集を実証し,10~30倍の高速化を報告した。
ビデオ結果は、プロジェクトのWebページ(https://proteusnerf.github.io.)で見ることができる。 Neural Radiance Fields (NeRFs) have recently emerged as a popular option for photo-realistic object capture due to their ability to faithfully capture high-fidelity volumetric content even from handheld video input. Although much research has been devoted to efficient optimization leading to real-time training and rendering, options for interactive editing NeRFs remain limited. We present a very simple but effective neural network architecture that is fast and efficient while maintaining a low memory footprint. This architecture can be incrementally guided through user-friendly image-based edits. Our representation allows straightforward object selection via semantic feature distillation at the training stage. More importantly, we propose a local 3D-aware image context to facilitate view-consistent image editing that can then be distilled into fine-tuned NeRFs, via geometric and appearance adjustments. We evaluate our setup on a variety of examples to demonstrate appearance and geometric edits and report 10-30x speedup over concurrent work focusing on text-guided NeRF editing. Video results can be seen on our project webpage at https://proteusnerf.github.io. | 翻訳日:2023-10-17 17:07:22 公開日:2023-10-15 |
# 単眼深度を先行した過分極誘導光流によるテーブルトップ透明シーン再構成 Tabletop Transparent Scene Reconstruction via Epipolar-Guided Optical Flow with Monocular Depth Completion Prior ( http://arxiv.org/abs/2310.09956v1 ) ライセンス: Link先を確認 | Xiaotong Chen, Zheming Zhou, Zhuo Deng, Omid Ghasemalizadeh, Min Sun, Cheng-Hao Kuo, Arnie Sen | (参考訳) 安価なRGB-Dカメラを用いて透明なオブジェクトを再構成することは、RGBドメインのビュー間の不整合な出現と、各単一ビューにおける不正確な深度読み取りによるロボット知覚における永続的な課題である。
モバイルプラットフォームに適した透明なオブジェクトを再構築するための2段階パイプラインを導入する。
第1段階では、既製の単分子物体のセグメント化と深度補完網を利用して透明物体の深さを予測する。
その後、シーンの不透明な部分から推定されるカメラのポーズを、一段目から一貫した3D再構成に融合させるエピポーラ誘導光流(EOF)を提案する。
私たちの重要な革新は、境界感応性サンプリングとエピポーラ線制約を光学流に応用し、透明物体の複数のビューにまたがる2D対応を正確に確立するEOFです。
定量的評価により,我々のパイプラインは3次元再構成の精度でベースライン法を著しく上回り,ロボットの知覚と透明物体との相互作用が促進された。 Reconstructing transparent objects using affordable RGB-D cameras is a persistent challenge in robotic perception due to inconsistent appearances across views in the RGB domain and inaccurate depth readings in each single-view. We introduce a two-stage pipeline for reconstructing transparent objects tailored for mobile platforms. In the first stage, off-the-shelf monocular object segmentation and depth completion networks are leveraged to predict the depth of transparent objects, furnishing single-view shape prior. Subsequently, we propose Epipolar-guided Optical Flow (EOF) to fuse several single-view shape priors from the first stage to a cross-view consistent 3D reconstruction given camera poses estimated from opaque part of the scene. Our key innovation lies in EOF which employs boundary-sensitive sampling and epipolar-line constraints into optical flow to accurately establish 2D correspondences across multiple views on transparent objects. Quantitative evaluations demonstrate that our pipeline significantly outperforms baseline methods in 3D reconstruction quality, paving the way for more adept robotic perception and interaction with transparent objects. | 翻訳日:2023-10-17 17:07:00 公開日:2023-10-15 |
# 原子空洞qedにおけるレーザーパワー散逸量子電池 Laser powered dissipative quantum batteries in atom-cavity QED ( http://arxiv.org/abs/2310.09953v1 ) ライセンス: Link先を確認 | Zamir Bele\~no, Marcelo F. Santos and Felipe Barra | (参考訳) レーザー場の存在下での3レベル原子と量子空洞の電磁場との相互作用は、2つの量子バッテリを議論するために利用する豊富な挙動を示す。
最初のセットアップでは、1つの3レベル原子が多くの空洞と連続的に相互作用し、それぞれが熱状態にあると考える。
この過程において、原子は人口反転を示す平衡状態に向かって収束する。
第2のセットアップでは、熱状態の原子の流れは、最初に原子と同じ温度で熱状態において単一のキャビティとシーケンシャルに相互作用する。
その結果,キャビティのエネルギーは,原子の流れが横切るにつれて連続的に増大し,キャビティは平衡状態に達しないことがわかった。
しかし、多くの原子が移動した後の状態を考えると、キャビティはエネルギーを貯蔵する活性状態にある。
私たちが提案する充電プロセスは堅牢です。
我々はその熱力学を議論し、レーザーによって供給されるエネルギー、電池に蓄えられたエネルギー、そして装置の効率を評価する。 The interaction of a three-level atom with the electromagnetic field of a quantum cavity in the presence of a laser field presents a rich behavior that we exploit to discuss two quantum batteries. In the first setup, we consider a single three-level atom interacting sequentially with many cavities, each in a thermal state. We show that under this process, the atom converges towards an equilibrium state that displays population inversion. In the second setup, a stream of atoms in a thermal state interacts sequentially with a single cavity initially in a thermal state at the same temperature as the atoms. We show that the cavity's energy increases continuously as the stream of atoms continues to cross, and the cavity does not reach an equilibrium state. However, if we consider the state after many atoms have traveled, the cavity is in an active state that stores energy. The charging process we propose is robust. We discuss its thermodynamics and evaluate the energy supplied by the laser, the energy stored in the battery, and, thus, the device's efficiency. | 翻訳日:2023-10-17 17:06:37 公開日:2023-10-15 |
# 対話型多目的進化アルゴリズムの動作時間解析に向けて Towards Running Time Analysis of Interactive Multi-objective Evolutionary Algorithms ( http://arxiv.org/abs/2310.08384v2 ) ライセンス: Link先を確認 | Tianhao Lu, Chao Bian, Chao Qian | (参考訳) 進化的アルゴリズム(EA)は人口ベースの性質から多目的最適化に広く用いられている。
従来の多目的EA(MOEA)はパレートフロントを近似する大規模なソリューションを生成し、意思決定者(DM)が好むソリューションを選択するタスクを残している。
しかし、特に多くの目的やdmの主観的な好みが知られている場合、このプロセスは非効率で時間がかかります。
この問題を解決するために、対話型MOEA(iMOEA)は、決定を最適化プロセス、すなわちDMの助けを借りて人口を更新する。
広義の応用とは対照的に、iMOEAに関する理論的な研究は2つしか存在せず、2つの単純な単目的アルゴリズム RLS と (1+1)-EA の対話的変種しか考慮していない。
本稿では,実際のiMOEAに対して,最初の実行時間解析(EAの本質的理論的側面)を提供する。
具体的には、OneMinMax と OneJumpZeroJump の問題を解くためのよく発達した対話型 NSGA-II (R-NSGA-II) のランニング時間は、それぞれ$O(n \log n)$ と $O(n^k)$ であり、従来の NSGA-II よりも漸近的に高速であることを示す。
一方、OneMinMaxの変種を示し、R-NSGA-IIがNSGA-IIよりも指数関数的に遅いことを証明した。
これらの結果は、iMOEAの有効性を理論的に正当化し、失敗する可能性のある状況を特定する。
理論的結果を検証する実験も行われている。 Evolutionary algorithms (EAs) are widely used for multi-objective optimization due to their population-based nature. Traditional multi-objective EAs (MOEAs) generate a large set of solutions to approximate the Pareto front, leaving a decision maker (DM) with the task of selecting a preferred solution. However, this process can be inefficient and time-consuming, especially when there are many objectives or the subjective preferences of DM is known. To address this issue, interactive MOEAs (iMOEAs) combine decision making into the optimization process, i.e., update the population with the help of the DM. In contrast to their wide applications, there has existed only two pieces of theoretical works on iMOEAs, which only considered interactive variants of the two simple single-objective algorithms, RLS and (1+1)-EA. This paper provides the first running time analysis (the essential theoretical aspect of EAs) for practical iMOEAs. Specifically, we prove that the expected running time of the well-developed interactive NSGA-II (called R-NSGA-II) for solving the OneMinMax and OneJumpZeroJump problems is $O(n \log n)$ and $O(n^k)$, respectively, which are all asymptotically faster than the traditional NSGA-II. Meanwhile, we present a variant of OneMinMax, and prove that R-NSGA-II can be exponentially slower than NSGA-II. These results provide theoretical justification for the effectiveness of iMOEAs while identifying situations where they may fail. Experiments are also conducted to validate the theoretical results. | 翻訳日:2023-10-17 10:29:52 公開日:2023-10-15 |
# センチネルトークンを用いた自己回帰変圧器のコンテキスト圧縮 Context Compression for Auto-regressive Transformers with Sentinel Tokens ( http://arxiv.org/abs/2310.08152v2 ) ライセンス: Link先を確認 | Siyu Ren, Qi Jia, Kenny Q. Zhu | (参考訳) 注意モジュールの二次的な複雑さは、世代間トランスフォーマーベースのLLMにおいて、徐々に計算のバルクとなる。
さらに、長い入力を扱うときに発生する過剰なキー値キャッシュは、メモリフットプリントと推論遅延に深刻な問題を引き起こす。
本研究では,特定のトークンスパンの中間的なアクティベーションをコンパクトなものに段階的に圧縮することが可能なプラグ・アンド・プレイ方式を提案する。
ドメイン内言語モデリングとゼロショットオープンエンド文書生成の両方の実験は、頻度、n-gramマッチング、意味的類似性の観点から、疎注意ベースラインに対する我々のアプローチの利点を実証している。
最後に、システム全体の改善におけるコンテキスト圧縮の利点を包括的に紹介する。
コードはhttps://github.com/drsy/kv_compressionで入手できる。 The quadratic complexity of the attention module makes it gradually become the bulk of compute in Transformer-based LLMs during generation. Moreover, the excessive key-value cache that arises when dealing with long inputs also brings severe issues on memory footprint and inference latency. In this work, we propose a plug-and-play approach that is able to incrementally compress the intermediate activation of a specified span of tokens into compact ones, thereby reducing both memory and computational cost when processing subsequent context. Experiments on both in-domain language modeling and zero-shot open-ended document generation demonstrate the advantage of our approach over sparse attention baselines in terms of fluency, n-gram matching, and semantic similarity. At last, we comprehensively profile the benefit of context compression on improving the system throughout. Code is available at https://github.com/DRSY/KV_Compression. | 翻訳日:2023-10-17 10:28:24 公開日:2023-10-15 |
# Promptor: インテリジェントテキスト入力技術のための会話型および自律型Prompt生成エージェント Promptor: A Conversational and Autonomous Prompt Generation Agent for Intelligent Text Entry Techniques ( http://arxiv.org/abs/2310.08101v2 ) ライセンス: Link先を確認 | Junxiao Shen, John J. Dudley, Jingyao Zheng, Bill Byrne, Per Ola Kristensson | (参考訳) テキスト入力は、日々のデジタルインタラクションにおいて不可欠なタスクです。
このプロセスを合理化するために、テキスト入力をより効率的、効率的、流動的にするために、多くの知的な特徴が開発されている。
これらの改善には、文予測とユーザパーソナライゼーションが含まれる。
しかし、深層学習に基づく言語モデルがこれらの高度な機能の標準となるにつれ、データ収集やモデル微調整の必要性が高まっている。
これらの課題は、GPT-3.5のような大規模言語モデルのコンテキスト内学習能力を活用することで軽減することができる。
このユニークな機能により、言語モデルはプロンプトを通じて新しいスキルを取得でき、データ収集や微調整の必要がなくなる。
その結果、大規模言語モデルは様々なテキスト予測技術を学ぶことができる。
まず, 文予測タスクにおいて, GPT-3.5が GPT-2 のバックアップシステムを超え, GPT-3.5 モデルと同等であり, 後者の2つの手法は, コストのかかるデータ収集, 微調整, 後処理を必要とすることを示した。
しかし、特にプロンプトエンジニアリングの専門知識を持たない設計者にとって、特定のテキスト予測タスクを専門とする大きな言語モデルを促すタスクは困難である。
そこで本稿では,デザイナーと積極的に対話するための対話型プロンプト生成エージェントであるPromptorを紹介する。
Promptorは、特定のニーズを満たすように調整された複雑なプロンプトを自動的に生成する。
24名の参加者が3つのインテリジェントテキスト入力タスクのプロンプトを作成し,その半数がプロンプトを使用して,残りの半分がプロンプトを独自に設計した。
その結果,プロンプターが設計したプロンプトでは,類似度が35%,コヒーレンスが22%向上した。 Text entry is an essential task in our day-to-day digital interactions. Numerous intelligent features have been developed to streamline this process, making text entry more effective, efficient, and fluid. These improvements include sentence prediction and user personalization. However, as deep learning-based language models become the norm for these advanced features, the necessity for data collection and model fine-tuning increases. These challenges can be mitigated by harnessing the in-context learning capability of large language models such as GPT-3.5. This unique feature allows the language model to acquire new skills through prompts, eliminating the need for data collection and fine-tuning. Consequently, large language models can learn various text prediction techniques. We initially showed that, for a sentence prediction task, merely prompting GPT-3.5 surpassed a GPT-2 backed system and is comparable with a fine-tuned GPT-3.5 model, with the latter two methods requiring costly data collection, fine-tuning and post-processing. However, the task of prompting large language models to specialize in specific text prediction tasks can be challenging, particularly for designers without expertise in prompt engineering. To address this, we introduce Promptor, a conversational prompt generation agent designed to engage proactively with designers. Promptor can automatically generate complex prompts tailored to meet specific needs, thus offering a solution to this challenge. We conducted a user study involving 24 participants creating prompts for three intelligent text entry tasks, half of the participants used Promptor while the other half designed prompts themselves. The results show that Promptor-designed prompts result in a 35% increase in similarity and 22% in coherence over those by designers. | 翻訳日:2023-10-17 10:27:47 公開日:2023-10-15 |
# コークテールパーティーで聴くタイピング:テキスト誘導型ターゲット話者抽出 Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction ( http://arxiv.org/abs/2310.07284v3 ) ライセンス: Link先を確認 | Xiang Hao, Jibin Wu, Jianwei Yu, Chenglin Xu, Kay Chen Tan | (参考訳) 人間は複雑な音響環境の中で、特にカクテルパーティーのシナリオと呼ばれる音の源に選択的に焦点を合わせる能力を持っている。
この顕著な聴覚的注意力を機械に再現する試みとして、ターゲット話者抽出(TSE)モデルが開発された。
これらのモデルは、対象話者の予め登録された手がかりを利用して、興味のある音源を抽出する。
しかし、これらのモデルの有効性は、信頼できない、あるいは登録済みのキューが存在しないために、現実のシナリオでは妨げられる。
この制限に対処するため,既存のTSEモデルの実現可能性,制御性,性能を高めるために,自然言語記述の統合について検討した。
具体的には,大規模言語モデル(llm)がユーザの型付きテキスト入力から有用な意味的手がかりを抽出するllm-tseモデルを提案する。
これらのキューは独立した抽出キュー、TSEプロセスを制御するタスクセレクタ、または登録済みのキューを補完する。
本研究は,テキストベースの手がかりのみを提示する場合,入力テキストをタスクセレクタとして使用することの有効性,テキストベースのキューと事前登録した手がかりを組み合わせる際の新たな最先端技術,といった競合性能を示す。
我々の知る限り、これは目標話者抽出を誘導するためにLSMをうまく組み込んだ最初の研究であり、これはカクテルパーティー問題研究の基盤となる可能性がある。 Humans possess an extraordinary ability to selectively focus on the sound source of interest amidst complex acoustic environments, commonly referred to as cocktail party scenarios. In an attempt to replicate this remarkable auditory attention capability in machines, target speaker extraction (TSE) models have been developed. These models leverage the pre-registered cues of the target speaker to extract the sound source of interest. However, the effectiveness of these models is hindered in real-world scenarios due to the unreliable or even absence of pre-registered cues. To address this limitation, this study investigates the integration of natural language description to enhance the feasibility, controllability, and performance of existing TSE models. Specifically, we propose a model named LLM-TSE, wherein a large language model (LLM) extracts useful semantic cues from the user's typed text input. These cues can serve as independent extraction cues, task selectors to control the TSE process or complement the pre-registered cues. Our experimental results demonstrate competitive performance when only text-based cues are presented, the effectiveness of using input text as a task selector, and a new state-of-the-art when combining text-based cues with pre-registered cues. To our knowledge, this is the first study to successfully incorporate LLMs to guide target speaker extraction, which can be a cornerstone for cocktail party problem research. | 翻訳日:2023-10-17 10:26:44 公開日:2023-10-15 |
# 異種転校学習に関する調査研究 A Survey of Heterogeneous Transfer Learning ( http://arxiv.org/abs/2310.08459v2 ) ライセンス: Link先を確認 | Runxue Bao, Yiming Sun, Yuhe Gao, Jindong Wang, Qiang Yang, Haifeng Chen, Zhi-Hong Mao, Ye Ye | (参考訳) ソースドメインからの知識を活用して対象ドメインのモデルパフォーマンスを向上させるトランスファーラーニング(transfer learning)の応用は、近年急速に増加し、現実のシナリオの多くを支えている。
その成功の鍵は、ほとんどの転校学習方法論において前提となる、ドメイン間の共通知識の共有にある。
これらの方法は通常、同じ特徴空間とラベル空間を両方の領域(同相転送学習として知られる)で仮定するが、それは必ずしも実用的仮定ではない。
多くの場合、ソースドメインとターゲットドメインは特徴空間、データ分布、ラベル空間によって異なり、同じ特徴空間とラベル空間を対象領域として持つソースドメインデータの保護が困難かコストがかかる。
これらの違いを任意に排除することは、常に可能あるいは最適であるとは限らない。
このように、異種移動学習(異種移動学習)は、様々なタスクにおいて有望なアプローチとして現れてきた。
このトピックに関する2017年の調査が存在するにもかかわらず、2017年以降の急速な進展は、更新された詳細なレビューを必要としている。
そこで本研究では,異種移動学習手法の最近の進歩を包括的に調査し,今後の研究の体系的ガイドを提供する。
本稿では,多様な学習シナリオのための方法論をレビューし,現在の研究の限界を論じ,自然言語処理,コンピュータビジョン,マルチモダリティ,バイオメディシンなど,様々な応用コンテキストを取り上げ,より深く理解し,今後の研究を促進する。 The application of transfer learning, an approach utilizing knowledge from a source domain to enhance model performance in a target domain, has seen a tremendous rise in recent years, underpinning many real-world scenarios. The key to its success lies in the shared common knowledge between the domains, a prerequisite in most transfer learning methodologies. These methods typically presuppose identical feature spaces and label spaces in both domains, known as homogeneous transfer learning, which, however, is not always a practical assumption. Oftentimes, the source and target domains vary in feature spaces, data distributions, and label spaces, making it challenging or costly to secure source domain data with identical feature and label spaces as the target domain. Arbitrary elimination of these differences is not always feasible or optimal. Thus, heterogeneous transfer learning, acknowledging and dealing with such disparities, has emerged as a promising approach for a variety of tasks. Despite the existence of a survey in 2017 on this topic, the fast-paced advances post-2017 necessitate an updated, in-depth review. We therefore present a comprehensive survey of recent developments in heterogeneous transfer learning methods, offering a systematic guide for future research. Our paper reviews methodologies for diverse learning scenarios, discusses the limitations of current studies, and covers various application contexts, including Natural Language Processing, Computer Vision, Multimodality, and Biomedicine, to foster a deeper understanding and spur future research. | 翻訳日:2023-10-17 10:18:15 公開日:2023-10-15 |