このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240727となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 並列計算とARIMAモデルを用いたPunoにおけるエネルギー消費予測の最適化:ビッグデータ処理の革新的アプローチ
Optimization of Energy Consumption Forecasting in Puno using Parallel Computing and ARIMA Models: An Innovative Approach to Big Data Processing ( http://arxiv.org/abs/2408.00014v1 ) ライセンス: Link先を確認 | Cliver W. Vilca-Tinta, Fred Torres-Cruz, Josefh J. Quispe-Morales, | (参考訳) 本研究では,ペルーのプノ地域のエネルギー消費を予測するために,ARIMA(AutoRegressive Integrated Average)モデルを用いた並列計算の革新的利用を提案する。
この研究は、逐次実装と並列実装の両方の実行速度、予測精度、スケーラビリティに焦点をあて、徹底的で多面的な分析を行う。
大規模なデータセットの効率的な管理に重点が置かれている。
その結果,予測の精度と整合性を維持しつつ,並列手法による計算効率とデータ処理能力の顕著な向上が示された。
この新しい手法は、リアルタイム予測分析のための汎用的で信頼性の高いソリューションを提供し、特に発展途上国において重要なエネルギー資源管理を強化する。
この分野での並列コンピューティングの技術的優位性を強調することに加えて、Punoのような地域でのエネルギー計画と持続可能な開発に対する実践的な影響を探求する。
This research presents an innovative use of parallel computing with the ARIMA (AutoRegressive Integrated Moving Average) model to forecast energy consumption in Peru's Puno region. The study conducts a thorough and multifaceted analysis, focusing on the execution speed, prediction accuracy, and scalability of both sequential and parallel implementations. A significant emphasis is placed on efficiently managing large datasets. The findings demonstrate notable improvements in computational efficiency and data processing capabilities through the parallel approach, all while maintaining the accuracy and integrity of predictions. This new method provides a versatile and reliable solution for real-time predictive analysis and enhances energy resource management, which is particularly crucial for developing areas. In addition to highlighting the technical advantages of parallel computing in this field, the study explores its practical impacts on energy planning and sustainable development in regions like Puno. | 翻訳日:2024-08-19 05:28:21 公開日:2024-07-27 |
# AgentPeerTalk: 学校におけるピアインタラクションにおけるいじめと冗談のエージェントAIによる識別を通じて学生に力を与える
AgentPeerTalk: Empowering Students through Agentic-AI-Driven Discernment of Bullying and Joking in Peer Interactions in Schools ( http://arxiv.org/abs/2408.01459v1 ) ライセンス: Link先を確認 | Aditya Paul, Chi Lok Yu, Eva Adelina Susanto, Nicholas Wai Long Lau, Gwenyth Isobel Meadows, | (参考訳) 学校いじめの効果的かつ迅速な対処は、学生のメンタルヘルスにとって不可欠である。
本研究では,大規模言語モデル(LLM)が,学校間交流におけるいじめと冗談を識別することで,学生に力を与える可能性について検討した。
われわれはChatGPT-4, Gemini 1.5 Pro, Claude 3 Opus を用いて, 評価を行った。
以上の結果から,全てのLSMが薬剤的アプローチに適している訳ではなく,ChatGPT-4が最も有望であることが明らかとなった。
LLMの出力の変動は、政治的過誤、コンテキストウィンドウの制限、トレーニングデータの既往バイアスの影響を受けている可能性がある。
ChatGPT-4はエージェントアプローチの実装後にコンテキスト特異的な精度に優れており、脆弱な学生に継続的なリアルタイムサポートを提供する可能性を強調している。
本研究は,エージェントAIを教育現場で活用することで,いじめの悪影響を低減し,学生の幸福を高めるための新たな道筋を提供する。
Addressing school bullying effectively and promptly is crucial for the mental health of students. This study examined the potential of large language models (LLMs) to empower students by discerning between bullying and joking in school peer interactions. We employed ChatGPT-4, Gemini 1.5 Pro, and Claude 3 Opus, evaluating their effectiveness through human review. Our results revealed that not all LLMs were suitable for an agentic approach, with ChatGPT-4 showing the most promise. We observed variations in LLM outputs, possibly influenced by political overcorrectness, context window limitations, and pre-existing bias in their training data. ChatGPT-4 excelled in context-specific accuracy after implementing the agentic approach, highlighting its potential to provide continuous, real-time support to vulnerable students. This study underlines the significant social impact of using agentic AI in educational settings, offering a new avenue for reducing the negative consequences of bullying and enhancing student well-being. | 翻訳日:2024-08-19 04:49:14 公開日:2024-07-27 |
# LocalValueBench: 大規模言語モデルにおける局所的価値アライメントと倫理的安全性を評価するための,共同構築および拡張可能なベンチマーク
LocalValueBench: A Collaboratively Built and Extensible Benchmark for Evaluating Localized Value Alignment and Ethical Safety in Large Language Models ( http://arxiv.org/abs/2408.01460v1 ) ライセンス: Link先を確認 | Gwenyth Isobel Meadows, Nicholas Wai Long Lau, Eva Adelina Susanto, Chi Lok Yu, Aditya Paul, | (参考訳) 大規模言語モデル(LLM)の普及は、特に既存のベンチマークは、創造者の文化的、法的、イデオロギー的価値を反映しているため、地域価値と倫理的基準との整合性をしっかりと評価する必要がある。
本稿では,LLMのオーストラリア価値への準拠性を評価するための拡張可能なベンチマークとして,ローカル値アライメントのための独自のLLMベンチマークを開発するために,世界中の規制当局にフレームワークを提供する。
倫理的推論と尋問的アプローチに新たなタイプロジカル・タイプロジを取り入れ,包括的質問を整理し,迅速な工学的戦略を用いてLLMの価値アライメントを探索した。
評価基準は,局所値からの偏差を定量化し,厳密な評価プロセスを確保する。
米国ベンダーによる3つの商用LCMの比較分析では、その有効性と限界に関する重要な洞察が示され、価値アライメントの重要性が示された。
この研究は、規制当局が適切なベンチマークを作成するための貴重なツールと方法論を提供し、倫理的AI開発を強化するための将来の研究の道のりを強調します。
The proliferation of large language models (LLMs) requires robust evaluation of their alignment with local values and ethical standards, especially as existing benchmarks often reflect the cultural, legal, and ideological values of their creators. \textsc{LocalValueBench}, introduced in this paper, is an extensible benchmark designed to assess LLMs' adherence to Australian values, and provides a framework for regulators worldwide to develop their own LLM benchmarks for local value alignment. Employing a novel typology for ethical reasoning and an interrogation approach, we curated comprehensive questions and utilized prompt engineering strategies to probe LLMs' value alignment. Our evaluation criteria quantified deviations from local values, ensuring a rigorous assessment process. Comparative analysis of three commercial LLMs by USA vendors revealed significant insights into their effectiveness and limitations, demonstrating the critical importance of value alignment. This study offers valuable tools and methodologies for regulators to create tailored benchmarks, highlighting avenues for future research to enhance ethical AI development. | 翻訳日:2024-08-19 04:49:14 公開日:2024-07-27 |
# グラフ残差法による分子特性予測法
Graph Residual based Method for Molecular Property Prediction ( http://arxiv.org/abs/2408.03342v1 ) ライセンス: Link先を確認 | Kanad Sen, Saksham Gupta, Abhishek Raj, Alankar Alankar, | (参考訳) 近年,材料科学の分野において,材料特性の予測が注目されている。
すでに様々な物理モデルや機械学習モデルが開発されており、良い結果が得られている。
しかし、それらは十分に正確ではなく、クリティカルな応用には不十分である。
従来の機械学習モデルは、ほとんどの場合容易に利用できない分子から抽出された特徴に基づいて特性を予測しようとする。
本稿では,最近開発された新しいディープラーニング手法であるグラフニューラルネットワーク(GNN)を適用し,その特性を直接予測する。
SMILES (Simplified Molecular Input Line Entry System) の分子の表現は入力データ形式として使用されており、さらにトレーニングデータを構成するグラフデータベースに変換されている。
本稿では、GRUをベースとした新しい手法の詳細な記述を取り上げ、使用済みの入力をマッピングする。
回帰特性とGNNバックボーンの分類に基づく特性の両方を強調することを重視する。
可変オートエンコーダ(VAE)の詳細な記述とエンドツーエンド学習法は,バックボーンのマルチクラスマルチラベル特性予測を強調するために提案されている。
結果は、標準ベンチマークデータセットや、新たに開発されたデータセットと比較されている。
これまで使用されてきたすべてのパフォーマンス指標は、その選択理由と同様に明確に定義されています。
キーワード:GNN, VAE, SMILES, multi-label multi-class classification, GRU
Property prediction of materials has recently been of high interest in the recent years in the field of material science. Various Physics-based and Machine Learning models have already been developed, that can give good results. However, they are not accurate enough and are inadequate for critical applications. The traditional machine learning models try to predict properties based on the features extracted from the molecules, which are not easily available most of the time. In this paper, a recently developed novel Deep Learning method, the Graph Neural Network (GNN), has been applied, allowing us to predict properties directly only the Graph-based structures of the molecules. SMILES (Simplified Molecular Input Line Entry System) representation of the molecules has been used in the present study as input data format, which has been further converted into a graph database, which constitutes the training data. This article highlights the detailed description of the novel GRU-based methodology to map the inputs that have been used. Emphasis on highlighting both the regressive property as well as the classification-based property of the GNN backbone. A detailed description of the Variational Autoencoder (VAE) and the end-to-end learning method has been given to highlight the multi-class multi-label property prediction of the backbone. The results have been compared with standard benchmark datasets as well as some newly developed datasets. All performance metrics which have been used have been clearly defined as well as their reason for choice. Keywords: GNN, VAE, SMILES, multi-label multi-class classification, GRU | 翻訳日:2024-08-19 04:39:15 公開日:2024-07-27 |
# 深層学習による電子サービス品質の向上--不動産Webサイトへの応用
Using deep learning to enhance electronic service quality: Application to real estate websites ( http://arxiv.org/abs/2408.06364v1 ) ライセンス: Link先を確認 | Samaa Elnagar, | (参考訳) 電子サービス品質(E-SQ)は、成功するための戦略的指標であり、サービス品質の次元は見落としている。
しかし、視覚的ツールや有形ツールを組み込むことで、eサービスの無形の性質をバランスさせることができる。
コンピュータビジョンのためのDeep Learningの進歩により、電子サービスのブラウジングと検索体験を強化するために、目に見える視覚的特徴が活用できるようになった。
通常、ユーザーは特定の検索基準を満たすことができるが、ほとんどのサービスは柔軟な検索フィルターを提供しない。
本研究は、電子サービスの具体性と効率を向上させるために、視覚的特徴と記述的特徴を統合することの重要性を強調する。
このメリットを享受できる電子サービスの主要な例は、不動産ウェブサイトである。
ユーザの好みにマッチする不動産の検索は、通常要求され、プロパティの損傷レベルのような視覚フィルタが欠落している。
この研究では、Mask-RCNNと呼ばれるディープラーニングネットワークを用いて、不動産画像の損傷を推定する新しい視覚記述的特徴である損傷レベルを導入している。
また、有形顧客体験の向上を目的とした、電子不動産サービスにおける有形機能として、被害レベルを組み込むモデルも開発されている。
Electronic service quality (E-SQ) is a strategic metric for successful e-services.Among the service quality dimensions, tangibility is overlooked. However, by incorporating visuals or tangible tools, the intangible nature of e-services can be balanced. Thanks to advancements in Deep Learning for computer vision, tangible visual features can now be leveraged to enhance the browsing and searching experience of electronic services. Users usually have specific search criteria to meet, but most services will not offer flexible search filters. This research emphasizes the importance of integrating visual and descriptive features to improve the tangibility and efficiency of e-services. A prime example of an electronic service that can benefit from this is real-estate websites. Searching for real estate properties that match user preferences is usually demanding and lacks visual filters, such as the Damage Level to the property. The research introduces a novel visual descriptive feature, the Damage Level, which utilizes a deep learning network known as Mask-RCNN to estimate damage in real estate images. Additionally, a model is developed to incorporate the Damage Level as a tangible feature in electronic real estate services, with the aim of enhancing the tangible customer experience. | 翻訳日:2024-08-19 03:57:10 公開日:2024-07-27 |
# 電気光学系における擬似光学結合が二部構造エンタングルメント, 機械的地盤冷却, スクイーズに及ぼす影響
Effects of Quadratic Optomechanical Coupling on Bipartite Entanglements, Mechanical Ground-State Cooling and Squeezing in an Electro-Optomechanical System ( http://arxiv.org/abs/2408.06365v1 ) ライセンス: Link先を確認 | N. Ghorbani, Ali Motazedifard, M. H. Naderi, | (参考訳) LC回路のマイクロ波場モードに移動膜が線形に結合するハイブリッド電気光学系において, 定常二部構造, 機械的地中冷却, および機械的四部構造を理論的に検討し, 同時に1モード光空洞の放射圧と線形および二次的に相互作用する。
二次オプティメカルカップリング(QOC)に適した符号と振幅を選択することで、サブシステム間の強化された、熱的に堅牢な定常二部構造の絡み合い、機械的接地冷却の改善、および3dB限界を超える機械的モードのQ-クアラーチャースクイーズを実現することができることを示す。
特に、正の符号を持つQOCの存在下では、1mKの温度の約2.25倍の光-マイクロ波絡み合いが増加し、90mKの周囲温度まで熱雑音に対して保存できることがわかった。
さらに、正の符号を持つQOCは、光学的およびマイクロ波的赤方偏光状態において、機械的基底状態の冷却を約1桁向上させる可能性がある。
また、QOCの正の符号とマイクロ波共鳴周波数の近傍では、機械モードのQクアドラーチャーのスクイーズ度を最大7dBまで増幅できることがわかった。
このようなハイブリッド電気光学系は、マイクロ波センシングと量子情報処理のための改良された光-マイクロ波絡み合った光源を設計するための有望なプラットフォームとして機能する。
We theoretically investigate the steady-state bipartite entanglements, mechanical ground-state cooling, and mechanical quadrature squeezing in a hybrid electro-optomechanical system where a moving membrane is linearly coupled to the microwave field mode of an LC circuit, while it simultaneously interacts both linearly and quadratically with the radiation pressure of a single-mode optical cavity. We show that by choosing a suitable sign and amplitude for the quadratic optomechanical coupling (QOC), one can achieve enhanced and thermally robust stationary bipartite entanglement between the subsystems, improved mechanical ground-state cooling, and Q-quadrature squeezing of the mechanical mode beyond the 3-dB limit of squeezing. In particular, we find that in the presence of QOC with positive sign the bipartite optical-microwave entanglement can be increased by about 2.25 times around the temperature of 1mK, and it can be preserved against thermal noise up to the ambient temperature of 90mK. Furthermore, the QOC with positive sign can give rise to the enhancement of the mechanical ground-state cooling by about 1 order of magnitude in the optical and microwave red-detuned regime. We also find that for the positive sign of QOC and near the microwave resonance frequency the squeezing degree of the Q-quadrature of the mechanical mode can be amplified up to 7 dB. Such a hybrid electro-optomechanical system can serve as a promising platform to engineer an improved optical-microwave entangled source for microwave sensing as well as quantum information processing. | 翻訳日:2024-08-19 03:57:10 公開日:2024-07-27 |
# LawLLM:アメリカの法律体系のための法律大言語モデル
LawLLM: Law Large Language Model for the US Legal System ( http://arxiv.org/abs/2407.21065v1 ) ライセンス: Link先を確認 | Dong Shu, Haoran Zhao, Xukun Liu, David Demeter, Mengnan Du, Yongfeng Zhang, | (参考訳) 急速に発展する法律分析の分野では、専門用語、複雑な構文、歴史的文脈を含む法律言語の複雑さのために、関連する事例を見つけ、正確な司法結果を予測することは困難である。
さらに、類似事例と前例事例の微妙な区別は、法的な知識の深い理解を必要とする。
研究者はしばしばこれらの概念を詳述し、これらの微妙なタスクに効果的に対処する専門的な技術を開発するのが困難になる。
本稿では,これらの課題に対処するために,米国法域を対象としたマルチタスクモデルであるLawLLMを紹介する。
LawLLMは、SCR(Simisal Case Retrieval)、PCR(Precedent Case Recommendation)、LJP(Lawal Judgment Prediction)で優れている。
本研究は,前例と類似事例を明確に区別することにより,これらの課題の専門戦略開発における今後の研究の指針となる重要な明確性を提供する。
そこで本研究では,各タスクに対して,生の法定データをトレーニング可能な形式に変換する,カスタマイズされたデータ前処理手法を提案する。
また,LawLLMでは,インコンテキスト学習(ICL)や高度な情報検索手法も採用している。
評価結果は、LawLLMがゼロショットと少数ショットの両方のシナリオにおいて既存のベースラインを一貫して上回り、重複しないマルチタスク機能を提供し、法域における重要なギャップを埋めていることを示している。
In the rapidly evolving field of legal analytics, finding relevant cases and accurately predicting judicial outcomes are challenging because of the complexity of legal language, which often includes specialized terminology, complex syntax, and historical context. Moreover, the subtle distinctions between similar and precedent cases require a deep understanding of legal knowledge. Researchers often conflate these concepts, making it difficult to develop specialized techniques to effectively address these nuanced tasks. In this paper, we introduce the Law Large Language Model (LawLLM), a multi-task model specifically designed for the US legal domain to address these challenges. LawLLM excels at Similar Case Retrieval (SCR), Precedent Case Recommendation (PCR), and Legal Judgment Prediction (LJP). By clearly distinguishing between precedent and similar cases, we provide essential clarity, guiding future research in developing specialized strategies for these tasks. We propose customized data preprocessing techniques for each task that transform raw legal data into a trainable format. Furthermore, we also use techniques such as in-context learning (ICL) and advanced information retrieval methods in LawLLM. The evaluation results demonstrate that LawLLM consistently outperforms existing baselines in both zero-shot and few-shot scenarios, offering unparalleled multi-task capabilities and filling critical gaps in the legal domain. | 翻訳日:2024-08-01 19:45:44 公開日:2024-07-27 |
# ワトソン博士型意思決定支援システムにおける対話の形式化
Formalization of Dialogue in the Decision Support System of Dr. Watson Type ( http://arxiv.org/abs/2407.20291v1 ) ライセンス: Link先を確認 | Saveli Goldberg, Vladimir Sluchak, | (参考訳) この論文は、我々の論文[4],[19]で提案されているように、ワトソン博士型のAIシステムにおける親和性対話の理論をさらに発展させ、定式化する。
このタイプのAIの主な原理は、ユーザ入力とシステムで収集されたデータの分析に基づく質問を用いて、ユーザーを友好的な方法でソリューションに向かって誘導することである。
The article further develops and formalizes a theory of friendly dialogue in an AI System of Dr. Watson type, as proposed in our previous publication[4],[19]. The main principle of this type of AI is to guide the user toward a solution in a friendly manner, using questions based on the analysis of user input and data collected in the system. | 翻訳日:2024-07-31 19:18:14 公開日:2024-07-27 |
# ピクセルから計画へ:スケールフリーな能動推論
From pixels to planning: scale-free active inference ( http://arxiv.org/abs/2407.20292v1 ) ライセンス: Link先を確認 | Karl Friston, Conor Heins, Tim Verbelen, Lancelot Da Costa, Tommaso Salvatori, Dimitrije Markovic, Alexander Tschantz, Magnus Koudahl, Christopher Buckley, Thomas Parr, | (参考訳) 本稿では、生成的モデリングのための離散状態空間モデルとそれに伴う手法について述べる。
このモデルは、部分的に観察されたマルコフ決定過程を、潜在変数としてのパスを含むように一般化し、動的条件下でのアクティブな推論と学習に適している。
具体的には、再正規化群を用いて、深層または階層的な形式を考察する。
続く再正規化生成モデル(RGM)は、運動の一般化座標における深部畳み込みニューラルネットワークまたは連続状態空間モデルの離散ホモログと見なすことができる。
建設によって、これらのスケール不変モデルは、空間と時間における構成性、経路または軌道の編み出しモデル、すなわち時間深度と反復性の増大を学習することができる。
この技術ノートは、一連のアプリケーションを使用したRGMの自動発見、学習、デプロイを説明している。
まず画像分類から始めて,映画や音楽の圧縮と生成について考察する。
最後に,アタリ型ゲームの学習にも同様の変分原理を適用した。
This paper describes a discrete state-space model -- and accompanying methods -- for generative modelling. This model generalises partially observed Markov decision processes to include paths as latent variables, rendering it suitable for active inference and learning in a dynamic setting. Specifically, we consider deep or hierarchical forms using the renormalisation group. The ensuing renormalising generative models (RGM) can be regarded as discrete homologues of deep convolutional neural networks or continuous state-space models in generalised coordinates of motion. By construction, these scale-invariant models can be used to learn compositionality over space and time, furnishing models of paths or orbits; i.e., events of increasing temporal depth and itinerancy. This technical note illustrates the automatic discovery, learning and deployment of RGMs using a series of applications. We start with image classification and then consider the compression and generation of movies and music. Finally, we apply the same variational principles to the learning of Atari-like games. | 翻訳日:2024-07-31 19:18:14 公開日:2024-07-27 |
# 拡散モデルによる逆問題:MAP推定の観点から
Inverse Problems with Diffusion Models: A MAP Estimation Perspective ( http://arxiv.org/abs/2407.20784v1 ) ライセンス: Link先を確認 | Sai bharath chandra Gutha, Hossein Azizpour, Ricardo Vinuesa, | (参考訳) 逆問題には科学や工学に多くの応用がある。
コンピュータビジョンでは、インペイント、デブロアリング、超解像などの画像復元タスクを逆問題として形式的にモデル化することができる。
近年, 事前学習した非条件拡散モデルのみを利用し, 追加のタスク固有の訓練を必要としない逆問題の解法が開発されている。
しかし, 逆拡散過程における条件スコア関数決定の難易度は真の課題となり, 実際の性能に影響を及ぼす近似による解法が残る。
本稿では,連続時間拡散モデルの逆条件生成過程を,勾配項を抽出可能なMAP目標の最適化プロセスとしてモデル化するMAP推定フレームワークを提案する。
理論的には、勾配に基づく最適化手法を用いて一般的な逆問題の解法として提案手法を適用することができる。
しかし、損失目標の非凸性を考えると、完全な勾配に基づく最適化アルゴリズムを見つけることは極めて困難であり、しかしながら、我々のフレームワークはいくつかの潜在的研究方向を提供する。
提案した定式化手法を用いて,ノイズのない,ノイズの多い画像の塗装課題を解くための経験的有効アルゴリズムを開発した。
マスク設定の多種多様な実験により提案アルゴリズムの有効性を検証した。
Inverse problems have many applications in science and engineering. In Computer vision, several image restoration tasks such as inpainting, deblurring, and super-resolution can be formally modeled as inverse problems. Recently, methods have been developed for solving inverse problems that only leverage a pre-trained unconditional diffusion model and do not require additional task-specific training. In such methods, however, the inherent intractability of determining the conditional score function during the reverse diffusion process poses a real challenge, leaving the methods to settle with an approximation instead, which affects their performance in practice. Here, we propose a MAP estimation framework to model the reverse conditional generation process of a continuous time diffusion model as an optimization process of the underlying MAP objective, whose gradient term is tractable. In theory, the proposed framework can be applied to solve general inverse problems using gradient-based optimization methods. However, given the highly non-convex nature of the loss objective, finding a perfect gradient-based optimization algorithm can be quite challenging, nevertheless, our framework offers several potential research directions. We use our proposed formulation and develop empirically effective algorithms for solving noiseless and noisy image inpainting tasks. We validate our proposed algorithms with extensive experiments across diverse mask settings. | 翻訳日:2024-07-31 17:19:48 公開日:2024-07-27 |
# ハイブリッドトライを用いたメモリ効率の良いシーケンスパターンマイニング
Memory-Efficient Sequential Pattern Mining with Hybrid Tries ( http://arxiv.org/abs/2202.06834v3 ) ライセンス: Link先を確認 | Amin Hosseininasab, Willem-Jan van Hoeve, Andre A. Cire, | (参考訳) 本稿では,大規模データセットにおいてよく知られたメモリボトルネックに直面する知識発見の基本的なトピックである逐次パターンマイニング(SPM)のメモリ効率向上手法を開発する。
提案手法は,メモリ上にデータセットを格納する繰り返しパターンを利用した新しいハイブリッドトレーデータ構造と,このコンパクト表現からパターンを効果的に抽出するマイニングアルゴリズムを含む。
小~中規模の実生活テストインスタンスの数値結果から, メモリ消費量が85%, 計算時間が49%向上した。
大規模なデータセットでは、256GBのシステムメモリ内で唯一の能力を持つSPMアプローチであり、メモリ消費の1.7TBを節約できる可能性がある。
This paper develops a memory-efficient approach for Sequential Pattern Mining (SPM), a fundamental topic in knowledge discovery that faces a well-known memory bottleneck for large data sets. Our methodology involves a novel hybrid trie data structure that exploits recurring patterns to compactly store the data set in memory; and a corresponding mining algorithm designed to effectively extract patterns from this compact representation. Numerical results on small to medium-sized real-life test instances show an average improvement of 85% in memory consumption and 49% in computation time compared to the state of the art. For large data sets, our algorithm stands out as the only capable SPM approach within 256GB of system memory, potentially saving 1.7TB in memory consumption. | 翻訳日:2024-07-31 01:36:13 公開日:2024-07-27 |
# 複数のチャネルを持つ量子グラフの散乱エントロピー
Scattering entropies of quantum graphs with several channels ( http://arxiv.org/abs/2211.09693v4 ) ライセンス: Link先を確認 | Alison A. Silva, Fabiano M. Andrade, D. Bazeia, | (参考訳) この研究は多くの異なる状況において量子グラフの散乱エントロピーを扱う。
まず、シャノンエントロピー(Shannon entropy)、次にR'enyiとTsallisエントロピー(Tsallis entropies)について考察する。
いくつかの頂点、辺、および鉛の存在下で、異なる種類の量子グラフに関連する多くの結果を記述する。
特に、この結果は量子グラフの輸送に関連するモデルの量子化子として用いられるかもしれない。
This work deals with the scattering entropy of quantum graphs in many different circumstances. We first consider the case of the Shannon entropy and then the R\'enyi and Tsallis entropies, which are more adequate to study distinct quantitative behavior such as entanglement and nonextensive behavior, respectively. We describe many results associated with different types of quantum graphs in the presence of several vertices, edges, and leads. In particular, we think the results may be used as quantifiers in models related to the transport in quantum graphs. | 翻訳日:2024-07-31 01:36:13 公開日:2024-07-27 |
# ディープラーニングによるビデオ教師なしドメイン適応:包括的調査
Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey ( http://arxiv.org/abs/2211.10412v3 ) ライセンス: Link先を確認 | Yuecong Xu, Haozhi Cao, Zhenghua Chen, Xiaoli Li, Lihua Xie, Jianfei Yang, | (参考訳) 行動認識などのビデオ分析タスクは、大規模データセットの導入やディープラーニングに基づく表現の導入により、スマートヘルスケアなどの分野の応用が拡大する中で、研究の関心が高まっている。
しかし、既存のデータセットでトレーニングされたビデオモデルは、トレーニングされたパブリックビデオデータセット(ソースビデオドメイン)と実際のビデオ(ターゲットビデオドメイン)の間のドメインシフトによって、現実世界のアプリケーションに直接デプロイされた場合、大幅なパフォーマンス劣化に悩まされる。
さらに,ビデオアノテーションのコストが高くなると,未ラベル映像をトレーニングに利用することがより現実的になる。
ビデオドメインシフトを緩和し、ビデオモデルの一般化性とポータビリティを向上させることにより、ラベル付きソースドメインからラベル付きターゲットドメインへのビデオモデルを適応させるため、ビデオアノテーションコストの均一なパフォーマンス劣化と対処を行うために、ビデオアン教師付きドメイン適応(VUDA)を導入している。
本稿では,深層学習によるVUDAの最近の進歩について調査する。
VUDAのモチベーションはVUDAの定義に続き、VUDAとVUDAの両方を異なるシナリオで扱う手法の最近の進歩と、VUDA研究のための現在のベンチマークデータセットから始まる。
最終的には、さらなるVUDA研究を促進するための今後の方向性が提供される。
この調査のリポジトリはhttps://github.com/xuyu0010/awesome-video- domain-adaptationにある。
Video analysis tasks such as action recognition have received increasing research interest with growing applications in fields such as smart healthcare, thanks to the introduction of large-scale datasets and deep learning-based representations. However, video models trained on existing datasets suffer from significant performance degradation when deployed directly to real-world applications due to domain shifts between the training public video datasets (source video domains) and real-world videos (target video domains). Further, with the high cost of video annotation, it is more practical to use unlabeled videos for training. To tackle performance degradation and address concerns in high video annotation cost uniformly, the video unsupervised domain adaptation (VUDA) is introduced to adapt video models from the labeled source domain to the unlabeled target domain by alleviating video domain shift, improving the generalizability and portability of video models. This paper surveys recent progress in VUDA with deep learning. We begin with the motivation of VUDA, followed by its definition, and recent progress of methods for both closed-set VUDA and VUDA under different scenarios, and current benchmark datasets for VUDA research. Eventually, future directions are provided to promote further VUDA research. The repository of this survey is provided at https://github.com/xuyu0010/awesome-video-domain-adaptation. | 翻訳日:2024-07-31 01:26:28 公開日:2024-07-27 |
# 長期音声推薦の最適化:強化学習の視点から
Optimizing Audio Recommendations for the Long-Term: A Reinforcement Learning Perspective ( http://arxiv.org/abs/2302.03561v3 ) ライセンス: Link先を確認 | Lucas Maystre, Daniel Russo, Yu Zhao, | (参考訳) 本稿では,産業規模でのポッドキャストレコメンデーションシステムについて紹介する。
このシステムは、数億のリスナーに対して数ヶ月にわたって展開するパーソナルリスニングの最適化に成功している。
機械学習アルゴリズムを短時間のプロキシメトリクスに最適化するという、幅広い業界慣行から逸脱して、システムはA/Bテストの長期的なパフォーマンスを大幅に改善する。
この論文は、我々の手法が帰属、調整、測定の課題にどのように対処し、そのような長期的な最適化を妨げているかについての洞察を提供する。
より広範な学術的な枠組みの中で、これらの実践的な洞察を文脈化するために、強化学習(RL)に目を向ける。
RLの言語を用いて,レコメンダシステムとユーザの繰り返し関係の包括的モデルを定式化する。
そこで本モデルでは,提案手法を既存のレコメンデータシステムのコンポーネントに対するポリシー改善の更新として認識し,値関数とユーザ状態表現のモデル化によって拡張する。
図示的なオフライン実験は、この特殊なモデリングによって、ブラックボックスアプローチと比較して、データ要求を最大12万倍削減することを示している。
We present a novel podcast recommender system deployed at industrial scale. This system successfully optimizes personal listening journeys that unfold over months for hundreds of millions of listeners. In deviating from the pervasive industry practice of optimizing machine learning algorithms for short-term proxy metrics, the system substantially improves long-term performance in A/B tests. The paper offers insights into how our methods cope with attribution, coordination, and measurement challenges that usually hinder such long-term optimization. To contextualize these practical insights within a broader academic framework, we turn to reinforcement learning (RL). Using the language of RL, we formulate a comprehensive model of users' recurring relationships with a recommender system. Then, within this model, we identify our approach as a policy improvement update to a component of the existing recommender system, enhanced by tailored modeling of value functions and user-state representations. Illustrative offline experiments suggest this specialized modeling reduces data requirements by as much as a factor of 120,000 compared to black-box approaches. | 翻訳日:2024-07-31 01:26:28 公開日:2024-07-27 |
# 量子フィッシャー情報量を用いた量子機械学習モデルの一般化
Generalization of Quantum Machine Learning Models Using Quantum Fisher Information Metric ( http://arxiv.org/abs/2303.13462v3 ) ライセンス: Link先を確認 | Tobias Haug, M. S. Kim, | (参考訳) 一般化とは、機械学習モデルがトレーニングデータから学習することで、新しいデータに対して正確な予測を行う能力である。
しかし、量子機械学習モデルの一般化を理解することが大きな課題となっている。
本稿では,データ量子フィッシャー情報量(DQFIM)について紹介する。
変分量子アルゴリズムのキャパシティは、変分アンサッツ、トレーニングデータ、およびそれらの対称性に依存する。
本稿では,DQFIMを用いて回路パラメータの定量化と,学習と一般化に要するトレーニングデータについて述べる。
動的リー代数を用いて、低数の訓練状態を用いて一般化する方法を説明する。
反故意に、トレーニングデータの破れ対称性は、一般化を改善するのに役立ちます。
最後に、異なるデータ分布からトレーニングデータとテストデータを描画するアウト・オブ・ディストリビューションの一般化が、同じ分布を使用するよりも優れていることを発見した。
私たちの研究は、量子機械学習モデルのパワーを探求するための有用なフレームワークを提供します。
Generalization is the ability of machine learning models to make accurate predictions on new data by learning from training data. However, understanding generalization of quantum machine learning models has been a major challenge. Here, we introduce the data quantum Fisher information metric (DQFIM). It describes the capacity of variational quantum algorithms depending on variational ansatz, training data and their symmetries. We apply the DQFIM to quantify circuit parameters and training data needed to successfully train and generalize. Using the dynamical Lie algebra, we explain how to generalize using a low number of training states. Counter-intuitively, breaking symmetries of the training data can help to improve generalization. Finally, we find that out-of-distribution generalization, where training and testing data are drawn from different data distributions, can be better than using the same distribution. Our work provides a useful framework to explore the power of quantum machine learning models. | 翻訳日:2024-07-31 01:26:28 公開日:2024-07-27 |
# 到達可能な集合の凸ハル
Convex Hulls of Reachable Sets ( http://arxiv.org/abs/2303.17674v4 ) ライセンス: Link先を確認 | Thomas Lew, Riccardo Bonalli, Marco Pavone, | (参考訳) 有界な乱れと不確実な初期条件を持つ非線形系の到達可能な集合の凸殻について検討する。
到達可能な集合は制御において重要な役割を果たすが、計算が困難であることで知られており、既存の過剰近似ツールは保守的あるいは計算的に高価である傾向がある。
本研究では、到達可能な集合の凸殻を、球面上の初期条件を持つ常微分方程式の解の凸殻として特徴づける。
この有限次元キャラクタリゼーションは、効率的なサンプリングベース推定アルゴリズムを解き放ち、精度良く到達可能な集合をオーバー近似する。
また, 到達可能な凸船体の境界構造と, 推定アルゴリズムにおける誤差境界の導出について検討した。
ニューラルフィードバックループ解析とロバストなMPCへの応用について述べる。
We study the convex hulls of reachable sets of nonlinear systems with bounded disturbances and uncertain initial conditions. Reachable sets play a critical role in control, but remain notoriously challenging to compute, and existing over-approximation tools tend to be conservative or computationally expensive. In this work, we characterize the convex hulls of reachable sets as the convex hulls of solutions of an ordinary differential equation with initial conditions on the sphere. This finite-dimensional characterization unlocks an efficient sampling-based estimation algorithm to accurately over-approximate reachable sets. We also study the structure of the boundary of the reachable convex hulls and derive error bounds for the estimation algorithm. We give applications to neural feedback loop analysis and robust MPC. | 翻訳日:2024-07-31 01:16:44 公開日:2024-07-27 |
# 名前には何があるのか? 画像認識のためのクラス指標を超えて
What's in a Name? Beyond Class Indices for Image Recognition ( http://arxiv.org/abs/2304.02364v2 ) ライセンス: Link先を確認 | Kai Han, Xiaohu Huang, Yandong Li, Sagar Vaze, Jie Li, Xuhui Jia, | (参考訳) 既存の機械学習モデルは、完全な監視下で大規模なデータセットをトレーニングした後、画像オブジェクト認識において優れたパフォーマンスを示す。
しかし、これらのモデルは、イメージ内のオブジェクトの実際の意味を明らかにすることなく、事前に定義されたクラスインデックスにイメージをマッピングすることしか学ばない。
これとは対照的に、CLIPのような視覚言語モデルは、テスト時に事前に定義された候補名のセットを提供するが、"ゼロショット"な方法で、未確認のオブジェクトにセマンティッククラス名を割り当てることができる。
本稿では,認識問題を再考し,カテゴリの大規模(制約のない)語彙のみを先行情報として与えられた画像にクラス名を割り当てる視覚言語モデルを提案する。
非パラメトリックな手法を用いて画像間の有意義な関係を確立することにより、モデルが候補名のプールを自動的に絞り込むことができる。
提案手法では,データを反復的にクラスタリングし,投票機構を用いて最も適切なクラス名を決定する。
さらに,クラスタリング性能を向上させるために,追加のテキスト機能を導入する可能性についても検討する。
これを実現するために、我々はCLIPビジョンとテキストエンコーダを用いて外部データベースから関連するテキストを検索し、クラスタリングプロセスに通知するための補足的意味情報を提供する。
さらに, 教師なし, 部分的に教師なしの設定と, 粗粒度, きめ細粒度検索空間の両方でこの問題に対処する。
また,本手法は,教師なし設定において,ImageNetのベースラインを約50%改善する。
Existing machine learning models demonstrate excellent performance in image object recognition after training on a large-scale dataset under full supervision. However, these models only learn to map an image to a predefined class index, without revealing the actual semantic meaning of the object in the image. In contrast, vision-language models like CLIP are able to assign semantic class names to unseen objects in a 'zero-shot' manner, though they are once again provided a pre-defined set of candidate names at test-time. In this paper, we reconsider the recognition problem and task a vision-language model with assigning class names to images given only a large (essentially unconstrained) vocabulary of categories as prior information. We leverage non-parametric methods to establish meaningful relationships between images, allowing the model to automatically narrow down the pool of candidate names. Our proposed approach entails iteratively clustering the data and employing a voting mechanism to determine the most suitable class names. Additionally, we investigate the potential of incorporating additional textual features to enhance clustering performance. To achieve this, we employ the CLIP vision and text encoders to retrieve relevant texts from an external database, which can provide supplementary semantic information to inform the clustering process. Furthermore, we tackle this problem both in unsupervised and partially supervised settings, as well as with a coarse-grained and fine-grained search space as the unconstrained dictionary. Remarkably, our method leads to a roughly 50% improvement over the baseline on ImageNet in the unsupervised setting. | 翻訳日:2024-07-31 01:16:44 公開日:2024-07-27 |
# 量子多体傷痕としての開系と閉二層系と熱場二重状態の二重性
Duality between open systems and closed bilayer systems, and thermofield double states as quantum many-body scars ( http://arxiv.org/abs/2304.03155v3 ) ライセンス: Link先を確認 | Alexander Teretenkov, Oleg Lychkovskiy, | (参考訳) 我々は,Gorini-Kossakowski-Sudarshan-Lindblad(GKSL)方程式によって支配される開多体系と,一方の側で詳細なバランス条件を満たす閉多体系と,他方の側で自己随伴ハミルトニアンを持つ閉二層系との双対性を確立する。
この双対性の下で、開系側の恒等作用素は熱場二重状態に写像し、これは双対ハミルトニアン$\mathcal H$の量子多体傷であることが判明した。
この熱電界傷の特徴は、開放系側の貯水池温度によって制御される調節可能な絡み合いエントロピーである。
さらに、非自明な固有作用素を持つ多体開系の広いクラスをリンドブラディアン超作用素の$Q$で同定する。
対応する可観測体の期待値は、初期状態に関係なく、単純な指数的減衰、$\langle Q\rangle_t=e^{-\Gamma t} \langle Q \rangle_0$を示す。
上記の双対性の下で、これらの固有作用素は追加の(トーワーの)傷を生じさせる。
最後に、より一般的な超作用素(必ずしもGKSL形式ではない)は、二重層系の自己共役ハミルトニアンに写像され、その例を示すことを指摘した。
We establish a duality between open many-body systems governed by the Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) equation and satisfying the detailed balance condition on the one side, and closed bilayer systems with a self-adjoint Hamiltonian on the other side. Under this duality, the identity operator on the open system side maps to the thermofield double state which turns out to be a quantum many-body scar of the dual Hamiltonian $\mathcal H$. A remarkable feature of this thermofield scar is a tunable entanglement entropy controlled by the reservoir temperature on the open system side. Further, we identify broad classes of many-body open systems with nontrivial explicit eigen operators $Q$ of the Lindbladian superoperator. The expectation values of the corresponding observables exhibit a simple exponential decay, $\langle Q\rangle_t=e^{-\Gamma t} \langle Q \rangle_0$, irrespectively of the initial state. Under the above duality, these eigen operators give rise to additional (towers of) scars. Finally, we point out that more general superoperators (not necessarily of the GKSL form) can be mapped to self-adjoint Hamiltonians of bilayer systems harbouring scars, and provide an example thereof. | 翻訳日:2024-07-31 01:16:44 公開日:2024-07-27 |
# ContactArt: カテゴリーレベルのArticulated Object と Hand Poses Estimation のための3Dインタラクションの事前学習
ContactArt: Learning 3D Interaction Priors for Category-level Articulated Object and Hand Poses Estimation ( http://arxiv.org/abs/2305.01618v2 ) ライセンス: Link先を確認 | Zehao Zhu, Jiashun Wang, Yuzhe Qin, Deqing Sun, Varun Jampani, Xiaolong Wang, | (参考訳) そこで我々は,手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動・手動の
まず、視覚的遠隔操作を用いてデータセットを収集し、人間のオペレータが物理的シミュレータ内で直接プレイして、調音されたオブジェクトを操作する。
我々は、データを記録し、オブジェクトのポーズに関する自由かつ正確なアノテーションと、シミュレータから連絡先情報を取得する。
私たちのシステムでは、人手の動きを記録するためにiPhoneしか必要とせず、簡単にスケールアップでき、データやアノテーションの収集コストを大幅に削減できます。
このデータを用いて,物体の配置の分布を計測する識別器(GAN)と,手ポーズ推定を導いた明瞭な物体上の接触領域を生成する拡散モデルを含む3次元相互作用の先行点を学習する。
このような構造と接触先は、ほとんどドメインギャップのない実世界のデータに容易に転送できる。
筆者らは,データと先行学習を用いて,手作業における性能を著しく向上させ,既存の最先端手法による評価を行う。
このプロジェクトはhttps://zehaozhu.github.io/ContactArt/で公開されている。
We propose a new dataset and a novel approach to learning hand-object interaction priors for hand and articulated object pose estimation. We first collect a dataset using visual teleoperation, where the human operator can directly play within a physical simulator to manipulate the articulated objects. We record the data and obtain free and accurate annotations on object poses and contact information from the simulator. Our system only requires an iPhone to record human hand motion, which can be easily scaled up and largely lower the costs of data and annotation collection. With this data, we learn 3D interaction priors including a discriminator (in a GAN) capturing the distribution of how object parts are arranged, and a diffusion model which generates the contact regions on articulated objects, guiding the hand pose estimation. Such structural and contact priors can easily transfer to real-world data with barely any domain gap. By using our data and learned priors, our method significantly improves the performance on joint hand and articulated object poses estimation over the existing state-of-the-art methods. The project is available at https://zehaozhu.github.io/ContactArt/ . | 翻訳日:2024-07-31 01:16:44 公開日:2024-07-27 |
# Span-based Sequence Labelingのための費用効率の高いクラウドソーシング:作業者選択とデータ拡張
Cost-efficient Crowdsourcing for Span-based Sequence Labeling: Worker Selection and Data Augmentation ( http://arxiv.org/abs/2305.06683v2 ) ライセンス: Link先を確認 | Yujie Wang, Chao Huang, Liner Yang, Zhixuan Fang, Yaping Huang, Yang Liu, Jingsi Yu, Erhong Yang, | (参考訳) 本稿では,新たなクラウドソーシング作業者選択アルゴリズムを導入し,アノテーションの品質向上とコスト削減を図る。
従来の単純なタスクを対象とする研究とは異なり、この研究はシークエンスラベリングにおけるラベル相互依存性の複雑さと競合する。
提案アルゴリズムは,作業者選択にコンビニアル・マルチアーマッド・バンドイット(CMAB)アプローチ,コスト効率のよいフィードバック機構を利用する。
労働者選択のオフラインシミュレーションを妨げる不均衡データセットと小規模データセットを扱うという課題は、シフト、拡張、縮小(SES)と呼ばれる革新的なデータ拡張手法によって解決される。
CoNLL 2003 NERと中国のOEIデータセットの厳密なテストではアルゴリズムの効率が示され、F1のスコアはエキスパートのみのベースラインの100.04%まで上昇し、コストは65.97%まで削減された。
論文ではまた、Bernoulli分布によるアノテーション評価をデータセットに依存しないテストでエミュレートし、エキスパートベースラインの97.56%のF1スコアと59.88%のコスト削減を実現している。
さらに,本手法を人間フィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)システムにシームレスに統合することで,人間のフィードバックを得るための費用対効果の高いソリューションを提供する。
This paper introduces a novel crowdsourcing worker selection algorithm, enhancing annotation quality and reducing costs. Unlike previous studies targeting simpler tasks, this study contends with the complexities of label interdependencies in sequence labeling. The proposed algorithm utilizes a Combinatorial Multi-Armed Bandit (CMAB) approach for worker selection, and a cost-effective human feedback mechanism. The challenge of dealing with imbalanced and small-scale datasets, which hinders offline simulation of worker selection, is tackled using an innovative data augmentation method termed shifting, expanding, and shrinking (SES). Rigorous testing on CoNLL 2003 NER and Chinese OEI datasets showcased the algorithm's efficiency, with an increase in F1 score up to 100.04% of the expert-only baseline, alongside cost savings up to 65.97%. The paper also encompasses a dataset-independent test emulating annotation evaluation through a Bernoulli distribution, which still led to an impressive 97.56% F1 score of the expert baseline and 59.88% cost savings. Furthermore, our approach can be seamlessly integrated into Reinforcement Learning from Human Feedback (RLHF) systems, offering a cost-effective solution for obtaining human feedback. | 翻訳日:2024-07-31 01:16:44 公開日:2024-07-27 |
# REMAST:ソフト・トランジションによるリアルタイム感情に基づく音楽アレンジメント
REMAST: Real-time Emotion-based Music Arrangement with Soft Transition ( http://arxiv.org/abs/2305.08029v3 ) ライセンス: Link先を確認 | Zihao Wang, Le Ma, Chen Zhang, Bo Han, Yunfei Xu, Yikai Wang, Xinyi Chen, HaoRong Hong, Wenbo Liu, Xinda Wu, Kejun Zhang, | (参考訳) 感情的な介入媒体としての音楽は、音楽療法、ゲーム、映画などのシナリオに重要な応用がある。
しかし、音楽は感情の変化に応じてリアルタイムなアレンジメントを必要としており、ターゲットの感情のきめ細かい性質とミュータブルな性質のために、感情のリアルタイム適合とソフトな感情遷移のバランスをとるための課題をもたらす。
既存の研究は主に感情をリアルタイムに適合させることに焦点が当てられているが、スムーズなトランジションの問題はまだ検討されており、音楽の全体的な感情的コヒーレンスに影響を与える。
本稿では,このトレードオフに対応するためのREMASTを提案する。
具体的には、最後のタイムステップの音楽感情を認識し、それを現在のタイムステップの入力感情と融合させる。
融合した感情はREMASTを誘導し、入力されたメロディに基づいて音楽を生成する。
音楽の類似性と感情のリアルタイム適合性を柔軟に調整するために、オリジナルメロディを分解し、生成モデルに入力する。
さらに、ドメイン知識による4つの音楽理論の特徴を設計し、感情情報を強化し、半教師付き学習を用いて、手動データセットアノテーションによる主観的バイアスを軽減する。
評価結果によると,REMASTは客観的および主観的指標において最先端の手法を超越している。
これらの結果から、REMASTはリアルタイムな適合性とスムーズな遷移を同時に達成し、生成した音楽のコヒーレンスを高めることが示されている。
Music as an emotional intervention medium has important applications in scenarios such as music therapy, games, and movies. However, music needs real-time arrangement according to changing emotions, bringing challenges to balance emotion real-time fit and soft emotion transition due to the fine-grained and mutable nature of the target emotion. Existing studies mainly focus on achieving emotion real-time fit, while the issue of smooth transition remains understudied, affecting the overall emotional coherence of the music. In this paper, we propose REMAST to address this trade-off. Specifically, we recognize the last timestep's music emotion and fuse it with the current timestep's input emotion. The fused emotion then guides REMAST to generate the music based on the input melody. To adjust music similarity and emotion real-time fit flexibly, we downsample the original melody and feed it into the generation model. Furthermore, we design four music theory features by domain knowledge to enhance emotion information and employ semi-supervised learning to mitigate the subjective bias introduced by manual dataset annotation. According to the evaluation results, REMAST surpasses the state-of-the-art methods in objective and subjective metrics. These results demonstrate that REMAST achieves real-time fit and smooth transition simultaneously, enhancing the coherence of the generated music. | 翻訳日:2024-07-31 01:16:44 公開日:2024-07-27 |
# 視覚変換器とそのCNN変換器に基づく変数の検討
A survey of the Vision Transformers and their CNN-Transformer based Variants ( http://arxiv.org/abs/2305.09880v4 ) ライセンス: Link先を確認 | Asifullah Khan, Zunaira Rauf, Anabia Sohail, Abdul Rehman, Hifsa Asif, Aqsa Asif, Umair Farooq, | (参考訳) ビジョントランスフォーマーは、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワーク(CNN)の代替として人気がある。
これらのトランスフォーマーは、画像のグローバルな関係にフォーカスする能力を持ち、大きな学習能力を提供する。
しかし、画像の局所的相関をモデル化しないため、限定的な一般化に悩まされることがある。
近年,視覚変換器による畳み込み操作と自己認識機構のハイブリダイゼーションが出現し,局所的および大域的画像表現の両面を利用した。
これらのハイブリッド・ビジョン・トランスフォーマーは、CNN-Transformerアーキテクチャとしても知られており、視覚応用において顕著な成果を上げている。
ハイブリット・ビジョン・トランスフォーマーが急速に増えていることから、これらのハイブリッド・アーキテクチャの分類と説明を提供する必要がある。
本調査では,近年のビジョントランスフォーマーアーキテクチャの分類,特にハイブリッドビジョントランスフォーマーの分類について述べる。
さらに,アテンション機構,位置埋め込み,マルチスケール処理,畳み込みなど,これらのアーキテクチャの重要な特徴についても論じる。
個々のビジョントランスフォーマーアーキテクチャ(CNN)に主に焦点を絞った以前の調査論文とは対照的に、この調査はハイブリッドビジョントランスフォーマーの新たなトレンドを強調している。
ハイブリット・ビジョン・トランスフォーマーが様々なコンピュータビジョンタスクにまたがって優れたパフォーマンスをもたらす可能性を示すことで、この急速に進化するアーキテクチャの今後の方向性に光を当てることになる。
Vision transformers have become popular as a possible substitute to convolutional neural networks (CNNs) for a variety of computer vision applications. These transformers, with their ability to focus on global relationships in images, offer large learning capacity. However, they may suffer from limited generalization as they do not tend to model local correlation in images. Recently, in vision transformers hybridization of both the convolution operation and self-attention mechanism has emerged, to exploit both the local and global image representations. These hybrid vision transformers, also referred to as CNN-Transformer architectures, have demonstrated remarkable results in vision applications. Given the rapidly growing number of hybrid vision transformers, it has become necessary to provide a taxonomy and explanation of these hybrid architectures. This survey presents a taxonomy of the recent vision transformer architectures and more specifically that of the hybrid vision transformers. Additionally, the key features of these architectures such as the attention mechanisms, positional embeddings, multi-scale processing, and convolution are also discussed. In contrast to the previous survey papers that are primarily focused on individual vision transformer architectures or CNNs, this survey uniquely emphasizes the emerging trend of hybrid vision transformers. By showcasing the potential of hybrid vision transformers to deliver exceptional performance across a range of computer vision tasks, this survey sheds light on the future directions of this rapidly evolving architecture. | 翻訳日:2024-07-31 01:16:44 公開日:2024-07-27 |
# 受動保証付きデモから可変インピーダンススキルを学習する
Learning Variable Impedance Skills from Demonstrations with Passivity Guarantee ( http://arxiv.org/abs/2306.11308v2 ) ライセンス: Link先を確認 | Yu Zhang, Long Cheng, Xiuze Xia, Haoyu Zhang, | (参考訳) ロボットはますます職場だけでなく、家庭にも配備されている。
ロボットによる操作タスクの効果的実行は、接触力による可変インピーダンス制御に依存する。
さらに、ロボットは、人間の実演を通して得られる動的環境において、異なるロボットタスクによって示されるかなりの変動に対処する適応能力を持つべきである。
本稿では,力覚と運動情報を統合し,可変インピーダンス制御を実現するための学習支援フレームワークを提案する。
提案手法は, 人間の実演からの全剛性行列を推定し, 知覚力と運動情報を組み合わせて非パラメトリック法を用いてモデルを作成する。
このモデルにより、ロボットは、状態依存剛性プロファイルを用いて、新しいタスク条件に適切に応答しながら、実証されたタスクを複製することができる。
さらに, 学習剛性を利用して透過性を確保するため, タンク型可変インピーダンス制御手法を提案する。
提案手法は2つの仮想変数剛性システムを用いて評価した。
第1の評価は、手動のデータセットでテストした場合の剛性推定手法は従来の手法に比べて優れた堅牢性を示し、第2の評価は、従来の可変インピーダンス制御手法と比較して、新しいタンクベースのアプローチがより容易に実装可能であることを示す。
Robots are increasingly being deployed not only in workplaces but also in households. Effectively execute of manipulation tasks by robots relies on variable impedance control with contact forces. Furthermore, robots should possess adaptive capabilities to handle the considerable variations exhibited by different robotic tasks in dynamic environments, which can be obtained through human demonstrations. This paper presents a learning-from-demonstration framework that integrates force sensing and motion information to facilitate variable impedance control. The proposed approach involves the estimation of full stiffness matrices from human demonstrations, which are then combined with sensed forces and motion information to create a model using the non-parametric method. This model allows the robot to replicate the demonstrated task while also responding appropriately to new task conditions through the use of the state-dependent stiffness profile. Additionally, a novel tank based variable impedance control approach is proposed to ensure passivity by using the learned stiffness. The proposed approach was evaluated using two virtual variable stiffness systems. The first evaluation demonstrates that the stiffness estimated approach exhibits superior robustness compared to traditional methods when tested on manual datasets, and the second evaluation illustrates that the novel tank based approach is more easily implementable compared to traditional variable impedance control approaches. | 翻訳日:2024-07-31 01:06:50 公開日:2024-07-27 |
# GIO: トレーニングデータセット選択のための勾配情報最適化
GIO: Gradient Information Optimization for Training Dataset Selection ( http://arxiv.org/abs/2306.11670v3 ) ライセンス: Link先を確認 | Dante Everaert, Christopher Potts, | (参考訳) 利用可能な列車の例のサブセットでモデルを訓練することはしばしば有利である、なぜならその例は様々な品質のものであるか、または、性能を犠牲にすることなくより少ない例でモデルを訓練したいからである。
本稿では、このデータ選択問題に対するスケーラブルでタスクに依存しないアプローチであるグラディエント・インフォメーション・最適化(GIO)を提案する。
GIOは自然で情報理論的な目的から始まり、実際は難解である。
私たちの貢献は、目的をシンプルに緩和し、非常に効率的な実装をすることで、高度にスケーラブルにできることを示すことです。
機械翻訳、スペル補正、画像認識の実験では、非常に小さな列車セットで優れた結果が得られることを示した。
これらの発見は、GIO自体の異なる表現モデルとハイパーパラメータに対して堅牢である。
GIOはタスクとドメインに依存しないため、新しいデータセットやドメインに最初から適用することができる。
pip- installable implementation of the algorithm as "pip install grad-info-opt"。
It is often advantageous to train models on a subset of the available train examples, because the examples are of variable quality or because one would like to train with fewer examples, without sacrificing performance. We present Gradient Information Optimization (GIO), a scalable, task-agnostic approach to this data selection problem that requires only a small set of (unlabeled) examples representing a target distribution. GIO begins from a natural, information-theoretic objective that is intractable in practice. Our contribution is in showing that it can be made highly scalable through a simple relaxation of the objective and a highly efficient implementation. In experiments with machine translation, spelling correction, and image recognition, we show that GIO delivers outstanding results with very small train sets. These findings are robust to different representation models and hyperparameters for GIO itself. GIO is task- and domain-agnostic and can be applied out-of-the-box to new datasets and domains. We open source a pip-installable implementation of the algorithm as "pip install grad-info-opt". | 翻訳日:2024-07-31 01:06:50 公開日:2024-07-27 |
# レールのみ:トリリオンパラメータを用いたLDM訓練のための低コスト高性能ネットワーク
Rail-only: A Low-Cost High-Performance Network for Training LLMs with Trillion Parameters ( http://arxiv.org/abs/2307.12169v4 ) ライセンス: Link先を確認 | Weiyang Wang, Manya Ghobadi, Kayvon Shakeri, Ying Zhang, Naader Hasani, | (参考訳) 本稿では,大規模言語モデル(LLM)をハイパースケールでトレーニングするための,低コストなネットワークアーキテクチャを提案する。
LLMの最適並列化戦略について検討し、LLMのユニークな通信パターンに合わせた新しいデータセンターネットワーク設計を提案する。
LLMトレーニングでは,ネットワーク内の疎結合パターンが生成され,全二分割ネットワークを効率的に構築する必要がなくなる。
その結果,従来のGPUクラスタのスピン層を排除した。
この設計をRailオンリーネットワークと呼び、従来のGPUデータセンタと比較してネットワークコストを38%から77%削減し、ネットワーク消費電力を37%から75%削減しながら、同じトレーニング性能を達成することを示した。
私たちのアーキテクチャは、全トラフィックに対して4.1%から5.6%の完了時間オーバーヘッドしか持たない、全対全通信を備えたMixture-of-Expert(MoE)モデルもサポートしています。
レールのみのネットワークにおける障害の堅牢性について検討し、異なるネットワークとトレーニングパラメータのパフォーマンスへの影響について考察する。
This paper presents a low-cost network architecture for training large language models (LLMs) at hyperscale. We study the optimal parallelization strategy of LLMs and propose a novel datacenter network design tailored to LLM's unique communication pattern. We show that LLM training generates sparse communication patterns in the network and, therefore, does not require any-to-any full-bisection network to complete efficiently. As a result, our design eliminates the spine layer in traditional GPU clusters. We name this design a Rail-only network and demonstrate that it achieves the same training performance while reducing the network cost by 38% to 77% and network power consumption by 37% to 75% compared to a conventional GPU datacenter. Our architecture also supports Mixture-of-Expert (MoE) models with all-to-all communication through forwarding, with only 4.1% to 5.6% completion time overhead for all-to-all traffic. We study the failure robustness of Rail-only networks and provide insights into the performance impact of different network and training parameters. | 翻訳日:2024-07-31 01:06:50 公開日:2024-07-27 |
# ロボットにおけるモノクロ6次元物体の姿勢推定の課題
Challenges for Monocular 6D Object Pose Estimation in Robotics ( http://arxiv.org/abs/2307.12172v2 ) ライセンス: Link先を確認 | Stefan Thalhammer, Dominik Bauer, Peter Hönig, Jean-Baptiste Weibel, José García-Rodríguez, Markus Vincze, | (参考訳) オブジェクトのポーズ推定は、例えば、オブジェクトの把握とシーンの理解を可能にする、中核的な認識タスクである。
広範に利用でき、安価で高解像度のRGBセンサーとCNNは、このモダリティに基づく高速な推論を可能にしており、ロボット工学の応用に特に適している。
オブジェクトのポーズ推定に関する以前の調査は、様々なモダリティ、シングルビュー、マルチビュー設定、および様々なアプリケーションを考慮したデータセットとメトリクスの最先端性を確立している。
しかし,これらの研究の範囲は,モノラルなアプローチに特有のオープンな課題の同定や,ロボット工学への応用に期待できる将来的な課題の導出を妨げていると論じる。
ロボット工学とコンピュータビジョンの両方の最近の出版物に対する統一的な見解を提供することにより、オクルージョンハンドリング、新しいポーズ表現、カテゴリーレベルのポーズ推定の形式化と改善が、ロボット工学に非常に関係のある基本的な課題であることがわかった。
さらに、ロボットの性能をさらに向上させるためには、大きなオブジェクトセット、新しいオブジェクト、屈折材料、不確実性推定が中心であり、ほとんど未解決の未解決課題である。
これらの問題に対処するためには、オントロジ的推論、変形可能性処理、シーンレベルの推論、現実的なデータセット、アルゴリズムの生態的フットプリントを改善する必要がある。
Object pose estimation is a core perception task that enables, for example, object grasping and scene understanding. The widely available, inexpensive and high-resolution RGB sensors and CNNs that allow for fast inference based on this modality make monocular approaches especially well suited for robotics applications. We observe that previous surveys on object pose estimation establish the state of the art for varying modalities, single- and multi-view settings, and datasets and metrics that consider a multitude of applications. We argue, however, that those works' broad scope hinders the identification of open challenges that are specific to monocular approaches and the derivation of promising future challenges for their application in robotics. By providing a unified view on recent publications from both robotics and computer vision, we find that occlusion handling, novel pose representations, and formalizing and improving category-level pose estimation are still fundamental challenges that are highly relevant for robotics. Moreover, to further improve robotic performance, large object sets, novel objects, refractive materials, and uncertainty estimates are central, largely unsolved open challenges. In order to address them, ontological reasoning, deformability handling, scene-level reasoning, realistic datasets, and the ecological footprint of algorithms need to be improved. | 翻訳日:2024-07-31 01:06:50 公開日:2024-07-27 |
# マルチ参照に基づく抽出要約のゲインワイズ評価における冗長性の検討
Redundancy Aware Multi-Reference Based Gainwise Evaluation of Extractive Summarization ( http://arxiv.org/abs/2308.02270v2 ) ライセンス: Link先を確認 | Mousumi Akter, Santu Karmaker, | (参考訳) ROUGEメートル法は, 抽出要約作業の評価に一般的に用いられているが, 意味的認識の欠如と抽出要約器のランキング品質に対する無知が批判されている。
従来の研究では、Sem-nCGと呼ばれるゲインベースの自動メトリクスを導入しており、ランクとセマンティックを意識しているため、これらの問題に対処している。
しかし、モデル要約に存在する冗長性を考慮せず、現在は複数の参照サマリーによる評価をサポートしていない。
重要性と多様性のバランスをとるモデル概要を持つことは不可欠ですが、両方の側面を捉えるメトリクスを見つけることは難しいのです。
本稿では, 冗長性を考慮したSem-nCGメトリクスを提案し, 改良されたSem-nCGメトリックを用いて, 過去の研究で欠落していた複数の参照に対するモデル要約を評価する方法を示す。
実験の結果,改訂されたSem-nCGは,従来のROUGEとBERTScoreの2つの基準シナリオに対して,従来のSem-nCGと比べ,人間の判断との相関が強いことがわかった。
The ROUGE metric is commonly used to evaluate extractive summarization task, but it has been criticized for its lack of semantic awareness and its ignorance about the ranking quality of the extractive summarizer. Previous research has introduced a gain-based automated metric called Sem-nCG that addresses these issues, as it is both rank and semantic aware. However, it does not consider the amount of redundancy present in a model summary and currently does not support evaluation with multiple reference summaries. It is essential to have a model summary that balances importance and diversity, but finding a metric that captures both of these aspects is challenging. In this paper, we propose a redundancy-aware Sem-nCG metric and demonstrate how the revised Sem-nCG metric can be used to evaluate model summaries against multiple references as well which was missing in previous research. Experimental results demonstrate that the revised Sem-nCG metric has a stronger correlation with human judgments compared to the previous Sem-nCG metric and traditional ROUGE and BERTScore metric for both single and multiple reference scenarios. | 翻訳日:2024-07-31 00:56:53 公開日:2024-07-27 |
# 非IID非等方的データからのサンプル効率の線形表現学習
Sample-Efficient Linear Representation Learning from Non-IID Non-Isotropic Data ( http://arxiv.org/abs/2308.04428v3 ) ライセンス: Link先を確認 | Thomas T. C. K. Zhang, Leonardo F. Toso, James Anderson, Nikolai Matni, | (参考訳) 最近の機械学習の進歩の背景にある強力な概念は、異質なソースやタスクからデータ間で共通の特徴を抽出することである。
直感的には、すべてのデータを使って共通の表現関数を学習することは、与えられたタスクの微調整に少数のパラメータを残すことにより、計算労力と統計的一般化の両方の恩恵を受ける。
これらの利点を理論的に基礎づけるために、ノイジーベクトル測度$y = Mx + w$ から線型作用素 $M$ を回復する一般的な設定を提案し、この共変量 $x$ は非等方的かつ非等方的である。
既存の異方性に依存しない表現学習が表現更新のバイアスに近づき、ノイズ項のスケーリングがソースタスク数に有利な依存をなくすことを実証する。
これにより、表現学習のサンプルの複雑さは、シングルタスクのデータサイズによってボトルネックになる可能性がある。
我々は、Collins et al , (2021) と Nayer と Vaswani (2022) で独立に提案された交代最小化退化スキームの適応として、$\textt{De-bias & Feature-Whiten}$$(\texttt{DFW}$)を導入し、$\textit{total}$ソースデータサイズでスケールダウンしたノイズレベルの最適な表現に線形収束を確立する。
これにより、オラクル経験的リスク最小化器と同じ順序で一般化境界が導かれる。
各種数値シミュレーションにおける$\texttt{DFW}$の重要性を検証する。
特に,バニラの交互最小化降下は,iidにおいても破滅的に失敗するが,軽度に非等方性データは得られない。
我々の分析は、事前の作業を統一し、一般化し、制御や動的システムといった幅広いアプリケーションに対して柔軟なフレームワークを提供する。
A powerful concept behind much of the recent progress in machine learning is the extraction of common features across data from heterogeneous sources or tasks. Intuitively, using all of one's data to learn a common representation function benefits both computational effort and statistical generalization by leaving a smaller number of parameters to fine-tune on a given task. Toward theoretically grounding these merits, we propose a general setting of recovering linear operators $M$ from noisy vector measurements $y = Mx + w$, where the covariates $x$ may be both non-i.i.d. and non-isotropic. We demonstrate that existing isotropy-agnostic representation learning approaches incur biases on the representation update, which causes the scaling of the noise terms to lose favorable dependence on the number of source tasks. This in turn can cause the sample complexity of representation learning to be bottlenecked by the single-task data size. We introduce an adaptation, $\texttt{De-bias & Feature-Whiten}$ ($\texttt{DFW}$), of the popular alternating minimization-descent scheme proposed independently in Collins et al., (2021) and Nayer and Vaswani (2022), and establish linear convergence to the optimal representation with noise level scaling down with the $\textit{total}$ source data size. This leads to generalization bounds on the same order as an oracle empirical risk minimizer. We verify the vital importance of $\texttt{DFW}$ on various numerical simulations. In particular, we show that vanilla alternating-minimization descent fails catastrophically even for iid, but mildly non-isotropic data. Our analysis unifies and generalizes prior work, and provides a flexible framework for a wider range of applications, such as in controls and dynamical systems. | 翻訳日:2024-07-31 00:56:53 公開日:2024-07-27 |
# 実験物理のための説明可能な多視点深層ネットワーク手法
Explainable Multi-View Deep Networks Methodology for Experimental Physics ( http://arxiv.org/abs/2308.08206v3 ) ライセンス: Link先を確認 | Nadav Schneider, Muriel Tzdaka, Galit Sturm, Guy Lazovski, Galit Bar, Gilad Oren, Raz Gvishi, Gal Oren, | (参考訳) 物理実験は、X線スキャンや顕微鏡画像などの複数の画像表現を含むことが多い。
深層学習モデルはこれらの実験において教師あり分析に広く利用されている。
異なる画像表現を組み合わせることは、適切に分析し、決定を下すのにしばしば必要である。
その結果、複数のビューデータが出現し、各サンプルは異なる角度、ソース、またはモダリティからのビューによって記述される。
これらの問題は多視点学習の概念によって解決される。
深層学習モデルの意思決定プロセスを理解することは信頼性と信頼性のある分析に不可欠である。
したがって、近年多くの説明可能性法が考案されている。
にもかかわらず、マルチビューモデルには適切な説明性がないため、アーキテクチャのために説明が難しい。
本稿では、視覚領域の異なる多視点アーキテクチャを提案し、それぞれ別の問題に適合し、これらのモデルを説明する方法論を提案する。
提案手法の有効性を実証するため,高エネルギー密度物理(HEDP)実験の領域に着目し,複数の画像表現を用いて発泡試料の品質評価を行った。
提案するマルチビューアーキテクチャを用いて, 発泡試料の品質を分類するために本手法を適用した。
実験の結果,精度が78%から84%,AUCが83%から93%に向上し,性能と説明可能性のトレードオフが示された。
具体的には,本手法が個々の一視点モデルの説明を可能にし,各視点の意思決定プロセスに関する洞察を提供する。
この理解は、全体的なマルチビューモデルの解釈可能性を高める。
この作業のソースは、https://github.com/Scientific-Computing-Lab-NRCN/Multi-View-Explainabilityにある。
Physical experiments often involve multiple imaging representations, such as X-ray scans and microscopic images. Deep learning models have been widely used for supervised analysis in these experiments. Combining different image representations is frequently required to analyze and make a decision properly. Consequently, multi-view data has emerged - datasets where each sample is described by views from different angles, sources, or modalities. These problems are addressed with the concept of multi-view learning. Understanding the decision-making process of deep learning models is essential for reliable and credible analysis. Hence, many explainability methods have been devised recently. Nonetheless, there is a lack of proper explainability in multi-view models, which are challenging to explain due to their architectures. In this paper, we suggest different multi-view architectures for the vision domain, each suited to another problem, and we also present a methodology for explaining these models. To demonstrate the effectiveness of our methodology, we focus on the domain of High Energy Density Physics (HEDP) experiments, where multiple imaging representations are used to assess the quality of foam samples. We apply our methodology to classify the foam samples quality using the suggested multi-view architectures. Through experimental results, we showcase the improvement of accurate architecture choice on both accuracy - 78% to 84% and AUC - 83% to 93% and present a trade-off between performance and explainability. Specifically, we demonstrate that our approach enables the explanation of individual one-view models, providing insights into the decision-making process of each view. This understanding enhances the interpretability of the overall multi-view model. The sources of this work are available at: https://github.com/Scientific-Computing-Lab-NRCN/Multi-View-Explainability. | 翻訳日:2024-07-31 00:56:53 公開日:2024-07-27 |
# ソフト多面体ネットワークを用いた受動的学習
Proprioceptive Learning with Soft Polyhedral Networks ( http://arxiv.org/abs/2308.08538v2 ) ライセンス: Link先を確認 | Xiaobo Liu, Xudong Han, Wei Hong, Fang Wan, Chaoyang Song, | (参考訳) プロプリオセプション(英: Proprioception)は、運動ニューロンによる手足の姿勢を検出する「第6の感覚」である。
筋肉骨格系と感覚受容体との自然な統合が必要であり、軽量で適応的でセンシティブなデザインを低コストで実現しようとする現代ロボットの間では難しい。
本稿では,身体的相互作用の視覚を組み込んだソフト多面体ネットワークについて述べる。
この設計により、全方向のインタラクションへの受動的適応が可能となり、プロテアーゼ学習のために内蔵された小型の高速モーショントラッキングシステムによって視覚的にキャプチャされる。
その結果,ソフトネットワークは動的相互作用において0.25/0.24/0.35N,0.025/0.034/0.006Nmの精度でリアルタイム6D力とトルクを推定できることがわかった。
また, 静止適応中に粘弾性を付加し, クリープ緩和修飾剤を添加し, 予測結果を改良した。
提案するソフトネットワークは、設計の単純さ、オムニ適応性、およびプロプリセプティブセンシングを高精度に組み合わせ、ロボット工学の汎用的なソリューションを低コストで実現し、敏感で競争的な把握やタッチベースの幾何再構成といったタスクに100万回以上の利用サイクルを持つ。
本研究は、適応的把握、ソフト操作、人間とロボットの相互作用におけるソフトロボットの視覚的受容に関する新たな知見を提供する。
Proprioception is the "sixth sense" that detects limb postures with motor neurons. It requires a natural integration between the musculoskeletal systems and sensory receptors, which is challenging among modern robots that aim for lightweight, adaptive, and sensitive designs at a low cost. Here, we present the Soft Polyhedral Network with an embedded vision for physical interactions, capable of adaptive kinesthesia and viscoelastic proprioception by learning kinetic features. This design enables passive adaptations to omni-directional interactions, visually captured by a miniature high-speed motion tracking system embedded inside for proprioceptive learning. The results show that the soft network can infer real-time 6D forces and torques with accuracies of 0.25/0.24/0.35 N and 0.025/0.034/0.006 Nm in dynamic interactions. We also incorporate viscoelasticity in proprioception during static adaptation by adding a creep and relaxation modifier to refine the predicted results. The proposed soft network combines simplicity in design, omni-adaptation, and proprioceptive sensing with high accuracy, making it a versatile solution for robotics at a low cost with more than 1 million use cycles for tasks such as sensitive and competitive grasping, and touch-based geometry reconstruction. This study offers new insights into vision-based proprioception for soft robots in adaptive grasping, soft manipulation, and human-robot interaction. | 翻訳日:2024-07-31 00:56:53 公開日:2024-07-27 |
# 選挙結果を用いた選挙分極と競争力のマッピング
Mapping Election Polarization and Competitiveness using Election Results ( http://arxiv.org/abs/2308.10862v2 ) ライセンス: Link先を確認 | Carlos Navarrete, Mariana Macedo, Viktor Stojkoski, Marcela Parada-Contzen, Christopher A Martínez, | (参考訳) 近年の選挙結果の説明として、選挙が偏極化されているという単純な仮説は、選挙人のイデオロギー的なデータではなく、投票パターンの認識に焦点を当てている。
この文献は、経済的に有利な国に限られ、国家規模に代表される選挙研究のイデオロギー的なデータを用いて偏極を測定することに焦点を当てているが、実際、選挙当日は投票パターンが市民部門の効果的なプロキシのマッピングに繋がる可能性があると論じている。
本稿では,選挙当日の投票パターンを理解する手段として,選挙分極(EP)と選挙競争(EC)の2つの相補的な概念を考察する。
我々は、選挙データのみに頼って、ユーロ圏、北米、ラテンアメリカ、ニュージーランドの13カ国で合成および実世界の選挙データを用いて、それを検証する無知のアプローチを提案する。
全体として、これらの国における分極選挙と競争選挙の期待をラベル付けし、区別できることが分かり、EPが米国の政治分極指標と正の相関関係にあることを報告し、地域レベルでの分極研究の機会を開放し、選挙研究が可能な低所得国については、調査は限られている。
The simplified hypothesis that an election is polarized as an explanation of recent electoral outcomes worldwide is centered on perceptions of voting patterns rather than ideological data from the electorate. While the literature focuses on measuring polarization using ideological-like data from electoral studies-which are limited to economically advantageous countries and are representative mostly to national scales-we argue that, in fact, voting patterns can lead to mapping effective proxies of citizen divisions on election day. This paper perspectives two complementary concepts, Election Polarization (EP) and Election Competitiveness (EC), as a means to understand voting patterns on Election Day. We present an agnostic approach that relies solely on election data and validate it using synthetic and real-world election data across 13 countries in the Eurozone, North America, Latin America, and New Zealand. Overall, we find that we can label and distinguish expectations of polarized and competitive elections in these countries, and we report that EP positively correlates with a metric of political polarization in the U.S., unlocking opportunities for studies of polarization at the regional level and for lower/middle-income countries where electoral studies are available, but surveys are limited. | 翻訳日:2024-07-31 00:56:53 公開日:2024-07-27 |
# RGI-Net:隠れた一階反射による室内インパルス応答からの3次元室内形状推定
RGI-Net: 3D Room Geometry Inference from Room Impulse Responses With Hidden First-Order Reflections ( http://arxiv.org/abs/2309.01513v4 ) ライセンス: Link先を確認 | Inmo Yeon, Jung-Woo Choi, | (参考訳) 室内幾何はリアルな3Dオーディオレンダリングを実装する上で重要な事前情報である。
このため、室内インパルス応答(RIR)における時間差情報(TOA)や時間差情報(TDOA)を利用して、様々な室形状推論(RGI)手法が開発されている。
しかし、従来のRGI手法は、凸室形状、事前に知られている壁の数、一階反射の可視性など、いくつかの仮定を呈している。
本稿では,上記の仮定を使わずに部屋のジオメトリを推定できるRGI-Netを提案する。
RGI-Netは、RIRにおける低次反射と高次反射の複雑な関係を学習し、利用することにより、RIRにおいて形状が非凸あるいは一階反射が欠落している場合でも、部屋の形状を推定することができる。
RGI-Netは、壁の存在確率を別々に評価する評価ネットワークを含んでおり、壁の数について事前の知識なしに幾何学的推論が可能である。
Room geometry is important prior information for implementing realistic 3D audio rendering. For this reason, various room geometry inference (RGI) methods have been developed by utilizing the time-of-arrival (TOA) or time-difference-of-arrival (TDOA) information in room impulse responses (RIRs). However, the conventional RGI technique poses several assumptions, such as convex room shapes, the number of walls known in priori, and the visibility of first-order reflections. In this work, we introduce the RGI-Net which can estimate room geometries without the aforementioned assumptions. RGI-Net learns and exploits complex relationships between low-order and high-order reflections in RIRs and, thus, can estimate room shapes even when the shape is non-convex or first-order reflections are missing in the RIRs. RGI-Net includes the evaluation network that separately evaluates the presence probability of walls, so the geometry inference is possible without prior knowledge of the number of walls. | 翻訳日:2024-07-31 00:56:53 公開日:2024-07-27 |
# ControlMat: 物質捕獲に対する制御された生成的アプローチ
ControlMat: A Controlled Generative Approach to Material Capture ( http://arxiv.org/abs/2309.01700v3 ) ライセンス: Link先を確認 | Giuseppe Vecchio, Rosalie Martin, Arthur Roullier, Adrien Kaiser, Romain Rouffet, Valentin Deschaintre, Tamy Boubekeur, | (参考訳) 写真からの材料再構成は、3Dコンテンツ生成の民主化の鍵となる要素である。
生成深層ネットワークの最近の進歩を生かして、制御された合成問題として、この不適切な問題を定式化することを提案する。
制御不能な照明を入力とする1枚の写真に拡散モデルを適用し, 可塑性, タイル状, 高解像度の物理ベースデジタル材料を生成する。
マルチチャネル出力に対する拡散モデルの挙動を慎重に解析し,サンプリングプロセスを用いてマルチスケール情報を融合し,転動拡散を導入し,高分解能出力に対するタイルビリティとパッチ拡散の両立を可能にする。
我々の生成的アプローチにより、未知の照明条件を緩和し、入力画像に対応する様々な材料を探索することができる。
提案手法は,近年の推論法や潜在空間最適化法よりも優れており,拡散過程の設計選択を慎重に検証する。
補足的な資料と追加の詳細は、https://gvecchio.com/controlmat/.com/で確認できる。
Material reconstruction from a photograph is a key component of 3D content creation democratization. We propose to formulate this ill-posed problem as a controlled synthesis one, leveraging the recent progress in generative deep networks. We present ControlMat, a method which, given a single photograph with uncontrolled illumination as input, conditions a diffusion model to generate plausible, tileable, high-resolution physically-based digital materials. We carefully analyze the behavior of diffusion models for multi-channel outputs, adapt the sampling process to fuse multi-scale information and introduce rolled diffusion to enable both tileability and patched diffusion for high-resolution outputs. Our generative approach further permits exploration of a variety of materials which could correspond to the input image, mitigating the unknown lighting conditions. We show that our approach outperforms recent inference and latent-space-optimization methods, and carefully validate our diffusion process design choices. Supplemental materials and additional details are available at: https://gvecchio.com/controlmat/. | 翻訳日:2024-07-31 00:56:53 公開日:2024-07-27 |
# 道路交通事故予測のための不確実性を考慮した確率的グラフニューラルネットワーク
Uncertainty-Aware Probabilistic Graph Neural Networks for Road-Level Traffic Accident Prediction ( http://arxiv.org/abs/2309.05072v4 ) ライセンス: Link先を確認 | Xiaowei Gao, Xinke Jiang, Dingyi Zhuang, Huanfa Chen, Shenhao Wang, Stephen Law, James Haworth, | (参考訳) 交通事故は、都市部における人間の安全と社会経済の発展に重大な課題をもたらす。
交通事故予測モデルの構築は、公共の安全に関する懸念の高まりに対処し、都市交通システムの安全性を高める上で重要である。
従来の手法では、高リスク事故の散発性や非事故特性の優位性により、時空間的に微妙な制限に直面している。
さらに,ほとんどのモデルでは,事故発生予測が期待できるが,事故の本質から生じる不確実性を見落として,事故リスク値の階層的ランキングを適切にマッピングし,より正確な洞察を得ることができない。
これらの問題に対処するために、道路交通事故予測における最初の不確実性を考慮した確率的グラフ深層学習モデルであるSpatiotemporal Zero-Inflated Tweedie Graph Neural Network STZITDGNNを導入する。
このモデルは、統計的ツイーディー族モデルの解釈可能性とグラフニューラルネットワークの表現力を統合する。
そのデコーダは、複合Tweedieモデル、ポアソン分布を用いて事故発生頻度をモデル化し、ガンマ分布を用いて損傷の重症度を評価する。
ロンドンにおける実世界の交通データを用いた実証テストでは、STZITDGNNが、事故リスクの予測、不確実性最小化、事故発生の特定、事故発生の正確性など、複数のベンチマークとメトリクスで、他のベースラインモデルを上回ることが示されている。
本研究は,STZTIDGNNが目標道路の監視を効果的に行えることを示し,都市道路安全戦略の改善を図った。
Traffic accidents present substantial challenges to human safety and socio-economic development in urban areas. Developing a reliable and responsible traffic accident prediction model is crucial to addressing growing public safety concerns and enhancing the safety of urban mobility systems. Traditional methods face limitations at fine spatiotemporal scales due to the sporadic nature of highrisk accidents and the predominance of non-accident characteristics. Furthermore, while most current models show promising occurrence prediction, they overlook the uncertainties arising from the inherent nature of accidents, and then fail to adequately map the hierarchical ranking of accident risk values for more precise insights. To address these issues, we introduce the Spatiotemporal Zero-Inflated Tweedie Graph Neural Network STZITDGNN -- the first uncertainty-aware probabilistic graph deep learning model in roadlevel traffic accident prediction for multisteps. This model integrates the interpretability of the statistical Tweedie family model and the expressive power of graph neural networks. Its decoder innovatively employs a compound Tweedie model,a Poisson distribution to model the frequency of accident occurrences and a Gamma distribution to assess injury severity, supplemented by a zeroinflated component to effectively identify exessive nonincident instances. Empirical tests using realworld traffic data from London, UK, demonstrate that the STZITDGNN surpasses other baseline models across multiple benchmarks and metrics, including accident risk value prediction, uncertainty minimisation, non-accident road identification and accident occurrence accuracy. Our study demonstrates that STZTIDGNN can effectively inform targeted road monitoring, thereby improving urban road safety strategies. | 翻訳日:2024-07-31 00:46:55 公開日:2024-07-27 |
# 観測可能な統計力学
Observable Statistical Mechanics ( http://arxiv.org/abs/2309.15173v2 ) ライセンス: Link先を確認 | Lodovico Scarpa, Abdulla Alhajri, Vlatko Vedral, Fabio Anza, | (参考訳) 孤立多体量子系における平衡と熱化を理解することは、量子物理学における中心的な課題である。
従来のアプローチは、対角線アンサンブルによって最もよく説明される平衡状態の量子系の完全な状態の研究に焦点が当てられている。
ここでは、完全な量子状態から測定結果の統計に注意を移す新しいパラダイムであるObservable Statistical Mechanicsを紹介する。
この手法は最大可観測エントロピー原理に基づいており、平衡測定統計は保存された平均エネルギーの下で観測可能なエントロピーを最大化する傾向があることを示唆している。
アクセス可能な測定に集中することにより、エネルギー固有状態のような詳細な微視的な情報を必要としない平衡確率分布を正確に予測することができる。
7つのスピン-1/2ハミルトニアンに関する大規模な数値実験は、このフレームワークの広範な適用性と堅牢性を示している。
Understanding equilibration and thermalization in isolated many-body quantum systems is a central challenge in quantum physics. The traditional approach focuses on the study of the full state of the quantum system which, at equilibrium, is best described by the Diagonal Ensemble. Here, we present Observable Statistical Mechanics, a novel paradigm that shifts attention from the full quantum state to the statistics of measurement outcomes. This approach is grounded in the Maximum Observable Entropy Principle, positing that equilibrium measurement statistics tend to maximize observable entropy under conserved average energy. By focusing on accessible measurements, the theory accurately predicts equilibrium probability distributions without needing detailed microscopic information like the energy eigenstates. Extensive numerical experiments on 7 spin-1/2 Hamiltonians demonstrate the broad applicability and robustness of this framework. | 翻訳日:2024-07-31 00:46:55 公開日:2024-07-27 |
# 意思決定型学習におけるロバストな損失
Robust Losses for Decision-Focused Learning ( http://arxiv.org/abs/2310.04328v2 ) ライセンス: Link先を確認 | Noah Schutte, Krzysztof Postek, Neil Yorke-Smith, | (参考訳) 離散決定に使用される最適化モデルは、しばしば文脈に依存し、予測によって推定される不確実なパラメータを含む。
予測に基づく意思決定の質を考慮し、意思決定中心の学習(エンドツーエンドの予測テーマ最適化)は、後悔を最小限に抑えるために予測モデルを訓練することを目的とした。
この損失の勾配W.r.t.の問題は、線形目的を持つ最適化問題に対して、ほぼ至るところで予測モデルパラメータがゼロであるにもかかわらず、効果的な勾配に基づく学習アプローチは、実証的損失を代理として、期待される損失を最小限に抑えるために提案されている。
しかし、経験的最適決定は期待される最適決定と大きく異なるため、経験的後悔は非効果的な代理となる。
この欠損症の影響を明らかにするため, 動脈硬化およびてんかんの不確かさが, 経験的後悔の精度に及ぼす影響をサロゲートとして評価した。
次に、より堅牢に予測された後悔を近似する3つの新しい損失関数を提案する。
実験結果から,頑健な後悔の損失を用いた2つの最先端意思決定型学習アプローチの訓練は,訓練エポック数に匹敵する計算時間を保ちながら,一般にテストサンプル的後悔を改善することが示された。
Optimization models used to make discrete decisions often contain uncertain parameters that are context-dependent and estimated through prediction. To account for the quality of the decision made based on the prediction, decision-focused learning (end-to-end predict-then-optimize) aims at training the predictive model to minimize regret, i.e., the loss incurred by making a suboptimal decision. Despite the challenge of the gradient of this loss w.r.t. the predictive model parameters being zero almost everywhere for optimization problems with a linear objective, effective gradient-based learning approaches have been proposed to minimize the expected loss, using the empirical loss as a surrogate. However, empirical regret can be an ineffective surrogate because empirical optimal decisions can vary substantially from expected optimal decisions. To understand the impact of this deficiency, we evaluate the effect of aleatoric and epistemic uncertainty on the accuracy of empirical regret as a surrogate. Next, we propose three novel loss functions that approximate expected regret more robustly. Experimental results show that training two state-of-the-art decision-focused learning approaches using robust regret losses improves test-sample empirical regret in general while keeping computational time equivalent relative to the number of training epochs. | 翻訳日:2024-07-31 00:36:23 公開日:2024-07-27 |
# 量子照明と量子レーダ
Quantum Illumination and Quantum Radar: A Brief Overview ( http://arxiv.org/abs/2310.06049v3 ) ライセンス: Link先を確認 | Athena Karsa, Alasdair Fletcher, Gaetana Spedalieri, Stefano Pirandola, | (参考訳) 量子照明(QI)と量子レーダーは、量子力学の原理を活用して、リモートセンシングとターゲット検出の分野に革命をもたらした。
このプロトコルは、特に量子レーダの文脈において、その現実的なポテンシャルに対する批判と同様に、多くの願望の予想の対象となっている。
本稿では、QIに着目した量子目標検出の分野と、マイクロ波周波数で動作する量子レーダの基礎となる可能性について概観する。
我々は、その歴史的発展と基本原則を考慮し、この分野の文脈を提供する。
本研究の目的は、QIベースの量子レーダの実現に向けた理論的および実験的進展の状況について、バランスよく議論し、現在の展望と今後の方向性について結論を導き出すことである。
Quantum illumination (QI) and quantum radar have emerged as potentially groundbreaking technologies, leveraging the principles of quantum mechanics to revolutionise the field of remote sensing and target detection. The protocol, particularly in the context of quantum radar, has been subject to a great deal of aspirational conjecture as well as criticism with respect to its realistic potential. In this review, we present a broad overview of the field of quantum target detection focusing on QI and its potential as an underlying scheme for a quantum radar operating at microwave frequencies. We provide context for the field by considering its historical development and fundamental principles. Our aim is to provide a balanced discussion on the state of theoretical and experimental progress towards realising a working QI-based quantum radar, and draw conclusions about its current outlook and future directions. | 翻訳日:2024-07-31 00:36:23 公開日:2024-07-27 |
# 量子機械学習に関するサーベイ:最近の動向,課題,機会,道の先
A Survey on Quantum Machine Learning: Current Trends, Challenges, Opportunities, and the Road Ahead ( http://arxiv.org/abs/2310.10315v2 ) ライセンス: Link先を確認 | Kamila Zaman, Alberto Marchisio, Muhammad Abdullah Hanif, Muhammad Shafique, | (参考訳) 量子コンピューティング(QC)は、古典的な計算に比べて複雑な問題を解く効率を改善すると主張している。
QCが機械学習(ML)に統合されると、量子機械学習(QML)システムを生成する。
本稿では,QCの基本概念と,その古典コンピューティングに対する顕著な優位性について,より深く理解することを目的とする。
続いて、QMLの重要な側面を詳細に、そして包括的な方法で掘り下げます。
本稿では,様々なQMLアルゴリズムについて検討し,その適用性について検討する。
量子データセットを調べ、そのユニークな特徴と利点を強調します。
調査ではまた、ハードウェア技術の現在の状況についても取り上げ、最新の進歩とQMLへの影響に関する洞察を提供している。
さらに、QML開発で利用可能なソフトウェアツールやシミュレータについてもレビューし、その機能やユーザビリティについて論じる。
さらに,QMLの実践的応用について検討し,従来のML手法よりも現実の問題を効率的に解くためにどのように活用できるかを解説した。
本稿は,QML分野における最先端技術を理解しようとする読者にとって貴重な資料であり,この急速に発展する領域において,さらなる探査・開発を行うための確固たる基盤を提供する。
Quantum Computing (QC) claims to improve the efficiency of solving complex problems, compared to classical computing. When QC is integrated with Machine Learning (ML), it creates a Quantum Machine Learning (QML) system. This paper aims to provide a thorough understanding of the foundational concepts of QC and its notable advantages over classical computing. Following this, we delve into the key aspects of QML in a detailed and comprehensive manner. In this survey, we investigate a variety of QML algorithms, discussing their applicability across different domains. We examine quantum datasets, highlighting their unique characteristics and advantages. The survey also covers the current state of hardware technologies, providing insights into the latest advancements and their implications for QML. Additionally, we review the software tools and simulators available for QML development, discussing their features and usability. Furthermore, we explore practical applications of QML, illustrating how it can be leveraged to solve real-world problems more efficiently than classical ML methods. This paper serves as a valuable resource for readers seeking to understand the current state-of-the-art techniques in the QML field, offering a solid foundation to embark on further exploration and development in this rapidly evolving area. | 翻訳日:2024-07-31 00:36:23 公開日:2024-07-27 |
# 多状態量子計測のための練習型時間後処理装置
Practical Trainable Temporal Postprocessor for Multistate Quantum Measurement ( http://arxiv.org/abs/2310.18519v3 ) ライセンス: Link先を確認 | Saeed A. Khan, Ryan Kaufman, Boris Mesits, Michael Hatridge, Hakan E. Türeci, | (参考訳) 我々は、任意のノイズ処理を施した量子計測データの最適な処理を任意の数の量子状態を読み取るために、単純だが汎用的な機械学習アルゴリズムを利用した訓練可能な時間後処理(TPP)を開発し、実証する。
提案手法は従来,特定の雑音条件にのみ適用可能であるにもかかわらず,マッチングフィルタによる時間的処理に依存してきた。
以上の結果から,TPPは高出力化などの複雑な読み出し条件下での標準的なフィルタリング手法よりも確実に性能を向上できることが示された。
量子計測ノイズ源のシミュレーションを用いて、この利点は、位相保存量子増幅器によって付加される相関ノイズなど、データ中の一般的な量子ノイズ相関を考慮に入れた最適線形フィルタの学習能力に依存することを示す。
さらに、最適TPP重みの正確な解析形式を導出する: このことは、TPPを、時間的量子計測データを処理するためのトレーニングニューラルネットワークと比較して本質的に無視できる訓練複雑性を保ちながら、最も一般的な読み出し雑音条件下で任意の数の状態に対して有効である整合フィルタリングの線形スケーリング一般化として位置づける。
TPPは、測定データに対して自律的かつ確実に訓練することができ、線形演算のみを必要とするため、一般的な量子システムからの測定データのリアルタイム処理にcQEDでのFPGA実装に最適である。
We develop and demonstrate a trainable temporal post-processor (TPP) harnessing a simple but versatile machine learning algorithm to provide optimal processing of quantum measurement data subject to arbitrary noise processes, for the readout of an arbitrary number of quantum states. We demonstrate the TPP on the essential task of qubit state readout, which has historically relied on temporal processing via matched filters in spite of their applicability only for specific noise conditions. Our results show that the TPP can reliably outperform standard filtering approaches under complex readout conditions, such as high power readout. Using simulations of quantum measurement noise sources, we show that this advantage relies on the TPP's ability to learn optimal linear filters that account for general quantum noise correlations in data, such as those due to quantum jumps, or correlated noise added by a phase-preserving quantum amplifier. Furthermore, we derive an exact analytic form for the optimal TPP weights: this positions the TPP as a linearly-scaling generalization of matched filtering, valid for an arbitrary number of states under the most general readout noise conditions, all while preserving a training complexity that is essentially negligible in comparison to that of training neural networks for processing temporal quantum measurement data. The TPP can be autonomously and reliably trained on measurement data and requires only linear operations, making it ideal for FPGA implementations in cQED for real-time processing of measurement data from general quantum systems. | 翻訳日:2024-07-31 00:36:23 公開日:2024-07-27 |
# M4LE:大規模言語モデルのためのマルチタスクマルチタスクマルチドメイン長期評価ベンチマーク
M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models ( http://arxiv.org/abs/2310.19240v2 ) ライセンス: Link先を確認 | Wai-Chung Kwan, Xingshan Zeng, Yufei Wang, Yusen Sun, Liangyou Li, Lifeng Shang, Qun Liu, Kam-Fai Wong, | (参考訳) 長いシーケンスを管理することは、大きな言語モデル(LLM)にとって重要かつ必要な機能となっている。
しかし、LLMの長期的能力をどのように包括的かつ体系的に評価するかについては、未解決の問題である。
その理由の1つは、従来の広く使われているベンチマークが主に短いシーケンスで構成されていることである。
本稿では,M4LE(Multi-ability, Multi-range, Multi-task, Multi-domain benchmark for Long-context Evaluation)を提案する。
M4LEは、36のNLPデータセット、11のタスクタイプ、12のドメインからなる多様なNLPタスクプールに基づいている。
自然に長いシーケンスを持つタスクの不足を軽減し、複数の可能性評価を組み込むため、LLMが1つまたは複数の関連するスパンを、明示的または意味的なヒントに基づいて長いコンテキストで識別しなければならないような、短いシーケンスタスクを統一されたロングシーケンスシナリオに変換するための自動アプローチ(ただし、人間のアノテーションは無視できない)を提案する。
具体的には、(1)明示的な単一スパン、(2)意味的な単一スパン、(3)明示的な多重スパン、(4)意味的な多重スパン、(5)グローバルな文脈理解の5つの異なるタイプの能力を含む。
M4LEのサンプルは1kから8kの入力長に均等に分散される。
提案手法は,11個のLLM,特に長文入力に最適化されたLLMに対して,系統的評価を行った。
私たちの結果はこう明らかです。
1)現在のLLMは、特にタスクが複数回の注意を必要とする場合、長いコンテキストを理解するのに苦労している。
2) 有能なLLMでは, 意味検索作業が困難である。
3) 位置補間付き長文で微調整されたモデルでは, 微調整をしないニューラルタンジェントカーネル (NTK) によるスケーリング手法に匹敵する性能を示した。
この挑戦的な領域における将来の研究を促進するために、ベンチマークを公開しています。
Managing long sequences has become an important and necessary feature for large language models (LLMs). However, it is still an open question of how to comprehensively and systematically evaluate the long-sequence capability of LLMs. One of the reasons is that conventional and widely-used benchmarks mainly consist of short sequences. In this paper, we propose M4LE, a Multi-ability, Multi-range, Multi-task, Multi-domain benchmark for Long-context Evaluation. M4LE is based on a diverse NLP task pool comprising 36 NLP datasets, 11 task types and 12 domains. To alleviate the scarcity of tasks with naturally long sequences and incorporate multiple-ability assessment, we propose an automatic approach (but with negligible human annotations) to convert short-sequence tasks into a unified long-sequence scenario where LLMs have to identify single or multiple relevant spans in long contexts based on explicit or semantic hints. Specifically, the scenario includes five different types of abilities: (1) explicit single-span; (2) semantic single-span; (3) explicit multiple-span; (4) semantic multiple-span; and (5) global context understanding. The resulting samples in M4LE are evenly distributed from 1k to 8k input length. We conducted a systematic evaluation on 11 well-established LLMs, especially those optimized for long-sequence inputs. Our results reveal that: 1) Current LLMs struggle to understand long context, particularly when tasks require multiple-span attention. 2) Semantic retrieval task is more difficult for competent LLMs. 3) Models fine-tuned on longer text with position interpolation have comparable performance to those using Neural Tangent Kernel (NTK) aware scaling methods without fine-tuning. We make our benchmark publicly available to encourage future research in this challenging area. | 翻訳日:2024-07-31 00:36:23 公開日:2024-07-27 |
# LLMGA:マルチモーダル大言語モデルに基づく生成アシスタント
LLMGA: Multimodal Large Language Model based Generation Assistant ( http://arxiv.org/abs/2311.16500v4 ) ライセンス: Link先を確認 | Bin Xia, Shiyin Wang, Yingfan Tao, Yitong Wang, Jiaya Jia, | (参考訳) 本稿では,LLMGA(Large Language Model-based Generation Assistant)を紹介し,画像生成と編集を支援するために,LLM(Large Language Models)に固有の推論,理解,応答の膨大な知識と熟練度を活用する。
MLLM(Multimodal Large Language Models)が安定拡散(SD)を制御するための固定サイズ埋め込みを生成する既存のアプローチから切り離され、LSMGAはSDを正確に制御するための詳細な言語生成プロンプトを提供する。
これにより、LLMコンテキスト理解が強化されるだけでなく、生成プロンプトのノイズを低減し、より複雑で正確な内容の画像を出力し、ネットワークの解釈可能性を高めることができる。
そこで本研究では, 迅速な精細化, 類似画像生成, 塗り絵の塗り絵, 命令ベースの編集を含む包括的データセットをキュレートする。
さらに,2段階の学習手法を提案する。
第1段階では、画像生成と編集の特性を把握できるようにMLLMを訓練し、詳細なプロンプトを生成する。
第2段階では、SDを最適化してMLLMの生成プロンプトに合わせる。
さらに, 塗料の塗布・塗布時に発生する領域と保存領域のテクスチャ, 明るさ, コントラストの相違を緩和する参照型修復ネットワークを提案する。
広範囲にわたる結果から,LLMGAには将来性のある生成と編集機能があり,より柔軟で拡張性の高いアプリケーションを対話的に実現可能であることが示唆された。
In this paper, we introduce a Multimodal Large Language Model-based Generation Assistant (LLMGA), leveraging the vast reservoir of knowledge and proficiency in reasoning, comprehension, and response inherent in Large Language Models (LLMs) to assist users in image generation and editing. Diverging from existing approaches where Multimodal Large Language Models (MLLMs) generate fixed-size embeddings to control Stable Diffusion (SD), our LLMGA provides a detailed language generation prompt for precise control over SD. This not only augments LLM context understanding but also reduces noise in generation prompts, yields images with more intricate and precise content, and elevates the interpretability of the network. To this end, we curate a comprehensive dataset comprising prompt refinement, similar image generation, inpainting \& outpainting, and instruction-based editing. Moreover, we propose a two-stage training scheme. In the first stage, we train the MLLM to grasp the properties of image generation and editing, enabling it to generate detailed prompts. In the second stage, we optimize SD to align with the MLLM's generation prompts. Additionally, we propose a reference-based restoration network to alleviate texture, brightness, and contrast disparities between generated and preserved regions during inpainting and outpainting. Extensive results show that LLMGA has promising generation and editing capabilities and can enable more flexible and expansive applications in an interactive manner. | 翻訳日:2024-07-31 00:26:37 公開日:2024-07-27 |
# モデルミス種別を用いた適応線形二次制御の漸近回帰解析
Nonasymptotic Regret Analysis of Adaptive Linear Quadratic Control with Model Misspecification ( http://arxiv.org/abs/2401.00073v3 ) ライセンス: Link先を確認 | Bruce D. Lee, Anders Rantzer, Nikolai Matni, | (参考訳) 多様なデータセット上で大規模なモデルを事前トレーニングし、特定のアプリケーションのために微調整するという戦略は、コンピュータビジョン、自然言語処理、ロボット制御において印象的な結果をもたらした。
この戦略は適応制御において大きな可能性を秘めており、限られたデータで変化する条件に迅速に適応する必要がある。
適応制御のための事前学習の利点を具体的に理解するために,学習者が基礎行列の集合について事前知識を持つ設定において,適応線形二次制御問題について検討する。
この基礎は、基礎となるデータ生成プロセスのダイナミックスを完全に表現できないという意味で、誤解されている。
本稿では,この先行知識を用いたアルゴリズムを提案し,システムとのT$相互作用の後に期待される後悔の上限を証明した。
T$ が小さければ、上位境界は $\texttt{poly}(\log T)$ または $\sqrt{T}$ でスケールする項で支配される。
T$が大きければ、その後悔は$\delta T$で成長する項に支配され、$\delta$は誤特定のレベルを定量化する。
この線形項は、不特定基底を用いて基礎となる力学を完璧に推定できないために生じ、したがって基底行列がオンラインにも適用されない限り避けられない。
しかし、これは、基底行列の重みを推定する誤差によって生じる部分線型項が無視されるため、大きな$T$でしか支配しない。
分析を検証するためのシミュレーションを提供する。
また,本シミュレーションでは,関連するシステム群からのオフラインデータを事前学習段階の一部として使用することにより,不特定な動的特性を推定し,適応制御器が利用することを示す。
The strategy of pre-training a large model on a diverse dataset, then fine-tuning for a particular application has yielded impressive results in computer vision, natural language processing, and robotic control. This strategy has vast potential in adaptive control, where it is necessary to rapidly adapt to changing conditions with limited data. Toward concretely understanding the benefit of pre-training for adaptive control, we study the adaptive linear quadratic control problem in the setting where the learner has prior knowledge of a collection of basis matrices for the dynamics. This basis is misspecified in the sense that it cannot perfectly represent the dynamics of the underlying data generating process. We propose an algorithm that uses this prior knowledge, and prove upper bounds on the expected regret after $T$ interactions with the system. In the regime where $T$ is small, the upper bounds are dominated by a term that scales with either $\texttt{poly}(\log T)$ or $\sqrt{T}$, depending on the prior knowledge available to the learner. When $T$ is large, the regret is dominated by a term that grows with $\delta T$, where $\delta$ quantifies the level of misspecification. This linear term arises due to the inability to perfectly estimate the underlying dynamics using the misspecified basis, and is therefore unavoidable unless the basis matrices are also adapted online. However, it only dominates for large $T$, after the sublinear terms arising due to the error in estimating the weights for the basis matrices become negligible. We provide simulations that validate our analysis. Our simulations also show that offline data from a collection of related systems can be used as part of a pre-training stage to estimate a misspecified dynamics basis, which is in turn used by our adaptive controller. | 翻訳日:2024-07-31 00:26:37 公開日:2024-07-27 |
# 閉開系におけるロバスト量子制御:理論と実践
Robust Quantum Control in Closed and Open Systems: Theory and Practice ( http://arxiv.org/abs/2401.00294v2 ) ライセンス: Link先を確認 | C. A. Weidner, E. A. Reed, J. Monroe, B. Sheller, S. O'Neil, E. Maas, E. A. Jonckheere, F. C. Langbein, S. G. Schirmer, | (参考訳) 量子系のロバスト制御は、第2次量子革命の中で研究の分野としてますます重要になっているが、量子物理学と、基本性能境界で決定された現代の分析形式におけるロバスト制御の間には、いまだにギャップがある。
線形確率微分方程式としてモデル化できる量子光学系のような特定の例外により、量子系は線形で時間不変で測定に基づく頑健な制御技術には対応できない。
このサーベイは、制御理論家のために書かれており、量子制御の現状をレビューし、量子システムに近代的な堅牢な制御を適用しようとする上で直面する課題の概要を提供する。
量子系に古典的ロバスト制御理論を適用する際に生じる問題, 量子物理学者がそのような系とそのロバスト性を探る典型的な方法, およびこの分野で解決すべきオープン問題について議論する。
我々は、制御研究者がこの急成長する分野に貢献できるように、汎用的で実践的な応用と最近の研究に焦点をあてる。
Robust control of quantum systems is an increasingly relevant field of study amidst the second quantum revolution, but there remains a gap between taming quantum physics and robust control in its modern analytical form that culminated in fundamental performance bounds. With certain exceptions such as quantum optical systems that can be modeled as linear stochastic differential equations, quantum systems are not amenable to linear, time-invariant, measurement-based robust control techniques, and thus novel gap-bridging techniques must be developed. This survey is written for control theorists to provide a review of the current state of quantum control and outline the challenges faced in trying to apply modern robust control to quantum systems. We present issues that arise when applying classical robust control theory to quantum systems, typical methods used by quantum physicists to explore such systems and their robustness, as well as a discussion of open problems to be addressed in the field. We focus on general, practical applications and recent work to enable control researchers to contribute to advancing this burgeoning field. | 翻訳日:2024-07-31 00:16:53 公開日:2024-07-27 |
# Transformer Oversmoothing における記録線の設定
Setting the Record Straight on Transformer Oversmoothing ( http://arxiv.org/abs/2401.04301v3 ) ライセンス: Link先を確認 | Gbètondji J-S Dovonon, Michael M. Bronstein, Matt J. Kusner, | (参考訳) トランスフォーマーベースのモデルは、最近、さまざまなドメインセットで大成功を収めています。
同時に、最近の研究は、トランスフォーマーが本質的に限定的であることを経験的かつ理論的に示している。
具体的には、モデル深度が増加するにつれて、トランスフォーマーは過度に滑らかになる、すなわち入力がよりよくなる、と彼らは主張する。
この欠点を考えると、トランスフォーマーはこれらの成功をどうやって達成できるのか?
本研究では、これらの観測を経験的かつ理論的に検証し、多くの驚くべき発見を明らかにする。
特徴の類似性が増大するケースもあるが、既存の事前学習モデルであっても、以前の結果とは対照的に、これは必然的ではない。
理論的には、滑らかな挙動は値と射影重みの固有スペクトルに依存する。
我々はこれを実証的に検証し、層正規化重みの徴候がこの効果に影響を与えることを観察する。
解析により,トランスフォーマー更新方程式の重み付けをパラメータ化して平滑化挙動に影響を及ぼす簡単な方法が明らかになった。
我々の研究成果は、ML研究者や実践者が将来のTransformerベースのモデルを開発する方法に関する洞察を与えてくれることを願っています。
Transformer-based models have recently become wildly successful across a diverse set of domains. At the same time, recent work has shown empirically and theoretically that Transformers are inherently limited. Specifically, they argue that as model depth increases, Transformers oversmooth, i.e., inputs become more and more similar. A natural question is: How can Transformers achieve these successes given this shortcoming? In this work we test these observations empirically and theoretically and uncover a number of surprising findings. We find that there are cases where feature similarity increases but, contrary to prior results, this is not inevitable, even for existing pre-trained models. Theoretically, we show that smoothing behavior depends on the eigenspectrum of the value and projection weights. We verify this empirically and observe that the sign of layer normalization weights can influence this effect. Our analysis reveals a simple way to parameterize the weights of the Transformer update equations to influence smoothing behavior. We hope that our findings give ML researchers and practitioners additional insight into how to develop future Transformer-based models. | 翻訳日:2024-07-31 00:16:53 公開日:2024-07-27 |
# 二元系ボース-アインシュタイン凝縮体における弱および強結合ポーラロン
Weak and strong coupling polarons in binary Bose-Einstein condensates ( http://arxiv.org/abs/2401.11808v2 ) ライセンス: Link先を確認 | Ning Liu, | (参考訳) ボース・ポーラロン(Bose polaron)は、ボース=アインシュタイン凝縮体における不純物とボゴリューボフ励起の相互作用から生じる準粒子であり、固体物理学において電子とフォノンによって形成されるポーラロンに類似している。
本稿では, 弱い結合と強い結合を持つボースポーラロンに対する相分離の影響について検討する。
その結果, 相分離は弱い結合型ボースポーラロンの性質に顕著な変化をもたらすことが明らかとなった。
しかし、強い結合の場合、相分離はボース・ポーラロンの高度自己移動状態を破壊することはできない。
The Bose polaron is a quasiparticle that arises from the interaction between impurities and Bogoliubov excitation in Bose-Einstein condensates, analogous to the polaron formed by electrons and phonons in solid-state physics. In this paper, we investigate the effect of phase separation on weakly coupled and strongly coupled Bose polarons. Our findings reveal that phase separation induces a remarkable alteration in the properties of weakly coupled Bose polarons. However, in the case of strong coupling, phase separation cannot destroy the highly self-trapping state of Bose polarons. | 翻訳日:2024-07-31 00:07:09 公開日:2024-07-27 |
# 脆弱性検出のための大規模言語モデルの微調整
Finetuning Large Language Models for Vulnerability Detection ( http://arxiv.org/abs/2401.17010v5 ) ライセンス: Link先を確認 | Alexey Shestov, Rodion Levichev, Ravil Mussabayev, Evgeny Maslov, Anton Cheshkov, Pavel Zadorozhny, | (参考訳) 本稿では,ソースコードの脆弱性を検出するために,大規模言語モデル(LLM)の微調整を行った結果について述べる。
我々は、最新のLLM StarCoderの改良であるWizardCoderを活用し、さらなる微調整により脆弱性検出に適応する。
トレーニングを加速するために、WizardCoderのトレーニング手順を変更し、最適なトレーニング体制を調査する。
正よりも多くの負の例を持つ不均衡データセットに対しては、分類性能を改善するための異なる手法についても検討する。
The finetuned WizardCoder model achieve in ROC AUC and F1 measures on balanced and unbalanced vulnerability datasets over CodeBERT-like model。
主なコントリビューションは、最先端のコードLLMであるWizardCoderの微調整、パフォーマンスを損なわないトレーニング速度の向上、トレーニング手順とレシフィケーションの最適化、クラス不均衡の処理、困難な脆弱性検出データセットのパフォーマンス向上である。
このことは、特定のソースコード解析タスクのために、大規模な事前訓練された言語モデルを微調整することで、トランスファー学習の可能性を示す。
This paper presents the results of finetuning large language models (LLMs) for the task of detecting vulnerabilities in source code. We leverage WizardCoder, a recent improvement of the state-of-the-art LLM StarCoder, and adapt it for vulnerability detection through further finetuning. To accelerate training, we modify WizardCoder's training procedure, also we investigate optimal training regimes. For the imbalanced dataset with many more negative examples than positive, we also explore different techniques to improve classification performance. The finetuned WizardCoder model achieves improvement in ROC AUC and F1 measures on balanced and imbalanced vulnerability datasets over CodeBERT-like model, demonstrating the effectiveness of adapting pretrained LLMs for vulnerability detection in source code. The key contributions are finetuning the state-of-the-art code LLM, WizardCoder, increasing its training speed without the performance harm, optimizing the training procedure and regimes, handling class imbalance, and improving performance on difficult vulnerability detection datasets. This demonstrates the potential for transfer learning by finetuning large pretrained language models for specialized source code analysis tasks. | 翻訳日:2024-07-31 00:07:09 公開日:2024-07-27 |
# 自閉症スペクトラム障害児におけるロボット介入のための人間介在型大規模言語モデル
Human-mediated Large Language Models for Robotic Intervention in Children with Autism Spectrum Disorders ( http://arxiv.org/abs/2402.00260v3 ) ライセンス: Link先を確認 | Ruchik Mishra, Karla Conn Welch, Dan O Popa, | (参考訳) 自閉症スペクトラム障害(ASD)の個人に対するロボットによる介入は、一般的に1対1のセラピーセッションの間、言語コンテンツを提供するために定義済みのスクリプトを使用してきた。
この慣行は、ロボットの使用を制限され、事前に媒介された教育カリキュラムに制限する。
本稿では,ASDを実践する子どもに対して,視点学習を実践することで,ロボットの自律性を向上する。
提案手法では,大規模言語モデル (LLM) を用いてテキストとして言語コンテンツを生成し,ロボット音声で子供に届ける。
提案するパイプラインでは,ロボットが3つの役割を担っている視点取り(initiator, prompter, reforcer)を教える。
我々は、GPT-2+BARTパイプラインを採用し、社会的状況を生成し、質問(開始者として)し、必要なときにオプション(プロンプトとして)を与えました。
ロボットは、正しい答え(強化者として)に対して正の強化を与えることで、子供を励ます。
技術的な貢献に加えて、実際の視点教育セッションをシミュレートしたドメインエキスパートと10分間のセッションを行い、研究者は児童学生として行動した。
これらのセッションは、NASA TLXやGodSpeedなどの調査を通じて、私たちのロボット介入パイプラインを検証しました。
GPT-2+BARTパイプラインを全GPT-2と比較するためにBERTScoreを使用しました。
ドメインの専門家の回答に基づき、ロボットセッションは、ロボットセッションと比較して、精神的、身体的要求、時間的要求、努力、フラストレーションを増すことなく、より高いパフォーマンスを示した。
また、ドメインの専門家はロボットを理想的に安全で、可読性があり、信頼性が高いと感じていると結論付けました。
The robotic intervention for individuals with Autism Spectrum Disorder (ASD) has generally used pre-defined scripts to deliver verbal content during one-to-one therapy sessions. This practice restricts the use of robots to limited, pre-mediated instructional curricula. In this paper, we increase robot autonomy in one such robotic intervention for children with ASD by implementing perspective-taking teaching. Our approach uses large language models (LLM) to generate verbal content as texts and then deliver it to the child via robotic speech. In the proposed pipeline, we teach perspective-taking through which our robot takes up three roles: initiator, prompter, and reinforcer. We adopted the GPT-2 + BART pipelines to generate social situations, ask questions (as initiator), and give options (as prompter) when required. The robot encourages the child by giving positive reinforcement for correct answers (as a reinforcer). In addition to our technical contribution, we conducted ten-minute sessions with domain experts simulating an actual perspective teaching session, with the researcher acting as a child participant. These sessions validated our robotic intervention pipeline through surveys, including those from NASA TLX and GodSpeed. We used BERTScore to compare our GPT-2 + BART pipeline with an all GPT-2 and found the performance of the former to be better. Based on the responses by the domain experts, the robot session demonstrated higher performance with no additional increase in mental or physical demand, temporal demand, effort, or frustration compared to a no-robot session. We also concluded that the domain experts perceived the robot as ideally safe, likable, and reliable. | 翻訳日:2024-07-31 00:07:09 公開日:2024-07-27 |
# 対立的コントラスト学習による都市域プロファイリングの強化
Enhanced Urban Region Profiling with Adversarial Contrastive Learning ( http://arxiv.org/abs/2402.01163v2 ) ライセンス: Link先を確認 | Weiliang Chen, Qianqian Ren, Lin Pan, Shengxi Fu, Jinbao Li, | (参考訳) 都市部プロファイリングは、スマートシティと持続可能な開発に影響を及ぼす。
しかし, 騒音や不完全な都市データから, きめ細かなセマンティクスを抽出し, 堅牢な都市部埋め込みを生成することは困難である。
これに対し,EUPAC (Enhanced Urban Region Profiling with Adversarial Contrastive Learning) を提案する。
具体的には、地域内および地域間依存関係をグラフ畳み込みネットワークやマルチヘッドアテンションを通じて保持する領域埋め込みを生成する。
一方, 空間的に学習可能な拡張法を導入し, 意味的に類似し, 空間的にアンカーに近接する正のサンプルを生成し, その後のコントラスト学習に備える。
さらに, 強正の対を生成し, 強負の対を抽出することにより, 効果的なプレテキストタスクを構築するための対角的学習法を提案する。
最後に,教師付き学習と敵対的学習を共同で最適化し,ノイズや無関係の詳細を無視しながら,領域埋め込みの高レベルなセマンティクスを捉えることをモデルに促す。
実世界のデータセットに対する大規模な実験は、最先端の手法よりもモデルの方が優れていることを示す。
Urban region profiling is influential for smart cities and sustainable development. However, extracting fine-grained semantics and generating robust urban region embeddings from noisy and incomplete urban data is challenging. In response, we present EUPAC (Enhanced Urban Region Profiling with Adversarial Contrastive Learning), a novel framework that enhances the robustness of urban region embeddings through joint optimization of attentive supervised and adversarial contrastive modules. Specifically, region heterogeneous graphs containing human mobility data, point of interest information, and geographic neighborhood details for each region are fed into our model, which generates region embeddings that preserve intra-region and inter-region dependencies through graph convolutional networks and multi-head attention. Meanwhile, we introduce spatially learnable augmentation to generate positive samples that are semantically similar and spatially close to the anchor, preparing for subsequent contrastive learning. Furthermore, we propose an adversarial training method to construct an effective pretext task by generating strong positive pairs and mining hard negative pairs for the region embeddings. Finally, we jointly optimize attentive supervised and adversarial contrastive learning to encourage the model to capture the high-level semantics of region embeddings while ignoring the noisy and irrelevant details. Extensive experiments on real-world datasets demonstrate the superiority of our model over state-of-the-art methods. | 翻訳日:2024-07-31 00:07:09 公開日:2024-07-27 |
# 適応的勾配法で正方根を除去できるか? : 2次視点
Can We Remove the Square-Root in Adaptive Gradient Methods? A Second-Order Perspective ( http://arxiv.org/abs/2402.03496v8 ) ライセンス: Link先を確認 | Wu Lin, Felix Dangel, Runa Eschenhagen, Juhan Bae, Richard E. Turner, Alireza Makhzani, | (参考訳) Adam(W)のような適応的な勾配最適化アルゴリズムは、トランスフォーマーのような多くのディープラーニングアーキテクチャのデフォルトのトレーニングアルゴリズムである。
彼らの対角プレコンディショナーは、平方根を介してパラメータ更新に組み込まれた勾配外積に基づいている。
これらの方法はしばしば近似二階法として動機付けされるが、平方根は基本的な違いを表す。
本研究では,適応手法の動作が根の除去時にどのように変化するか,すなわち2階のモチベーションを強化するかを検討する。
意外なことに、これらの平方根自由適応法は、変換器の性能を維持しながら、畳み込みアーキテクチャ上のSGDへの一般化ギャップを閉じている。
2階の観点は、プリコンディショナー不変性の概念を通じて任意の曲率近似を組み込むことができる非対角法の開発にも実用的な利点がある。
シャンプーのような根ベースの手法とは対照的に、根のない手法は数値的に不安定な行列の根分解や逆変換を必要としないため、半精度でうまく高速に機能する。
本研究は,適応的手法の開発に関する新たな知見を提供し,その成功における適応性の役割について重要な疑問を提起するものである。
(実験コード:https://github.com/yorkerlin/remove-the-square-root Optimizationr code:https://github.com/f-dangel/sirfshampoo)
Adaptive gradient optimizers like Adam(W) are the default training algorithms for many deep learning architectures, such as transformers. Their diagonal preconditioner is based on the gradient outer product which is incorporated into the parameter update via a square root. While these methods are often motivated as approximate second-order methods, the square root represents a fundamental difference. In this work, we investigate how the behavior of adaptive methods changes when we remove the root, i.e., strengthen their second-order motivation. Surprisingly, we find that such square-root-free adaptive methods close the generalization gap to SGD on convolutional architectures, while maintaining their root-based counterpart's performance on transformers. The second-order perspective also has practical benefits for developing non-diagonal methods that can incorporate arbitrary curvature approximations through the concept of preconditioner invariance. In contrast to root-based methods like Shampoo, root-free counterparts work well and fast with half-precision since they do not require numerically unstable matrix root decompositions and inversions. Overall, our findings provide new insights into the development of adaptive methods and raise important questions regarding the overlooked role of adaptivity in their success. (experiment code: https://github.com/yorkerlin/remove-the-square-root optimizer code: https://github.com/f-dangel/sirfshampoo) | 翻訳日:2024-07-31 00:07:09 公開日:2024-07-27 |
# Gross-Pitaevskii方程式の二重ポテンシャルにおける精度
Accuracy of the Gross-Pitaevskii Equation in a Double-Well Potential ( http://arxiv.org/abs/2402.17545v2 ) ライセンス: Link先を確認 | Asaad R. Sakhel, Robert J. Ragan, William J. Mullin, | (参考訳) 二重井戸ポテンシャルのグロス=ピタエフスキー方程式(GPE)は、基礎となる非相互作用ハミルトニアン、すなわち非対称解の対称性を破る解を生成する。
GPEはより一般的な第二量子化フォック・シュローディンガー方程式(FSE)から導かれる。
このような解がより一般的な場合に現れるのか、あるいはGPEの成果物なのかを考察する。
GPEの変分処理とFock方程式の処理に2モード解析を用いる。
二重縮合におけるFSEの正確な対角化は、GPEで見られる退化不斉状態の位相状態表現によって非常に正確に適合する退化基底状態をもたらす。
縮退した非対称状態の重ね合わせは猫状態を形成する。
猫状態の代替形態は、2モード基底セットの変更によるものである。
The Gross-Pitaevskii equation (GPE) in a double well potential produces solutions that break the symmetry of the underlying non-interacting Hamiltonian, i.e., asymmetric solutions. The GPE is derived from the more general second-quantized Fock Schroedinger equation (FSE). We investigate whether such solutions appear in the more general case or are artifacts of the GPE. We use two-mode analyses for a variational treatment of the GPE and to treat the Fock equation. An exact diagonalization of the FSE in dual-condensates yields degenerate ground states that are very accurately fitted by phase-state representations of the degenerate asymmetric states found in the GPE. The superposition of degenerate asymmetrical states forms a cat state. An alternative form of cat state results from a change of the two-mode basis set. | 翻訳日:2024-07-30 23:57:25 公開日:2024-07-27 |
# BARTを用いたつぶやきからの感情句の抽出
Extracting Emotion Phrases from Tweets using BART ( http://arxiv.org/abs/2403.14050v3 ) ライセンス: Link先を確認 | Mahdi Rezapour, | (参考訳) 感性分析は、テキストの感情的側面を特定し、抽出することを目的とした自然言語処理タスクである。
しかし、既存の感情分析手法の多くは、感情を伝える特定のフレーズを見渡すことによって、テキストの全体極性を主に分類している。
本稿では,質問応答の枠組みに基づく感情分析にアプローチを適用した。
提案手法は、事前訓練されたシーケンス・ツー・シーケンスモデルである双方向自己回帰変換器(BART)のパワーを利用して、与えられた感情極性を増幅する与えられたテキストからフレーズを抽出する。
我々は、抽出する特定の感情を識別する自然言語質問を作成し、BARTにテキスト中の関連する感情的手がかりに注意を払うよう誘導する。
BART内の分類器を用いて、テキスト内の回答の開始位置と終了位置を予測し、抽出した感情句の正確な境界を識別する。
我々のアプローチは、テキストの完全な文脈と意味を捉え、意図された感情を強調する正確なトークンスパンを抽出するなど、ほとんどの感情分析研究に対していくつかの利点を提供している。
最終損失は87%、Jaccardスコアは0.61でした。
Sentiment analysis is a natural language processing task that aims to identify and extract the emotional aspects of a text. However, many existing sentiment analysis methods primarily classify the overall polarity of a text, overlooking the specific phrases that convey sentiment. In this paper, we applied an approach to sentiment analysis based on a question-answering framework. Our approach leverages the power of Bidirectional Autoregressive Transformer (BART), a pre-trained sequence-to-sequence model, to extract a phrase from a given text that amplifies a given sentiment polarity. We create a natural language question that identifies the specific emotion to extract and then guide BART to pay attention to the relevant emotional cues in the text. We use a classifier within BART to predict the start and end positions of the answer span within the text, which helps to identify the precise boundaries of the extracted emotion phrase. Our approach offers several advantages over most sentiment analysis studies, including capturing the complete context and meaning of the text and extracting precise token spans that highlight the intended sentiment. We achieved an end loss of 87% and Jaccard score of 0.61. | 翻訳日:2024-07-30 23:47:39 公開日:2024-07-27 |
# 変圧器による感情検出 : 比較検討
Emotion Detection with Transformers: A Comparative Study ( http://arxiv.org/abs/2403.15454v4 ) ライセンス: Link先を確認 | Mahdi Rezapour, | (参考訳) 本研究では,テキストデータを用いた感情分類におけるトランスフォーマーモデルの適用について検討する。
我々は、異なる変圧器の変種を用いて、感情データセットを用いて、事前訓練されたトランスフォーマーモデルを訓練し、評価する。
また、トランス層の微調整、層の訓練性、テキストデータの事前処理など、モデルの性能に影響を及ぼす要因についても分析する。
解析の結果,句読解や停止語といった一般的な手法は,モデルの性能を損なうことが判明した。
これは、トランスフォーマーの強みがテキスト内のコンテキスト関係を理解することにあるためかもしれない。
句読点や停止語といった要素は、それでも感情や強調を伝達し、それらを取り除くことで、この文脈を混乱させる可能性がある。
In this study, we explore the application of transformer-based models for emotion classification on text data. We train and evaluate several pre-trained transformer models, on the Emotion dataset using different variants of transformers. The paper also analyzes some factors that in-fluence the performance of the model, such as the fine-tuning of the transformer layer, the trainability of the layer, and the preprocessing of the text data. Our analysis reveals that commonly applied techniques like removing punctuation and stop words can hinder model performance. This might be because transformers strength lies in understanding contextual relationships within text. Elements like punctuation and stop words can still convey sentiment or emphasis and removing them might disrupt this context. | 翻訳日:2024-07-30 23:47:39 公開日:2024-07-27 |
# AIの意識は必然的:理論的コンピュータ科学の視点
AI Consciousness is Inevitable: A Theoretical Computer Science Perspective ( http://arxiv.org/abs/2403.17101v5 ) ライセンス: Link先を確認 | Lenore Blum, Manuel Blum, | (参考訳) 我々は,資源制限下での計算を研究する数学の分野である理論計算機科学のレンズを通して,意識を考察する。
この観点から、意識のための正式な機械モデルを開発する。
このモデルはアラン・チューリングの単純だが強力な計算モデルとバーナード・ベアーズの意識の劇場モデルにインスパイアされている。
非常に単純ではあるが、このモデルは人間と動物の意識に関する主要な科学的理論の多くと高いレベルで一致しており、機械の意識は避けられないという我々の主張を支持している。
We look at consciousness through the lens of Theoretical Computer Science, a branch of mathematics that studies computation under resource limitations. From this perspective, we develop a formal machine model for consciousness. The model is inspired by Alan Turing's simple yet powerful model of computation and Bernard Baars' theater model of consciousness. Though extremely simple, the model aligns at a high level with many of the major scientific theories of human and animal consciousness, supporting our claim that machine consciousness is inevitable. | 翻訳日:2024-07-30 23:47:39 公開日:2024-07-27 |
# LLM応答における誤差検出のためのLLMの評価
Evaluating LLMs at Detecting Errors in LLM Responses ( http://arxiv.org/abs/2404.03602v2 ) ライセンス: Link先を確認 | Ryo Kamoi, Sarkar Snigdha Sarathi Das, Renze Lou, Jihyun Janice Ahn, Yilun Zhao, Xiaoxin Lu, Nan Zhang, Yusen Zhang, Ranran Haoran Zhang, Sujeeth Reddy Vummanthala, Salika Dave, Shaobo Qin, Arman Cohan, Wenpeng Yin, Rui Zhang, | (参考訳) 大きな言語モデル(LLM)が様々なタスクで広く使われているため、その応答におけるエラーの検出はますます重要になっている。
しかし,LSM応答の誤り検出についてはほとんど研究されていない。
LLM応答に対するエラーアノテーションの収集は、多くのNLPタスクの主観的な性質のため困難であり、これまでの研究では、実用的価値の少ないタスク(例えば、単語ソート)や限られたエラータイプ(例えば、要約における忠実さ)に焦点を当てていた。
この研究は、LLMによる客観的、現実的で多様なエラーからなる最初のエラー検出ベンチマークであるReaLMistakeを紹介した。
ReaLMistakeは、4つのカテゴリで客観的に評価可能なエラー(正当性、命令追従性、文脈忠実性、パラメータ化知識)を導入し、専門家によって注釈されたGPT-4とLlama 270Bの応答において自然に観察され多様なエラーを誘発する、困難で有意義な3つのタスクを含んでいる。
我々はReaLMistakeを用いて12個のLDMに基づいて誤差検出を行う。
私たちの発見は以下のとおりです。
1) GPT-4 や Claude 3 のような最上位の LLM は LLM のエラーを極めて少ないリコールで検出し、全ての LLM ベースのエラー検出器は人間よりもはるかにひどい性能を発揮する。
2)LLMに基づく誤り検出装置による説明は信頼性に欠ける。
3) LLMによる誤り検出は, プロンプトの小さな変化に敏感であるが, 改善は困難である。
4) 自己整合性や多数決を含むLCMの改善に対する一般的なアプローチは, エラー検出性能を向上しない。
ベンチマークとコードはhttps://github.com/psunlpgroup/ReaLMistake.comで公開されています。
With Large Language Models (LLMs) being widely used across various tasks, detecting errors in their responses is increasingly crucial. However, little research has been conducted on error detection of LLM responses. Collecting error annotations on LLM responses is challenging due to the subjective nature of many NLP tasks, and thus previous research focuses on tasks of little practical value (e.g., word sorting) or limited error types (e.g., faithfulness in summarization). This work introduces ReaLMistake, the first error detection benchmark consisting of objective, realistic, and diverse errors made by LLMs. ReaLMistake contains three challenging and meaningful tasks that introduce objectively assessable errors in four categories (reasoning correctness, instruction-following, context-faithfulness, and parameterized knowledge), eliciting naturally observed and diverse errors in responses of GPT-4 and Llama 2 70B annotated by experts. We use ReaLMistake to evaluate error detectors based on 12 LLMs. Our findings show: 1) Top LLMs like GPT-4 and Claude 3 detect errors made by LLMs at very low recall, and all LLM-based error detectors perform much worse than humans. 2) Explanations by LLM-based error detectors lack reliability. 3) LLMs-based error detection is sensitive to small changes in prompts but remains challenging to improve. 4) Popular approaches to improving LLMs, including self-consistency and majority vote, do not improve the error detection performance. Our benchmark and code are provided at https://github.com/psunlpgroup/ReaLMistake. | 翻訳日:2024-07-30 23:37:56 公開日:2024-07-27 |
# 階層的視点:信頼性の高い3次元セマンティックセグメンテーションのための構造的類似点の爆発的発見
Hierarchical Insights: Exploiting Structural Similarities for Reliable 3D Semantic Segmentation ( http://arxiv.org/abs/2404.06124v2 ) ライセンス: Link先を確認 | Mariella Dreissig, Florian Piewak, Joschka Boedecker, | (参考訳) 自律運転のような安全クリティカルなアプリケーションは、多様であいまいな環境を扱うことのできる堅牢な3D環境認識アルゴリズムを必要とする。
分類モデルの予測性能は、アノテートラベルによって提供されるデータセットと事前知識の影響を強く受けている。
ラベルは学習過程を導くが、人間によって自然に理解されるクラス間の固有の関係を捉えるのに失敗することが多い。
本稿では,抽象を通してクラス間の構造的関係を学習する3次元LiDARセマンティックセマンティックセマンティクスモデルのトレーニング戦略を提案する。
これは、階層的マルチラベル分類(HMC)の学習規則を用いて、これらの関係を暗黙的にモデル化することで達成される。
詳細な分析により、このトレーニング戦略はモデルの信頼性校正を改善するだけでなく、融合、予測、計画といった下流タスクに有用な追加情報を保持することが示される。
Safety-critical applications such as autonomous driving require robust 3D environment perception algorithms capable of handling diverse and ambiguous surroundings. The predictive performance of classification models is heavily influenced by the dataset and the prior knowledge provided by the annotated labels. While labels guide the learning process, they often fail to capture the inherent relationships between classes that are naturally understood by humans. We propose a training strategy for a 3D LiDAR semantic segmentation model that learns structural relationships between classes through abstraction. This is achieved by implicitly modeling these relationships using a learning rule for hierarchical multi-label classification (HMC). Our detailed analysis demonstrates that this training strategy not only improves the model's confidence calibration but also retains additional information useful for downstream tasks such as fusion, prediction, and planning. | 翻訳日:2024-07-30 23:37:56 公開日:2024-07-27 |
# 論文要旨]第2回BabyLMチャレンジ:発達可能コーパスにおけるサンプル効率事前学習
[Call for Papers] The 2nd BabyLM Challenge: Sample-efficient pretraining on a developmentally plausible corpus ( http://arxiv.org/abs/2404.06214v2 ) ライセンス: Link先を確認 | Leshem Choshen, Ryan Cotterell, Michael Y. Hu, Tal Linzen, Aaron Mueller, Candace Ross, Alex Warstadt, Ethan Wilcox, Adina Williams, Chengxu Zhuang, | (参考訳) 昨年のBabyLM Challengeの成功の後、2024/2025年に再び開催されます。
挑戦の全体的目標は同じだが、いくつかの競争ルールは異なる。
まず、緩やかなトラックをペーパートラックに置き換えて、(例えば)モデルベースでない投稿、新しい認知にインスパイアされたベンチマーク、分析テクニックを可能にします。
第2に、データの事前トレーニングに関するルールを緩和し、参加者が100Mワードまたは10Mワードの予算内に留まるならば、独自のデータセットを構築することが可能になります。
第3に、マルチモーダル・ヴィジュアル・アンド・ランゲージ・トラックを導入し、LMモデルトレーニングの出発点として、50%のテキストのみと50%の画像テキスト・マルチモーダルデータからなるコーパスをリリースする。
このCfPの目的は、今年のチャレンジのルールを提供し、これらのルールの変更とその理論的根拠をより詳細に説明し、今年の競争のタイムラインを提供し、昨年のチャレンジからの質問に対する回答を提供することである。
After last year's successful BabyLM Challenge, the competition will be hosted again in 2024/2025. The overarching goals of the challenge remain the same; however, some of the competition rules will be different. The big changes for this year's competition are as follows: First, we replace the loose track with a paper track, which allows (for example) non-model-based submissions, novel cognitively-inspired benchmarks, or analysis techniques. Second, we are relaxing the rules around pretraining data, and will now allow participants to construct their own datasets provided they stay within the 100M-word or 10M-word budget. Third, we introduce a multimodal vision-and-language track, and will release a corpus of 50% text-only and 50% image-text multimodal data as a starting point for LM model training. The purpose of this CfP is to provide rules for this year's challenge, explain these rule changes and their rationale in greater detail, give a timeline of this year's competition, and provide answers to frequently asked questions from last year's challenge. | 翻訳日:2024-07-30 23:37:56 公開日:2024-07-27 |
# PoliTune:大規模言語モデルにおけるデータ選択と微調整の影響の分析
PoliTune: Analyzing the Impact of Data Selection and Fine-Tuning on Economic and Political Biases in Large Language Models ( http://arxiv.org/abs/2404.08699v3 ) ライセンス: Link先を確認 | Ahmed Agiza, Mohamed Mostagir, Sherief Reda, | (参考訳) 言語モデルが意思決定とコミュニケーションにますます統合される時代において、大規模言語モデル(LLM)内のバイアスを理解することは、特にこれらのモデルが経済と政治の領域に適用される場合に必須となる。
本研究では,LLMにおける微調整とデータ選択が経済的・政治的バイアスに与える影響について検討する。
この文脈では、多種多様なデータセットに対する広範なトレーニングから生じるバイアスを念頭に置いて、特定のイデオロギーとLCMを整合させるという体系的な側面を探求する微調整手法であるPoliTuneを紹介します。
より小さなモデルにフォーカスするか、リソース集約的な事前トレーニングを行う以前の取り組みとは対照的に、PoliTuneはパラメータの小さなサブセットを変更することで、目標イデオロギーとLLMのアライメントを可能にするパラメータ効率の良いファインチューニング(PEFT)技術を採用している。
我々は、データセットの選択、アノテーション、DPO(Direct Preference Optimization)のための選好データセットの合成にLLM Llama3-70BをオープンソースのLLM Llama3-70Bを用いて、与えられた政治的イデオロギーとモデルを整合させる体系的手法を提案する。
オープンソースのLCM(Llama3-8BとMistral-7B)を異なるイデオロギーに整合させることにより,PoliTuneの有効性を評価する。
我々の研究は、特定のバイアスをLLMに埋め込む可能性を分析し、AIの倫理的応用に関する対話に寄与し、社会的価値に合わせてAIをデプロイすることの重要性を強調します。
In an era where language models are increasingly integrated into decision-making and communication, understanding the biases within Large Language Models (LLMs) becomes imperative, especially when these models are applied in the economic and political domains. This work investigates the impact of fine-tuning and data selection on economic and political biases in LLMs. In this context, we introduce PoliTune, a fine-tuning methodology to explore the systematic aspects of aligning LLMs with specific ideologies, mindful of the biases that arise from their extensive training on diverse datasets. Distinct from earlier efforts that either focus on smaller models or entail resource-intensive pre-training, PoliTune employs Parameter-Efficient Fine-Tuning (PEFT) techniques, which allow for the alignment of LLMs with targeted ideologies by modifying a small subset of parameters. We introduce a systematic method for using the open-source LLM Llama3-70B for dataset selection, annotation, and synthesizing a preferences dataset for Direct Preference Optimization (DPO) to align the model with a given political ideology. We assess the effectiveness of PoliTune through both quantitative and qualitative evaluations of aligning open-source LLMs (Llama3-8B and Mistral-7B) to different ideologies. Our work analyzes the potential of embedding specific biases into LLMs and contributes to the dialogue on the ethical application of AI, highlighting the importance of deploying AI in a manner that aligns with societal values. | 翻訳日:2024-07-30 23:27:56 公開日:2024-07-27 |
# Data Privacy Vocabulary (DPV) -- Version 2
Data Privacy Vocabulary (DPV) -- Version 2 ( http://arxiv.org/abs/2404.13426v2 ) ライセンス: Link先を確認 | Harshvardhan J. Pandit, Beatriz Esteves, Georg P. Krog, Paul Ryan, Delaram Golpayegani, Julian Flake, | (参考訳) Data Privacy Vocabulary (DPV)は、W3C Data Privacy Vocabularies and Controls Community Group (DPVCG)によって開発された、個人データの処理を記述するための機械可読性、相互運用性、標準ベースの表現の作成を可能にする。
また、EUのGDPRのような立法要件をサポートするための特定のアプリケーションを記述するために、DPVの拡張も公開している。
DPVは、W3C ODRLなどの既存の標準と併用し、特定のユースケースやドメインに適応するためにカスタマイズおよび拡張可能な語彙を提供することによって、最先端における重要なニッチを埋める。
この記事では、DPVのバージョン2イテレーションについて、その内容、方法論、現在の採用と利用、将来の可能性について説明する。
また、さまざまな規制(EUのDGAおよびAI法など)と世界中のコミュニティイニシアチブ(例えばSolid)をサポートするための共通の語彙として機能する上でのDPVの関連性と役割についても説明している。
The Data Privacy Vocabulary (DPV), developed by the W3C Data Privacy Vocabularies and Controls Community Group (DPVCG), enables the creation of machine-readable, interoperable, and standards-based representations for describing the processing of personal data. The group has also published extensions to the DPV to describe specific applications to support legislative requirements such as the EU's GDPR. The DPV fills a crucial niche in the state of the art by providing a vocabulary that can be embedded and used alongside other existing standards such as W3C ODRL, and which can be customised and extended for adapting to specifics of use-cases or domains. This article describes the version 2 iteration of the DPV in terms of its contents, methodology, current adoptions and uses, and future potential. It also describes the relevance and role of DPV in acting as a common vocabulary to support various regulatory (e.g. EU's DGA and AI Act) and community initiatives (e.g. Solid) emerging across the globe. | 翻訳日:2024-07-30 23:27:56 公開日:2024-07-27 |
# 距離重み改善とウィンドウサイズスケジューリングによる単語埋め込み学習
Learning Word Embedding with Better Distance Weighting and Window Size Scheduling ( http://arxiv.org/abs/2404.14631v2 ) ライセンス: Link先を確認 | Chaohao Yang, Chris Ding, | (参考訳) 分散語表現(英: Distributed word representation、別名、単語埋め込み)は、自然言語処理(NLP)における重要な焦点である。
非常に成功した単語埋め込みモデルとして、Word2Vecは大規模なデータセット上で分散ワード表現を学習する効率的な方法を提供する。
しかし、Word2Vecは中心語と文脈語の間の距離を考慮していない。
本稿では,Learningable Formulated Weights (LFW) と Epoch-based Dynamic Window Size (EDWS) という2つの新しい手法を提案する。
CBOWの場合、LFWは学習可能なパラメータを持つ公式を使用して、単語間の影響と距離の関係を最もよく反映し、平均プールにおける距離関連重みを計算し、将来のNLPテキストモデリング研究の洞察を提供する。
Skip-gramでは、よりバランスの取れた方法で距離情報を導入するために、動的ウィンドウサイズ戦略を改善している。
LFW と EDWS が Word2Vec の性能向上に有効であることを実証した。
Distributed word representation (a.k.a. word embedding) is a key focus in natural language processing (NLP). As a highly successful word embedding model, Word2Vec offers an efficient method for learning distributed word representations on large datasets. However, Word2Vec lacks consideration for distances between center and context words. We propose two novel methods, Learnable Formulated Weights (LFW) and Epoch-based Dynamic Window Size (EDWS), to incorporate distance information into two variants of Word2Vec, the Continuous Bag-of-Words (CBOW) model and the Continuous Skip-gram (Skip-gram) model. For CBOW, LFW uses a formula with learnable parameters that best reflects the relationship of influence and distance between words to calculate distance-related weights for average pooling, providing insights for future NLP text modeling research. For Skip-gram, we improve its dynamic window size strategy to introduce distance information in a more balanced way. Experiments prove the effectiveness of LFW and EDWS in enhancing Word2Vec's performance, surpassing previous state-of-the-art methods. | 翻訳日:2024-07-30 23:27:56 公開日:2024-07-27 |
# 行動スーパーバイザチューニングによるオフライン強化学習
Offline Reinforcement Learning with Behavioral Supervisor Tuning ( http://arxiv.org/abs/2404.16399v2 ) ライセンス: Link先を確認 | Padmanaba Srinivasan, William Knottenbelt, | (参考訳) オフライン強化学習(RL)アルゴリズムは、静的な相互作用のデータセットが提供されると、高性能で汎用的なポリシーを学習するために用いられる。
オフラインRLに対する最近の多くのアプローチは大きな成功を収めているが、ひとつ重要な注意点がある。彼らは報告されたパフォーマンスを達成するために、データ単位のハイパーパラメータチューニングをかなり要求している。
さらに、かなりのチューニング要求は、これらのアルゴリズムを実践的な領域で採用することを妨げる可能性がある。
本稿では,不確実性モデルのトレーニングを行うアルゴリズムである振舞いスーパーバイザチューニング(TD3-BST)を用いたTD3を提案する。
TD3-BSTは、以前の方法と比較してオフラインデータセットからより効果的なポリシーを学習でき、データセットごとのチューニングを必要とせずに、挑戦的なベンチマークで最高のパフォーマンスを達成する。
Offline reinforcement learning (RL) algorithms are applied to learn performant, well-generalizing policies when provided with a static dataset of interactions. Many recent approaches to offline RL have seen substantial success, but with one key caveat: they demand substantial per-dataset hyperparameter tuning to achieve reported performance, which requires policy rollouts in the environment to evaluate; this can rapidly become cumbersome. Furthermore, substantial tuning requirements can hamper the adoption of these algorithms in practical domains. In this paper, we present TD3 with Behavioral Supervisor Tuning (TD3-BST), an algorithm that trains an uncertainty model and uses it to guide the policy to select actions within the dataset support. TD3-BST can learn more effective policies from offline datasets compared to previous methods and achieves the best performance across challenging benchmarks without requiring per-dataset tuning. | 翻訳日:2024-07-30 23:18:12 公開日:2024-07-27 |
# データ漂白ジャーナリズムに関する探索的研究
An Exploratory Case Study on Data Breach Journalism ( http://arxiv.org/abs/2405.01446v2 ) ライセンス: Link先を確認 | Jukka Ruohonen, Kalle Hjerppe, Maximilian von Zastrow, | (参考訳) 本稿では、データ漏洩ジャーナリズムとデータ漏洩ニュースの新たな話題を、データ漏洩と関連するサイバー犯罪に特化したニュースメディアであるDatabreaches.netの事例を通して探求する。
伝統的な犯罪ニュースや犯罪ジャーナリズムの問題に触発され、テキストマイニングによって調査される。
結果によると、出版社は出版ペースを着実に保っており、主に平易で短い報道に重点を置いているが、ニュース記事の質は概して高い。
これらの特徴にもかかわらず、ニュース記事はかなり強い感情を示しており、それは部分的には、情緒に満ちた犯罪の存在と、犯罪ニュースにおけるセンセーショナルズムの長い歴史のために期待されている。
ニュースサイトはまた、データ漏洩の全範囲をカバーしているが、その多くはかなり伝統的であり、被害者の個人識別と財務的詳細を暴露している。
また、病院や医療部門も際立っている。
これらの結果から,メディア・ジャーナリズムの観点から考察し,データ漏洩の研究を進めた。
This paper explores the novel topic of data breach journalism and data breach news through the case of databreaches.net, a news outlet dedicated to data breaches and related cyber crime. Motivated by the issues in traditional crime news and crime journalism, the case is explored by the means of text mining. According to the results, the outlet has kept a steady publishing pace, mainly focusing on plain and short reporting but with generally high-quality source material for the news articles. Despite these characteristics, the news articles exhibit fairly strong sentiments, which is partially expected due to the presence of emotionally laden crime and the long history of sensationalism in crime news. The news site has also covered the full scope of data breaches, although many of these are fairly traditional, exposing personal identifiers and financial details of the victims. Also hospitals and the healthcare sector stand out. With these results, the paper advances the study of data breaches by considering these from the perspective of media and journalism. | 翻訳日:2024-07-30 23:18:12 公開日:2024-07-27 |
# サイバーセキュリティのための大規模言語モデル: 体系的文献レビュー
Large Language Models for Cyber Security: A Systematic Literature Review ( http://arxiv.org/abs/2405.04760v3 ) ライセンス: Link先を確認 | Hanxiang Xu, Shenao Wang, Ningke Li, Kailong Wang, Yanjie Zhao, Kai Chen, Ting Yu, Yang Liu, Haoyu Wang, | (参考訳) 大規模言語モデル(LLM)の急速な進歩は、サイバーセキュリティを含むさまざまな領域で人工知能を活用する新たな機会を開いた。
サイバー脅威の量と高度化が進むにつれ、脆弱性を自動的に検出し、マルウェアを分析し、攻撃に応答するインテリジェントシステムの必要性が高まっている。
本調査では,LLMのサイバーセキュリティ(LLM4Security)への適用に関する文献を概観する。
30万件以上の関連論文を包括的に収集し、トップセキュリティとソフトウェアエンジニアリングの会場から127件の論文を体系的に分析することで、LLMがサイバーセキュリティ領域の様々な問題を解決するためにどのように使われているのか、全体像を提供することを目指している。
分析により,いくつかの重要な知見が得られた。
まず、脆弱性検出、マルウェア分析、ネットワーク侵入検出、フィッシング検出など、幅広いサイバーセキュリティタスクにLLMが適用されていることを観察する。
第2に、これらのタスクにおけるLSMのトレーニングと評価に使用されるデータセットは、サイズと多様性に制限されることが少なく、より包括的で代表的なデータセットの必要性を強調している。
第3に、細調整、転送学習、ドメイン固有の事前トレーニングなど、特定のサイバーセキュリティドメインにLLMを適用するための有望なテクニックをいくつか特定する。
最後に、LLM4Securityにおける今後の研究の課題と機会について論じる。その中には、より解釈可能で説明可能なモデルの必要性、データのプライバシとセキュリティの問題に対処することの重要性、積極的に防御と脅威ハンティングにLLMを活用する可能性などが含まれる。
本調査では,LLM4Securityの現状を概観し,今後の研究に期待できるいくつかの方向性を明らかにした。
The rapid advancement of Large Language Models (LLMs) has opened up new opportunities for leveraging artificial intelligence in various domains, including cybersecurity. As the volume and sophistication of cyber threats continue to grow, there is an increasing need for intelligent systems that can automatically detect vulnerabilities, analyze malware, and respond to attacks. In this survey, we conduct a comprehensive review of the literature on the application of LLMs in cybersecurity (LLM4Security). By comprehensively collecting over 30K relevant papers and systematically analyzing 127 papers from top security and software engineering venues, we aim to provide a holistic view of how LLMs are being used to solve diverse problems across the cybersecurity domain. Through our analysis, we identify several key findings. First, we observe that LLMs are being applied to a wide range of cybersecurity tasks, including vulnerability detection, malware analysis, network intrusion detection, and phishing detection. Second, we find that the datasets used for training and evaluating LLMs in these tasks are often limited in size and diversity, highlighting the need for more comprehensive and representative datasets. Third, we identify several promising techniques for adapting LLMs to specific cybersecurity domains, such as fine-tuning, transfer learning, and domain-specific pre-training. Finally, we discuss the main challenges and opportunities for future research in LLM4Security, including the need for more interpretable and explainable models, the importance of addressing data privacy and security concerns, and the potential for leveraging LLMs for proactive defense and threat hunting. Overall, our survey provides a comprehensive overview of the current state-of-the-art in LLM4Security and identifies several promising directions for future research. | 翻訳日:2024-07-30 23:18:12 公開日:2024-07-27 |
# 知覚とフィデリティを意識した低解像度画像品質評価
Perception- and Fidelity-aware Reduced-Reference Super-Resolution Image Quality Assessment ( http://arxiv.org/abs/2405.09472v2 ) ライセンス: Link先を確認 | Xinying Lin, Xuyang Liu, Hong Yang, Xiaohai He, Honggang Chen, | (参考訳) 画像超解像(SR)アルゴリズムの出現により、生成したSR画像の品質を評価する方法が緊急課題となっている。
SR画像品質評価(SR-IQA)ではフル参照方式が有効であるが,高分解能(HR)画像への依存は適用性を制限している。
低解像度(LR)画像やスケールファクタなど、SR-IQAで可能な限り利用可能な再構成情報を活用することは、HRを使わずにSR-IQAの評価性能を向上させるための有望な方法である。
本稿では,LR画像とスケールファクターを考慮したSR画像の知覚的品質と再現性の評価を試みる。
具体的には、新しい二分岐縮小参照SR-IQAネットワーク、Shaie, Perception- and Fidelity-aware SR-IQA (PFIQA)を提案する。
視覚変換器(ViT)のグローバルモデリングとResNetの局所的関係の利点を活用し、そのスケールファクタを組み込むことにより、SR画像の知覚品質を評価する。
一方、忠実度認識枝は、その視覚的知覚を通して、LR画像とSR画像の再構成忠実度を評価する。
2つの枝の組み合わせは人間の視覚システムとほぼ一致し、包括的なSR画像評価を可能にする。
実験結果から,PFIQAは3つのSR-IQAベンチマークにおいて,現在の最先端モデルよりも優れていたことが示唆された。
特に、PFIQAは現実世界のSR画像の品質を評価するのに優れている。
With the advent of image super-resolution (SR) algorithms, how to evaluate the quality of generated SR images has become an urgent task. Although full-reference methods perform well in SR image quality assessment (SR-IQA), their reliance on high-resolution (HR) images limits their practical applicability. Leveraging available reconstruction information as much as possible for SR-IQA, such as low-resolution (LR) images and the scale factors, is a promising way to enhance assessment performance for SR-IQA without HR for reference. In this letter, we attempt to evaluate the perceptual quality and reconstruction fidelity of SR images considering LR images and scale factors. Specifically, we propose a novel dual-branch reduced-reference SR-IQA network, \ie, Perception- and Fidelity-aware SR-IQA (PFIQA). The perception-aware branch evaluates the perceptual quality of SR images by leveraging the merits of global modeling of Vision Transformer (ViT) and local relation of ResNet, and incorporating the scale factor to enable comprehensive visual perception. Meanwhile, the fidelity-aware branch assesses the reconstruction fidelity between LR and SR images through their visual perception. The combination of the two branches substantially aligns with the human visual system, enabling a comprehensive SR image evaluation. Experimental results indicate that our PFIQA outperforms current state-of-the-art models across three widely-used SR-IQA benchmarks. Notably, PFIQA excels in assessing the quality of real-world SR images. | 翻訳日:2024-07-30 23:08:21 公開日:2024-07-27 |
# Qubit EchoのQudit-GeneralizationとQutrit-based Toffoli Gateへの応用
Qudit-Generalization of the Qubit Echo and Its Application to a Qutrit-Based Toffoli Gate ( http://arxiv.org/abs/2405.14752v2 ) ライセンス: Link先を確認 | Yutaro Iiyama, Wonho Jang, Naoki Kanazawa, Ryu Sawada, Tamiya Onodera, Koji Terashi, | (参考訳) ノイズの多い量子コンピュータ上の特定のゲートの忠実度は、2段階以上のトランスモンを用いて実装することで改善される可能性がある。
このポテンシャルを達成するための主な障害は、キャリブレーションによって修正できない動的ゲート位相誤差である。
このような位相誤差を2段階の量子ビットで対応させる標準的なツールはエコープロトコルであり、しばしばダイナミックデカップリングシーケンスと呼ばれ、量子ビットの進化は偶数個のXゲートによって句読される。
本稿では,一般キューディットへのクォービットエコーの直接一般化であるベースサイクリングを導入し,ゲート列を設計して所望の効果を生み出すための分析フレームワークを提供する。
次に, 量子プロセストモグラフィーにより測定された 93.8$\pm$0.1% の CCZ ゲート忠実度値を求める。
クエットの共振周波数が変動しても、ゲートの忠実度は補正することなく安定であり、基底サイクルによる位相誤差キャンセルの動的性質を強調している。
以上の結果から,超伝導量子コンピュータ上でのキューディットを用いたゲート分解は,一定の条件が満たされた場合,系統的に克服できるため,回路最適化エージェントとしてのキューディットの実現に向けた道を開くことができる。
The fidelity of certain gates on noisy quantum computers may be improved when they are implemented using more than two levels of the involved transmons. The main impediments to achieving this potential are the dynamic gate phase errors that cannot be corrected via calibration. The standard tool for countering such phase errors in two-level qubits is the echo protocol, often referred to as the dynamical decoupling sequence, where the evolution of a qubit is punctuated by an even number of X gates. We introduce basis cycling, which is a direct generalization of the qubit echo to general qudits, and provide an analytic framework for designing gate sequences to produce desired effects using this technique. We then apply basis cycling to a Toffoli gate decomposition incorporating a qutrit and obtain CCZ gate fidelity values up to 93.8$\pm$0.1%, measured by quantum process tomography, on IBM quantum computers. The gate fidelity remains stable without recalibration even while the resonant frequency of the qutrit fluctuates, highlighting the dynamical nature of phase error cancellation through basis cycling. Our results demonstrate that one of the biggest difficulties in implementing qudit-based gate decompositions on superconducting quantum computers can be systematically overcome when certain conditions are met, and thus open a path toward fulfilling the promise of qudits as circuit optimization agents. | 翻訳日:2024-07-30 23:08:21 公開日:2024-07-27 |
# GOI:最適化可能なオープンボキャブラリ・セマンティック・スペース・ハイパープレーンで興味深い3Dガウシアンを見つける
GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane ( http://arxiv.org/abs/2405.17596v2 ) ライセンス: Link先を確認 | Yansong Qu, Shaohui Dai, Xinyang Li, Jianghang Lin, Liujuan Cao, Shengchuan Zhang, Rongrong Ji, | (参考訳) 3Dのオープンボキャブラリのシーン理解は、拡張現実やロボットの応用に欠かせないもので、自然言語の指示に従って3D空間内の特定の領域を解釈し、配置する。
GOIは2次元視覚言語基礎モデルのセマンティック特徴を3次元ガウススプラッティング(3DGS)に統合し,最適化可能なセマンティック空間ハイパープレーンを用いて関心の3次元ガウスを同定するフレームワークである。
提案手法は,3DGSに埋め込まれたコンパクトな低次元ベクトルに雑音の多い高次元のセマンティック特徴を凝縮するために,シーン先行を利用した効率的な圧縮手法を含む。
オープン語彙クエリプロセスでは,クエリテキストの埋め込みに対する意味的特徴距離に基づいて,各領域に手動で設定した固定経験しきい値に依存する既存の手法と異なるアプローチを採用する。
この伝統的なアプローチは、しばしば普遍的な精度に欠けており、特定の対象領域を正確に特定する上での課題に繋がる。
その代わりに,提案手法は特徴空間内の超平面分割として特徴選択処理を扱い,クエリに高い関連性を持つ特徴のみを保持する。
既製の2次元参照式セグメンテーション(RES)モデルを用いて,セマンティック空間の超平面を微調整し,ターゲット領域と他の領域とのより正確な区別を可能にする。
この微調整により、オープン語彙クエリの精度が大幅に向上し、関連する3Dガウスの正確なローカライゼーションが保証される。
広汎な実験は、GOIが従来の最先端手法よりも優れていることを示す。
私たちのプロジェクトページはhttps://quyans.github.io/GOI-Hyperplane/で公開されています。
3D open-vocabulary scene understanding, crucial for advancing augmented reality and robotic applications, involves interpreting and locating specific regions within a 3D space as directed by natural language instructions. To this end, we introduce GOI, a framework that integrates semantic features from 2D vision-language foundation models into 3D Gaussian Splatting (3DGS) and identifies 3D Gaussians of Interest using an Optimizable Semantic-space Hyperplane. Our approach includes an efficient compression method that utilizes scene priors to condense noisy high-dimensional semantic features into compact low-dimensional vectors, which are subsequently embedded in 3DGS. During the open-vocabulary querying process, we adopt a distinct approach compared to existing methods, which depend on a manually set fixed empirical threshold to select regions based on their semantic feature distance to the query text embedding. This traditional approach often lacks universal accuracy, leading to challenges in precisely identifying specific target areas. Instead, our method treats the feature selection process as a hyperplane division within the feature space, retaining only those features that are highly relevant to the query. We leverage off-the-shelf 2D Referring Expression Segmentation (RES) models to fine-tune the semantic-space hyperplane, enabling a more precise distinction between target regions and others. This fine-tuning substantially improves the accuracy of open-vocabulary queries, ensuring the precise localization of pertinent 3D Gaussians. Extensive experiments demonstrate GOI's superiority over previous state-of-the-art methods. Our project page is available at https://quyans.github.io/GOI-Hyperplane/ . | 翻訳日:2024-07-30 22:58:37 公開日:2024-07-27 |
# フローサイトメトリー予測のためのグラフニューラルネットワークへの階層的生物前駆体注入
Injecting Hierarchical Biological Priors into Graph Neural Networks for Flow Cytometry Prediction ( http://arxiv.org/abs/2405.18507v4 ) ライセンス: Link先を確認 | Fatemeh Nassajian Mojarrad, Lorenzo Bini, Thomas Matthes, Stéphane Marchand-Maillet, | (参考訳) フローサイトメトリー(FC)データから得られた末梢血や骨髄などの血液学的サンプルの複雑な景観において、細胞レベルでの予測は深刻な課題を呈している。
本研究では、グラフニューラルネットワーク(GNN)に階層的な事前知識を注入して、表層セルデータの単一セルマルチクラス分類を行う。
データをグラフとして表現し,クラス間の階層的関係を符号化することにより,複数のGNNモデル,すなわちFCHC-GNNに適用可能な階層的プラグイン手法を提案する。
19人の異なる患者のコホートに対する大規模な実験により、階層的な生物学的制約を取り入れることによって、複数の指標においてパフォーマンスが著しく向上することが実証された。
提案手法は, 複雑な生物予測タスクにおける一般化向上のための構造的帰納バイアスの重要性を強調した。
In the complex landscape of hematologic samples such as peripheral blood or bone marrow derived from flow cytometry (FC) data, cell-level prediction presents profound challenges. This work explores injecting hierarchical prior knowledge into graph neural networks (GNNs) for single-cell multi-class classification of tabular cellular data. By representing the data as graphs and encoding hierarchical relationships between classes, we propose our hierarchical plug-in method to be applied to several GNN models, namely, FCHC-GNN, and effectively designed to capture neighborhood information crucial for single-cell FC domain. Extensive experiments on our cohort of 19 distinct patients, demonstrate that incorporating hierarchical biological constraints boosts performance significantly across multiple metrics compared to baseline GNNs without such priors. The proposed approach highlights the importance of structured inductive biases for gaining improved generalization in complex biological prediction tasks. | 翻訳日:2024-07-30 22:58:37 公開日:2024-07-27 |
# 言語・詩・合成IMUの統合表現による慣性ハンドベースHARの強化
Enhancing Inertial Hand based HAR through Joint Representation of Language, Pose and Synthetic IMUs ( http://arxiv.org/abs/2406.01316v2 ) ライセンス: Link先を確認 | Vitor Fortes Rey, Lala Shakti Swarup Ray, Xia Qingxin, Kaishun Wu, Paul Lukowicz, | (参考訳) HARにおけるラベル付きセンサデータの不足により、以前の研究はビデオデータを使用して慣性計測ユニット(IMU)データを合成し、リッチなアクティビティアノテーションを活用している。
しかし、ビデオからIMUデータを生成することは、合成IMUデータの質の悪さと微妙できめ細かな動きによるHARの課題を示す。
本稿では,制約データの問題に対処する新しいマルチモーダル,マルチタスク,コントラストベースのフレームワークであるMulti$3$Netを提案する。
オンラインレポジトリでは,テキスト,ポーズ,IMUの同時表現を同時に学習することを目的として,事前学習を行う。
ビデオデータとコントラスト学習を用いて、特に微妙な活動の認識においてウェアラブルHAR性能を向上させることを目指しており、我々の実験結果により、IMUデータを用いたHAR性能向上におけるアプローチの有効性が検証された。
提案手法は,ビデオから生成したIMUデータを用いて学習したモデルが,よりきめ細かい活動を認識するための既存手法を超越していることを示す。
Due to the scarcity of labeled sensor data in HAR, prior research has turned to video data to synthesize Inertial Measurement Units (IMU) data, capitalizing on its rich activity annotations. However, generating IMU data from videos presents challenges for HAR in real-world settings, attributed to the poor quality of synthetic IMU data and its limited efficacy in subtle, fine-grained motions. In this paper, we propose Multi$^3$Net, our novel multi-modal, multitask, and contrastive-based framework approach to address the issue of limited data. Our pretraining procedure uses videos from online repositories, aiming to learn joint representations of text, pose, and IMU simultaneously. By employing video data and contrastive learning, our method seeks to enhance wearable HAR performance, especially in recognizing subtle activities.Our experimental findings validate the effectiveness of our approach in improving HAR performance with IMU data. We demonstrate that models trained with synthetic IMU data generated from videos using our method surpass existing approaches in recognizing fine-grained activities. | 翻訳日:2024-07-30 22:58:37 公開日:2024-07-27 |
# K-12教育における学習・指導へのアンパック的アプローチ--透明性・倫理・デザイン活動
Unpacking Approaches to Learning and Teaching Machine Learning in K-12 Education: Transparency, Ethics, and Design Activities ( http://arxiv.org/abs/2406.03480v2 ) ライセンス: Link先を確認 | Luis Morales-Navarro, Yasmin B. Kafai, | (参考訳) 本稿では、人工知能/機械学習(AI/ML)教育に関する既存の文献をレビューし、機械学習の学習と教育を概念化するための3つのアプローチを特定する。
その1つは、データ駆動アプローチであり、若者にデータセットを作成し、トレーニングし、テストする機会を提供することを強調している。
アルゴリズム駆動学習の第2のアプローチは、機械学習モデルの背後にある学習アルゴリズムやエンジンの動作に関する学習を優先するものだ。
さらに,前2つを統合する第3のアプローチの取り組みも確認する。
本レビューでは,(1)MLの異なる側面のガラスボックスとブラックボックス,(2)学習者の興味に基づいて構築し,アプリケーション設計の機会を提供する,(3)倫理と正義を統合する,といったアプローチに注目した。
議論では、現在のアプローチの課題と機会に対処し、学習活動の設計に向けた今後の方向性を提案する。
In this conceptual paper, we review existing literature on artificial intelligence/machine learning (AI/ML) education to identify three approaches to how learning and teaching ML could be conceptualized. One of them, a data-driven approach, emphasizes providing young people with opportunities to create data sets, train, and test models. A second approach, learning algorithm-driven, prioritizes learning about how the learning algorithms or engines behind how ML models work. In addition, we identify efforts within a third approach that integrates the previous two. In our review, we focus on how the approaches: (1) glassbox and blackbox different aspects of ML, (2) build on learner interests and provide opportunities for designing applications, (3) integrate ethics and justice. In the discussion, we address the challenges and opportunities of current approaches and suggest future directions for the design of learning activities. | 翻訳日:2024-07-30 22:58:37 公開日:2024-07-27 |
# StableMaterials:セミスーパービジョンラーニングによる材料生成の多様性向上
StableMaterials: Enhancing Diversity in Material Generation via Semi-Supervised Learning ( http://arxiv.org/abs/2406.09293v2 ) ライセンス: Link先を確認 | Giuseppe Vecchio, | (参考訳) 本稿では,フォトリアリスティックな物理ベースレンダリング(PBR)素材を生成するための新しいアプローチであるStableMaterialsを紹介し,半教師付き学習とLDM(Latent Diffusion Models)を統合する。
提案手法では,既存の大規模画像生成モデルから知識を抽出し,注釈付きデータへの依存を最小限に抑え,生成の多様性を高めるために,逆行訓練を用いる。
この蒸留手法は、生成した材料の分布とSDXLモデルからのイメージテクスチャの分布を一致させ、初期トレーニングデータセットに存在しない新しい材料の生成を可能にする。
さらに,拡散型精細化モデルを用いて,試料の視覚的品質を向上し,高分解能な生成を実現する。
最後に、4段階の高速生成のための潜時整合モデルを蒸留し、拡散ステップの少ない視覚的アーティファクトを除去する新しいタイルビリティ手法を提案する。
既存の LDM フレームワークに半教師付きトレーニングを組み込んだ StableMaterials のアーキテクチャとトレーニングプロセスについて詳述するとともに,その利点について述べる。
State-of-the-artメソッドとの比較では、StableMaterialsの有効性が示され、コンピュータグラフィックスなどへの応用の可能性を強調している。
StableMaterialsはhttps://gvecchio.com/stable Materialsで公開されている。
We introduce StableMaterials, a novel approach for generating photorealistic physical-based rendering (PBR) materials that integrate semi-supervised learning with Latent Diffusion Models (LDMs). Our method employs adversarial training to distill knowledge from existing large-scale image generation models, minimizing the reliance on annotated data and enhancing the diversity in generation. This distillation approach aligns the distribution of the generated materials with that of image textures from an SDXL model, enabling the generation of novel materials that are not present in the initial training dataset. Furthermore, we employ a diffusion-based refiner model to improve the visual quality of the samples and achieve high-resolution generation. Finally, we distill a latent consistency model for fast generation in just four steps and propose a new tileability technique that removes visual artifacts typically associated with fewer diffusion steps. We detail the architecture and training process of StableMaterials, the integration of semi-supervised training within existing LDM frameworks and show the advantages of our approach. Comparative evaluations with state-of-the-art methods show the effectiveness of StableMaterials, highlighting its potential applications in computer graphics and beyond. StableMaterials is publicly available at https://gvecchio.com/stablematerials. | 翻訳日:2024-07-30 22:58:37 公開日:2024-07-27 |
# SQLFixAgent: 一貫性を強化したマルチエージェントコラボレーションによるセマンティックなテキストからSQLへのパーシングを目指す
SQLFixAgent: Towards Semantic-Accurate Text-to-SQL Parsing via Consistency-Enhanced Multi-Agent Collaboration ( http://arxiv.org/abs/2406.13408v2 ) ライセンス: Link先を確認 | Jipeng Cen, Jiaxin Liu, Zhixu Li, Jingjing Wang, | (参考訳) 微調整された大言語モデル(LLM)は、テキストからSQLへのパースにおいて文法的に有効なSQLを生成するのに優れていますが、クエリのセマンティックな正確性を保証するのに苦労し、ユーザの混乱とシステムのユーザビリティの低下につながります。
この課題に対処するために、誤ったSQLを検出し、修復するために設計された革新的なマルチエージェント協調フレームワークであるSQLFixAgentを紹介します。
私たちのフレームワークはコアエージェントであるSQLRefinerと、SQLReviewerとQueryCrafterの2つの補助エージェントで構成されています。
SQLReviewerエージェントは、ゴム製のアヒルデバッグメソッドを使用して、SQLステートメントとユーザクエリ間の潜在的なセマンティックミスマッチを特定する。
エラーが検出された場合、QueryCrafterエージェントは、微調整されたSQLToolを使用して、候補修正として複数のSQLステートメントを生成する。
その後、同様の修復検索と障害メモリのリフレクションを利用して、SQLRefinerエージェントは、候補から最も適したSQLステートメントを最終的な修復として選択する。
提案したフレームワークを5つのText-to-SQLベンチマークで評価した。
実験結果から,本手法はベースラインモデルの性能を継続的に向上し,特にBirdベンチマークの3倍以上の実行精度向上を実現していることがわかった。
当社のフレームワークは,他の高度なメソッドと比較してトークン効率も高く,競争力も向上しています。
While fine-tuned large language models (LLMs) excel in generating grammatically valid SQL in Text-to-SQL parsing, they often struggle to ensure semantic accuracy in queries, leading to user confusion and diminished system usability. To tackle this challenge, we introduce SQLFixAgent, an innovative multi-agent collaborative framework designed for detecting and repairing erroneous SQL. Our framework comprises a core agent, SQLRefiner, alongside two auxiliary agents: SQLReviewer and QueryCrafter. The SQLReviewer agent employs the rubber duck debugging method to identify potential semantic mismatches between SQL statement and user query. If the error is detected, the QueryCrafter agent generates multiple SQL statements as candidate repairs using a fine-tuned SQLTool. Subsequently, leveraging similar repair retrieval and failure memory reflexion, the SQLRefiner agent selects the most fitting SQL statement from the candidates as the final repair. We evaluated our proposed framework on five Text-to-SQL benchmarks. The experimental results show that our method consistently enhances the performance of the baseline model, specifically achieving an execution accuracy improvement of over 3\% on the Bird benchmark. Our framework also has a higher token efficiency compared to other advanced methods, making it more competitive. | 翻訳日:2024-07-30 22:48:36 公開日:2024-07-27 |
# CogErgLLM:認知エルゴノミクスを用いた大規模言語モデルシステム設計の展望
CogErgLLM: Exploring Large Language Model Systems Design Perspective Using Cognitive Ergonomics ( http://arxiv.org/abs/2407.02885v2 ) ライセンス: Link先を確認 | Azmine Toushik Wasi, | (参考訳) LLMと認知エルゴノミクスを統合することは、人間とAIの相互作用における安全性、信頼性、およびユーザ満足度を高めるために不可欠である。
現在のLLM設計では、この統合が欠如していることが多く、人間の認知能力や制限を完全に満たさないシステムにつながっている。
認知科学手法を取り入れることに十分な焦点が当てられると、LLM出力のバイアスが悪化する一方、ユーザ中心の設計原則の一貫性のない適用は、準最適ユーザー体験をもたらす。
これらの課題に対処するため,本論文では,認知人間工学の原則をLLM設計に重要な統合し,倫理的LLM開発のための包括的枠組みと実践的ガイドラインを提供することを目的としている。
我々の貢献を通じて、認知人間工学をLLMシステムに統合し、より安全で信頼性が高く倫理的に健全な人間とAIの相互作用を育むための理解と実践の促進を目指しています。
Integrating cognitive ergonomics with LLMs is essential for enhancing safety, reliability, and user satisfaction in human-AI interactions. Current LLM design often lacks this integration, leading to systems that may not fully align with human cognitive capabilities and limitations. Insufficient focus on incorporating cognitive science methods exacerbates biases in LLM outputs, while inconsistent application of user-centered design principles results in sub-optimal user experiences. To address these challenges, our position paper explores the critical integration of cognitive ergonomics principles into LLM design, aiming to provide a comprehensive framework and practical guidelines for ethical LLM development. Through our contributions, we seek to advance understanding and practice in integrating cognitive ergonomics into LLM systems, fostering safer, more reliable, and ethically sound human-AI interactions. | 翻訳日:2024-07-30 22:48:36 公開日:2024-07-27 |
# 線形量子適応制御のためのマルチタスク表現学習のレグレト解析
Regret Analysis of Multi-task Representation Learning for Linear-Quadratic Adaptive Control ( http://arxiv.org/abs/2407.05781v2 ) ライセンス: Link先を確認 | Bruce D. Lee, Leonardo F. Toso, Thomas T. Zhang, James Anderson, Nikolai Matni, | (参考訳) 表現学習(representation learning)は、すべてのエージェントが共有された学習機能のセットで操作するように強制することによって、多数のエージェントやドメインをまたがる学習を可能にする強力なツールである。
しかしながら、多くのロボティクスやコントロールアプリケーションは、環境や目標を変更する設定で動作しますが、ほとんどの保証は静的な設定で記述されます。
動的セッティングにおける表現学習の利点を厳格に確立するために、線形四元数制御のためのマルチタスク表現学習の後悔を分析した。
この設定にはユニークな課題が伴います。
まず、近似表現によって導入された$\textit{misspecification}$を考慮し、バランスをとる必要がある。
第2に、最小二乗がしばしば十分であるシングルタスクオンラインLQRのパラメータ更新スキームに頼ることができず、十分な改善を確保するために新しいスキームを考案する必要がある。
探索が"良"な設定の場合、$T$タイムステップ後のエージェントの後悔は、$\tilde O(\sqrt{T/H})$とスケールし、$H$はエージェントの数である。
d_x$ は状態空間次元、$d_u$ は入力次元、$d_\theta$ はタスク固有のパラメータカウントである。
どちらの場合も、minimax 単一タスクの後悔 $O(\sqrt{d_x d_u^2}\sqrt{T})$ と比較すると、多数のエージェントの利点が見られる。
特に、難しい調査ケースでは、タスク間で表現を共有することで、効果的なタスク固有のパラメータカウントを小さな$d_\theta < d_x d_u$にすることができる。
最後に,予測する傾向の数値検証を行う。
Representation learning is a powerful tool that enables learning over large multitudes of agents or domains by enforcing that all agents operate on a shared set of learned features. However, many robotics or controls applications that would benefit from collaboration operate in settings with changing environments and goals, whereas most guarantees for representation learning are stated for static settings. Toward rigorously establishing the benefit of representation learning in dynamic settings, we analyze the regret of multi-task representation learning for linear-quadratic control. This setting introduces unique challenges. Firstly, we must account for and balance the $\textit{misspecification}$ introduced by an approximate representation. Secondly, we cannot rely on the parameter update schemes of single-task online LQR, for which least-squares often suffices, and must devise a novel scheme to ensure sufficient improvement. We demonstrate that for settings where exploration is "benign", the regret of any agent after $T$ timesteps scales as $\tilde O(\sqrt{T/H})$, where $H$ is the number of agents. In settings with "difficult" exploration, the regret scales as $\tilde O(\sqrt{d_u d_\theta} \sqrt{T} + T^{3/4}/H^{1/5})$, where $d_x$ is the state-space dimension, $d_u$ is the input dimension, and $d_\theta$ is the task-specific parameter count. In both cases, by comparing to the minimax single-task regret $O(\sqrt{d_x d_u^2}\sqrt{T})$, we see a benefit of a large number of agents. Notably, in the difficult exploration case, by sharing a representation across tasks, the effective task-specific parameter count can often be small $d_\theta < d_x d_u$. Lastly, we provide numerical validation of the trends we predict. | 翻訳日:2024-07-30 20:51:41 公開日:2024-07-27 |
# デプロイにおけるディープニューラルネットワークの評価(比較と再現性の検討)
Evaluating Deep Neural Networks in Deployment (A Comparative and Replicability Study) ( http://arxiv.org/abs/2407.08730v2 ) ライセンス: Link先を確認 | Eduard Pinconschi, Divya Gopinath, Rui Abreu, Corina S. Pasareanu, | (参考訳) ディープニューラルネットワーク(DNN)は、安全クリティカルなアプリケーションでますます利用されているため、信頼性に対する懸念が高まっている。
高度に訓練された高性能ネットワークでさえ100%正確ではない。
しかし,本質的な真実を示さずに,展開中の行動を予測することは極めて困難である。
本稿では,DNNのデプロイメントにおける信頼性を評価するために提案されている最近のアプローチについて,比較と再現性について検討する。
複製パッケージ上でこれらのアプローチの結果を実行して再現することは困難であり、それ自身以外のアーティファクト上でも実行することがさらに困難であることに気付きました。
さらに、明確に定義された評価指標が欠如していることから、アプローチの有効性を比較することは困難である。
我々の研究コミュニティでは、安全クリティカルドメインにおけるニューラルネットワークの信頼性を評価するための音響技術を得るために、より多くの努力が必要であることを示唆している。
この目的のために,検討されたアプローチを取り入れた評価フレームワークを提供し,共通指標を用いて,共通ベンチマークの評価を可能にする。
As deep neural networks (DNNs) are increasingly used in safety-critical applications, there is a growing concern for their reliability. Even highly trained, high-performant networks are not 100% accurate. However, it is very difficult to predict their behavior during deployment without ground truth. In this paper, we provide a comparative and replicability study on recent approaches that have been proposed to evaluate the reliability of DNNs in deployment. We find that it is hard to run and reproduce the results for these approaches on their replication packages and even more difficult to run them on artifacts other than their own. Further, it is difficult to compare the effectiveness of the approaches, due to the lack of clearly defined evaluation metrics. Our results indicate that more effort is needed in our research community to obtain sound techniques for evaluating the reliability of neural networks in safety-critical domains. To this end, we contribute an evaluation framework that incorporates the considered approaches and enables evaluation on common benchmarks, using common metrics. | 翻訳日:2024-07-30 20:51:41 公開日:2024-07-27 |
# ボルツマン分布のアンバイアスサンプリング高速化のための流れの摂動
Flow Perturbation to Accelerate Unbiased Sampling of Boltzmann distribution ( http://arxiv.org/abs/2407.10666v2 ) ライセンス: Link先を確認 | Xin Peng, Ang Gao, | (参考訳) フローベース生成モデルはボルツマン分布のサンプリングに用いられているが、高次元システムへのそれらの適用は、流れのヤコビアンを得るための計算コストによって妨げられている。
この課題を克服するために、最適化された確率的摂動をフローに組み込んだ流れ摂動法を導入する。
摂動流によって生じる軌跡を再重み付けすることにより, ボルツマン分布の非バイアスサンプリングを, ジャコビアン計算とハッチンソン推定器の双方と比較して, 桁違いの速度アップで達成する。
特に、チグノリンタンパク質を全ての原子カルテシアン座標で正確にサンプリングし、我々の知る限り、ボルツマンが生成モデルを用いてこのような詳細にサンプリングした最大の分子である。
Flow-based generative models have been employed for sampling the Boltzmann distribution, but their application to high-dimensional systems is hindered by the significant computational cost of obtaining the Jacobian of the flow. To overcome this challenge, we introduce the flow perturbation method, which incorporates optimized stochastic perturbations into the flow. By reweighting trajectories generated by the perturbed flow, our method achieves unbiased sampling of the Boltzmann distribution with orders of magnitude speedup compared to both brute force Jacobian calculations and the Hutchinson estimator. Notably, it accurately sampled the Chignolin protein with all atomic Cartesian coordinates explicitly represented, which, to our best knowledge, is the largest molecule ever Boltzmann sampled in such detail using generative models. | 翻訳日:2024-07-30 20:41:58 公開日:2024-07-27 |
# 外因性変数を用いた機械学習によるLEOの高精度かつ効率的な軌道予測
Precise and Efficient Orbit Prediction in LEO with Machine Learning using Exogenous Variables ( http://arxiv.org/abs/2407.11026v2 ) ライセンス: Link先を確認 | Francisco Caldas, Cláudia Soares, | (参考訳) 地球の軌道における宇宙物体の量の増加は、宇宙状況認識(Space situational Awareness, SSA)にとって重要な課題である。
そして、特に正確な軌道予測は、衝突回避と宇宙ゴミの緩和のために、宇宙物体の位置と速度を予測するために不可欠である。
軌道予測(OP)を行う場合、大気抵抗や重力摂動といった非保守的な力の影響を考慮する必要がある。
SGP4のような従来のプロパゲータ手法ではこれらの力は不十分であり、数値プロパゲータは高い計算コストで力をモデル化することができる。
これらの制約に対処するために,機械学習を用いた軌道予測アルゴリズムを提案する。
このアルゴリズムは、過去の位置と外部からの大気密度のような環境変数を用いて、宇宙船の状態ベクトルを予測する。
論文で使用される軌道データは、ILRS(International Laser Ranging Service)の精密なエフェメリスデータから約1年間収集される。
機械学習と時系列技術を用いることで、非常に低い計算コストで低い位置決め誤差を発生させることで、より高速で信頼性の高い軌道決定を宇宙オブジェクト数の増加にもたらすことにより、SSA能力を大幅に向上させることができることを示す。
The increasing volume of space objects in Earth's orbit presents a significant challenge for Space Situational Awareness (SSA). And in particular, accurate orbit prediction is crucial to anticipate the position and velocity of space objects, for collision avoidance and space debris mitigation. When performing Orbit Prediction (OP), it is necessary to consider the impact of non-conservative forces, such as atmospheric drag and gravitational perturbations, that contribute to uncertainty around the future position of spacecraft and space debris alike. Conventional propagator methods like the SGP4 inadequately account for these forces, while numerical propagators are able to model the forces at a high computational cost. To address these limitations, we propose an orbit prediction algorithm utilizing machine learning. This algorithm forecasts state vectors on a spacecraft using past positions and environmental variables like atmospheric density from external sources. The orbital data used in the paper is gathered from precision ephemeris data from the International Laser Ranging Service (ILRS), for the period of almost a year. We show how the use of machine learning and time-series techniques can produce low positioning errors at a very low computational cost, thus significantly improving SSA capabilities by providing faster and reliable orbit determination for an ever increasing number of space objects. | 翻訳日:2024-07-30 20:41:58 公開日:2024-07-27 |
# 短時間ビデオ推薦における不確かさウォッチタイムの条件量子推定
Conditional Quantile Estimation for Uncertain Watch Time in Short-Video Recommendation ( http://arxiv.org/abs/2407.12223v2 ) ライセンス: Link先を確認 | Chengzhi Lin, Shuchang Liu, Chuyuan Wang, Yongqi Liu, | (参考訳) ウォッチタイムの正確な予測は、短いビデオプラットフォームにおける推奨事項とユーザーエクスペリエンスの最適化に不可欠である。
しかし、単一の平均時計時間を見積もる既存の方法は、ユーザエンゲージメントパターンの固有の不確実性や多様性を捉えるのに失敗することが多い。
本稿では,時計時間全体の条件分布をモデル化する条件量子推定(CQE)フレームワークを提案する。
量子回帰を用いて、CQEは、ユーザとビデオのペアごとに複雑なウォッチタイム分布を特徴付け、ユーザの振る舞いを理解するための柔軟で包括的なアプローチを提供する。
さらに、様々なレコメンデーションシナリオやユーザの好みに適応して、定量推定と組み合わせるための複数の戦略を設計します。
大規模なオフライン実験とオンラインA/Bテストは、ウォッチタイム予測とユーザエンゲージメントモデリングにおけるCQEの優位性を示している。
特に、KuaiShowにおけるCQEのオンライン展開は、アクティブデイ、アクティブユーザ、エンゲージメント期間、ビデオビュー数など、重要な評価指標を大幅に改善した。
これらの結果は,短いビデオレコメンデーションシステムのユーザエクスペリエンスと全体的なパフォーマンス向上における,提案手法の実践的影響を浮き彫りにしている。
コードは公開後に公開される。
Accurately predicting watch time is crucial for optimizing recommendations and user experience in short video platforms. However, existing methods that estimate a single average watch time often fail to capture the inherent uncertainty and diversity in user engagement patterns. In this paper, we propose the Conditional Quantile Estimation (CQE) framework to model the entire conditional distribution of watch time. Using quantile regression, CQE characterizes the complex watch-time distribution for each user-video pair, providing a flexible and comprehensive approach to understanding user behavior. We further design multiple strategies to combine the quantile estimates, adapting to different recommendation scenarios and user preferences. Extensive offline experiments and online A/B tests demonstrate the superiority of CQE in watch time prediction and user engagement modeling. In particular, the online deployment of CQE in KuaiShow has led to significant improvements in key evaluation metrics, including active days, active users, engagement duration, and video view counts. These results highlight the practical impact of our proposed approach in enhancing the user experience and overall performance of the short video recommendation system. The code will be released after publication. | 翻訳日:2024-07-30 20:41:58 公開日:2024-07-27 |
# オートメイトかアシストか?米国資本裁判における性談話の特定における計算モデルの役割
Automate or Assist? The Role of Computational Models in Identifying Gendered Discourse in US Capital Trial Transcripts ( http://arxiv.org/abs/2407.12500v2 ) ライセンス: Link先を確認 | Andrea W Wen-Yi, Kathryn Adamson, Nathalie Greenfield, Rachel Goldberg, Sandra Babcock, David Mimno, Allison Koenecke, | (参考訳) 米国の法廷弁護士が刑事裁判で用いた言語は、長い間偏見について研究されてきた。
しかし、偏見の微妙な性質と法的な専門性のために、高等法廷裁判における偏見に関する体系的な研究は困難であった。
大規模な言語モデルはアノテーションを自動化できる。
しかし、計算アプローチを検証するには、自動化されたメソッドが既存のアノテーションワークフローにどのように適合するかと、それらが本当に提供しているものの両方を理解する必要があります。
本稿では, 女性被告に対する米国資本裁判において, ジェンダーバイアス言語を同定する, 複雑かつ高精度な問題に, 計算モデルを加えるケーススタディを提案する。
まず、手動で注釈を付け、次に計算モデルのトレーニングと評価を行い、最後に専門家のアノテーションとモデル予測を比較しました。
多くの典型的なNLPタスクとは異なり、数ヶ月の資本裁判で性別バイアスに注釈を付けることは複雑であり、多くの個人による判断が要求される。
効率性とスケーラビリティに基づく自動化の標準的な議論とは対照的に、法の専門家は、アノテーションにおける自身のバイアスを反映し、アノテーションルールに基づいたコンセンサスを構築する機会を提供するのに、計算モデルが最も有用であると考えている。
この経験は、専門家を複雑なアノテーションの計算モデルに置き換えることが非現実的で望ましくないことを示唆している。
むしろ、計算モデルは、アノテーションに基づく研究で法の専門家を支援する貴重な機会を提供する。
The language used by US courtroom actors in criminal trials has long been studied for biases. However, systematic studies for bias in high-stakes court trials have been difficult, due to the nuanced nature of bias and the legal expertise required. Large language models offer the possibility to automate annotation. But validating the computational approach requires both an understanding of how automated methods fit in existing annotation workflows and what they really offer. We present a case study of adding a computational model to a complex and high-stakes problem: identifying gender-biased language in US capital trials for women defendants. Our team of experienced death-penalty lawyers and NLP technologists pursue a three-phase study: first annotating manually, then training and evaluating computational models, and finally comparing expert annotations to model predictions. Unlike many typical NLP tasks, annotating for gender bias in months-long capital trials is complicated, with many individual judgment calls. Contrary to standard arguments for automation that are based on efficiency and scalability, legal experts find the computational models most useful in providing opportunities to reflect on their own bias in annotation and to build consensus on annotation rules. This experience suggests that seeking to replace experts with computational models for complex annotation is both unrealistic and undesirable. Rather, computational models offer valuable opportunities to assist the legal experts in annotation-based studies. | 翻訳日:2024-07-30 20:41:58 公開日:2024-07-27 |
# エリート大学へのLCMのバイアス評価--ペルソナによる探究
Evaluation of LLMs Biases Towards Elite Universities: A Persona-Based Exploration ( http://arxiv.org/abs/2407.12801v3 ) ライセンス: Link先を確認 | Shailja Gupta, Rajesh Ranjan, | (参考訳) 本研究は,技術系専門職にペルソナを産み出す際に,一般のLLMがエリート大学に偏見を呈するかどうかを考察する。
我々は、GPT-3.5、Gemini、Claude 3 Sonnetの教育的背景予測とLinkedInの実際のデータを比較するために、新しいペルソナベースのアプローチを採用した。
この調査では、Microsoft、Meta、Googleのさまざまな役割に焦点が当てられ、製品担当副社長、エンジニアリングディレクタ、ソフトウェアエンジニアなどが含まれていた。
我々は3つのLSMで432のペルソナを生成し、LinkedInのデータと比較し、これらのペルソナの中でエリート大学(スタンフォード、MIT、UCバークレー、ハーバード大学)の頻度を分析した。
その結果、LLMはLinkedInのデータで8.56%しかなかったのに対し、これらの大学の72.45%を特徴とするエリート大学を著しく上回っていることがわかった。
ChatGPT 3.5は最も高いバイアスを示し、続いてClaude Sonnet 3が続いた。
この研究は、LLMにおける教育バイアスに対処する必要性を強調し、AIによる採用プロセスにおけるそのようなバイアスを軽減するための戦略を提案する。
This study investigates whether popular LLMs exhibit bias towards elite universities when generating personas for technology industry professionals. We employed a novel persona-based approach to compare the educational background predictions of GPT-3.5, Gemini, and Claude 3 Sonnet with actual data from LinkedIn. The study focused on various roles at Microsoft, Meta, and Google, including VP Product, Director of Engineering, and Software Engineer. We generated 432 personas across the three LLMs and analyzed the frequency of elite universities (Stanford, MIT, UC Berkeley, and Harvard) in these personas compared to LinkedIn data. Results showed that LLMs significantly overrepresented elite universities, featuring these universities 72.45% of the time, compared to only 8.56% in the actual LinkedIn data. ChatGPT 3.5 exhibited the highest bias, followed by Claude Sonnet 3, while Gemini performed best. This research highlights the need to address educational bias in LLMs and suggests strategies for mitigating such biases in AI-driven recruitment processes. | 翻訳日:2024-07-30 20:41:58 公開日:2024-07-27 |
# GANプライオリティのクローズアップ - モデル反転攻撃に対する中間機能の爆発的展開
A Closer Look at GAN Priors: Exploiting Intermediate Features for Enhanced Model Inversion Attacks ( http://arxiv.org/abs/2407.13863v3 ) ライセンス: Link先を確認 | Yixiang Qiu, Hao Fang, Hongyao Yu, Bin Chen, MeiKang Qiu, Shu-Tao Xia, | (参考訳) Model Inversion(MI)攻撃は、出力情報を利用することで、リリースされたモデルからプライバシーに敏感なトレーニングデータを再構築することを目的としており、Deep Neural Networks(DNN)のセキュリティに対する広範な懸念を提起している。
近年のGAN(Generative Adversarial Network)の進歩は,MI攻撃の性能向上に大きく寄与している。
しかし、以前のMI攻撃は、GANプリエントスペースの秘密情報のみを開示し、複数のターゲットモデルとデータセット間のセマンティック抽出と転送可能性を制限する。
この課題に対処するため、中間ブロック間の特徴を分解し、GAN構造を分解する中間特徴拡張生成モデル変換(IF-GMI)という新しい手法を提案する。
これにより、ラテントコードから表現能力を拡張した中間機能まで最適化スペースを拡張できます。
GAN先行画像が非現実的な画像を生成するのを防止するため、最適化プロセスにL1ボール制約を適用する。
複数のベンチマーク実験により,提案手法は従来の手法よりも大幅に優れており,特にアウト・オブ・ディストリビューション(OOD)のシナリオにおいて,様々な条件下での最先端の結果が得られることが示された。
私たちのコードは、https://github.com/final-solution/IF-GMIで利用可能です。
Model Inversion (MI) attacks aim to reconstruct privacy-sensitive training data from released models by utilizing output information, raising extensive concerns about the security of Deep Neural Networks (DNNs). Recent advances in generative adversarial networks (GANs) have contributed significantly to the improved performance of MI attacks due to their powerful ability to generate realistic images with high fidelity and appropriate semantics. However, previous MI attacks have solely disclosed private information in the latent space of GAN priors, limiting their semantic extraction and transferability across multiple target models and datasets. To address this challenge, we propose a novel method, Intermediate Features enhanced Generative Model Inversion (IF-GMI), which disassembles the GAN structure and exploits features between intermediate blocks. This allows us to extend the optimization space from latent code to intermediate features with enhanced expressive capabilities. To prevent GAN priors from generating unrealistic images, we apply a L1 ball constraint to the optimization process. Experiments on multiple benchmarks demonstrate that our method significantly outperforms previous approaches and achieves state-of-the-art results under various settings, especially in the out-of-distribution (OOD) scenario. Our code is available at: https://github.com/final-solution/IF-GMI | 翻訳日:2024-07-30 20:41:58 公開日:2024-07-27 |
# すべてのノイズが等しく生成されるわけではない:拡散雑音の選択と最適化
Not All Noises Are Created Equally:Diffusion Noise Selection and Optimization ( http://arxiv.org/abs/2407.14041v2 ) ライセンス: Link先を確認 | Zipeng Qi, Lichen Bai, Haoyi Xiong, Zeke Xie, | (参考訳) ランダムにサンプリングされたガウスノイズから高品質なデータを生成する拡散モデルは、学術と産業の両方において主要な生成方法となっている。
ランダムサンプリングされたガウス雑音は拡散モデルに等しく良いか?
多くの研究が拡散モデルを理解し、改善しようとしたが、以前の研究は、サンプルノイズを選択し、最適化し、拡散モデルを改善するためにサンプルノイズを選択し、最適化する可能性を見落としていた。
本稿では主に3つの貢献を行った。
まず、拡散モデルに対して全てのノイズが等しく生成されるわけではないことを報告する。
我々は,拡散モデルの生成品質が雑音の反転安定性に大きく依存する,という仮説と経験的考察を初めて行った。
これにより、反転安定性に応じたノイズ選択法が自然に提供される。
次に,任意の雑音の反転安定性を積極的に向上する新しい雑音最適化手法を提案する。
提案手法は, ノイズ空間に係わる最初の手法であり, 微調整拡散モデルを使わずに, 一般に発生する結果を改善する。
第3に,提案手法は,人間の嗜好や他の客観的評価指標の観点から,SDXLやSDXL-turboなどの代表拡散モデルを大幅に改善することを示す。
例えば、DrawBenchでは、ベースライン上でのノイズ選択とノイズ最適化の人間の選好勝利率は、それぞれ57%と72.5%である。
Diffusion models that can generate high-quality data from randomly sampled Gaussian noises have become the mainstream generative method in both academia and industry. Are randomly sampled Gaussian noises equally good for diffusion models? While a large body of works tried to understand and improve diffusion models, previous works overlooked the possibility to select or optimize the sampled noise the possibility of selecting or optimizing sampled noises for improving diffusion models. In this paper, we mainly made three contributions. First, we report that not all noises are created equally for diffusion models. We are the first to hypothesize and empirically observe that the generation quality of diffusion models significantly depend on the noise inversion stability. This naturally provides us a noise selection method according to the inversion stability. Second, we further propose a novel noise optimization method that actively enhances the inversion stability of arbitrary given noises. Our method is the first one that works on noise space to generally improve generated results without fine-tuning diffusion models. Third, our extensive experiments demonstrate that the proposed noise selection and noise optimization methods both significantly improve representative diffusion models, such as SDXL and SDXL-turbo, in terms of human preference and other objective evaluation metrics. For example, the human preference winning rates of noise selection and noise optimization over the baselines can be up to 57% and 72.5%, respectively, on DrawBench. | 翻訳日:2024-07-30 20:31:59 公開日:2024-07-27 |
# MetaAug: ポストトレーニング量子化のためのメタデータ拡張
MetaAug: Meta-Data Augmentation for Post-Training Quantization ( http://arxiv.org/abs/2407.14726v2 ) ライセンス: Link先を確認 | Cuong Pham, Hoang Anh Dung, Cuong C. Nguyen, Trung Le, Dinh Phung, Gustavo Carneiro, Thanh-Toan Do, | (参考訳) トレーニング後の量子化(PTQ)は、大規模なトレーニングセットへの完全なアクセスができない現実世界のアプリケーションではより実用的なフル精度モデルの定量化のために、小さなキャリブレーションデータのみを必要とするため、大きな注目を集めている。
しかし、これはしばしば小さなキャリブレーションデータセットに過度に適合する。
この問題に対処するためにいくつかの方法が提案されているが、量子化のためのキャリブレーションセットのみに依存しており、検証セットがないために量子化モデルを検証することができない。
本研究では,ポストトレーニング量子化の性能向上を目的としたメタラーニングに基づく新しい手法を提案する。
具体的には、従来のPTQのように学習過程における検証を行なわずに、元のキャリブレーションセットを用いて量子化モデルをトレーニングする代わりに、2つの異なる画像を用いて量子化モデルをトレーニングし、検証する。
特に,2段階最適化による変換ネットワークと量子化モデルを協調的に最適化するメタラーニング手法を提案する。
変換ネットワークは、元の校正データを修正し、修正されたデータをトレーニングセットとして使用し、量子化モデルが元の校正データに対して良好な性能を達成することを目標として量子化モデルを学習する。
ニューラルネットワークアーキテクチャの異なる、広く使われているImageNetデータセットに関する大規模な実験は、我々のアプローチが最先端のPTQ手法よりも優れていることを示している。
Post-Training Quantization (PTQ) has received significant attention because it requires only a small set of calibration data to quantize a full-precision model, which is more practical in real-world applications in which full access to a large training set is not available. However, it often leads to overfitting on the small calibration dataset. Several methods have been proposed to address this issue, yet they still rely on only the calibration set for the quantization and they do not validate the quantized model due to the lack of a validation set. In this work, we propose a novel meta-learning based approach to enhance the performance of post-training quantization. Specifically, to mitigate the overfitting problem, instead of only training the quantized model using the original calibration set without any validation during the learning process as in previous PTQ works, in our approach, we both train and validate the quantized model using two different sets of images. In particular, we propose a meta-learning based approach to jointly optimize a transformation network and a quantized model through bi-level optimization. The transformation network modifies the original calibration data and the modified data will be used as the training set to learn the quantized model with the objective that the quantized model achieves a good performance on the original calibration data. Extensive experiments on the widely used ImageNet dataset with different neural network architectures demonstrate that our approach outperforms the state-of-the-art PTQ methods. | 翻訳日:2024-07-30 20:31:59 公開日:2024-07-27 |
# RayFormer:Ray-Centric Strategiesによるクエリベースのマルチカメラ3Dオブジェクト検出の改善
RayFormer: Improving Query-Based Multi-Camera 3D Object Detection via Ray-Centric Strategies ( http://arxiv.org/abs/2407.14923v3 ) ライセンス: Link先を確認 | Xiaomeng Chu, Jiajun Deng, Guoliang You, Yifan Duan, Yao Li, Yanyong Zhang, | (参考訳) 近年のクエリベースのマルチカメラ3Dオブジェクト検出の進歩は,オブジェクトクエリを3次元空間で初期化し,視点画像から特徴を抽出してマルチラウンドクエリ精細化を行うことによって特徴付けられる。
このようなフレームワークでは、同じカメラ線に近いクエリポイントは、非常に近いピクセルから同様の特徴をサンプリングし、あいまいなクエリ特徴と劣化検出精度をもたらす。
この目的のために、カメラにインスパイアされたクエリに基づく3Dオブジェクト検出器であるRayFormerを導入し、カメラの光学特性とオブジェクトクエリの初期化と特徴抽出を一致させる。
具体的には、RayFormerは、視線画像の特徴をリフトスプラット撮影法により鳥の目視(BEV)に変換し、カメラ線に基づいてBEVマップをセクターに分割する。
オブジェクトクエリは、各カメラ線に沿って、均一かつ疎結合に初期化され、画像内の異なる領域への異なるクエリの投影を容易にし、異なる特徴を抽出する。
さらに、画像のインスタンス情報を利用して、一様に初期化されたオブジェクトクエリを補う。
異なるクエリに適合するユニークなオブジェクトレベルの特徴を抽出するために,画像と鳥の視線の両方に特徴サンプリング点の分布を適切に整理するレイサンプリング法を設計する。
提案したレイインスパイアモデル設計を検証するため, nuScenesデータセット上で大規模な実験を行った。
提案されたRayFormerは、それぞれ55.5%のmAPと63.3%のNDSを達成している。
私たちのコードは利用可能になります。
The recent advances in query-based multi-camera 3D object detection are featured by initializing object queries in the 3D space, and then sampling features from perspective-view images to perform multi-round query refinement. In such a framework, query points near the same camera ray are likely to sample similar features from very close pixels, resulting in ambiguous query features and degraded detection accuracy. To this end, we introduce RayFormer, a camera-ray-inspired query-based 3D object detector that aligns the initialization and feature extraction of object queries with the optical characteristics of cameras. Specifically, RayFormer transforms perspective-view image features into bird's eye view (BEV) via the lift-splat-shoot method and segments the BEV map to sectors based on the camera rays. Object queries are uniformly and sparsely initialized along each camera ray, facilitating the projection of different queries onto different areas in the image to extract distinct features. Besides, we leverage the instance information of images to supplement the uniformly initialized object queries by further involving additional queries along the ray from 2D object detection boxes. To extract unique object-level features that cater to distinct queries, we design a ray sampling method that suitably organizes the distribution of feature sampling points on both images and bird's eye view. Extensive experiments are conducted on the nuScenes dataset to validate our proposed ray-inspired model design. The proposed RayFormer achieves 55.5% mAP and 63.3% NDS, respectively. Our codes will be made available. | 翻訳日:2024-07-30 20:31:59 公開日:2024-07-27 |
# 知識グラフ埋め込みとディープラーニングを組み合わせた逆薬物反応予測モデルに関する研究
Research on Adverse Drug Reaction Prediction Model Combining Knowledge Graph Embedding and Deep Learning ( http://arxiv.org/abs/2407.16715v2 ) ライセンス: Link先を確認 | Yufeng Li, Wenchao Zhao, Bo Dang, Xu Yan, Weimin Wang, Min Gao, Mingxuan Xiao, | (参考訳) 臨床治療において、薬物の潜在的な副作用を特定することは、医師が薬物決定を行うのを助けるのに役立つ。
本研究は, 薬物の有害反応ごとに独立予測モデルを構築し, 予測精度が低く, 知識グラフの埋め込みと深層学習に基づく有害薬物反応予測モデルを構築し, 実験結果の予測を行う。
有害薬物反応の統一予測が適用された。
知識グラフ埋め込み技術は、薬物間の関連情報を融合し、特徴行列における高次元空間の欠点を軽減することができ、ディープラーニングの効率的なトレーニング能力はモデルの予測精度を向上させることができる。
本稿では, 薬物特徴データに基づく有害薬物反応知識グラフを構築し, 異なる埋め込み戦略下での知識グラフの埋め込み効果を解析することにより, 最良の埋め込み戦略を選択し, サンプルベクターを得る。
その結果、DistMult埋め込みモデルと400次元埋め込み戦略の下では、畳み込みニューラルネットワークモデルが最も優れた予測効果を有することが明らかとなった。
得られた予測モデルは、予測精度と安定性が良好であり、後続の安全な薬剤指導のための効果的な基準を提供することができる。
In clinical treatment, identifying potential adverse reactions of drugs can help assist doctors in making medication decisions. In response to the problems in previous studies that features are high-dimensional and sparse, independent prediction models need to be constructed for each adverse reaction of drugs, and the prediction accuracy is low, this paper develops an adverse drug reaction prediction model based on knowledge graph embedding and deep learning, which can predict experimental results. Unified prediction of adverse drug reactions covered. Knowledge graph embedding technology can fuse the associated information between drugs and alleviate the shortcomings of high-dimensional sparsity in feature matrices, and the efficient training capabilities of deep learning can improve the prediction accuracy of the model. This article builds an adverse drug reaction knowledge graph based on drug feature data; by analyzing the embedding effect of the knowledge graph under different embedding strategies, the best embedding strategy is selected to obtain sample vectors; and then a convolutional neural network model is constructed to predict adverse reactions. The results show that under the DistMult embedding model and 400-dimensional embedding strategy, the convolutional neural network model has the best prediction effect; the average accuracy, F_1 score, recall rate and area under the curve of repeated experiments are better than the methods reported in the literature. The obtained prediction model has good prediction accuracy and stability, and can provide an effective reference for later safe medication guidance. | 翻訳日:2024-07-30 20:31:59 公開日:2024-07-27 |
# 神経科学にインスパイアされたニューラルバーデン(動画)
Exploring The Neural Burden In Pruned Models: An Insight Inspired By Neuroscience ( http://arxiv.org/abs/2407.16716v2 ) ライセンス: Link先を確認 | Zeyu Wang, Weichen Dai, Xiangyu Zhou, Ji Qi, Yi Zhou, | (参考訳) Vision Transformerとその変種は多くの視覚的タスクで採用されている。
その結果、近年、研究者は様々な圧縮手法を導入しており、そのうちの1つは、ネットワークのかなりの部分を取り除くために広く使われているプルーニング技術である。
したがって、これらの手法はFLOPのかなりの割合を削減できるが、しばしばモデル性能の低下につながる。
根本原因を解明するために, 刈り込み訓練カテゴリーに属する刈り込み手法に着目し, 神経科学のインスピレーションを得て, ニューラルバーデンと呼ばれるニューラルニューラルネットワークモデルの新しい概念を提案する。
モデル刈り込みプロセスにおけるその影響について検討し、その後、モデル性能の低下を緩和するための単純かつ効果的なアプローチを探索し、任意の刈り取り訓練技術に適用することができる。
広汎な実験により,神経負担現象が実際に存在し,本手法の可能性を示唆した。
私たちの発見が将来の研究に貴重な洞察を与えてくれることを願っています。
この論文が公開された後、コードは公開されます。
Vision Transformer and its variants have been adopted in many visual tasks due to their powerful capabilities, which also bring significant challenges in computation and storage. Consequently, researchers have introduced various compression methods in recent years, among which the pruning techniques are widely used to remove a significant fraction of the network. Therefore, these methods can reduce significant percent of the FLOPs, but often lead to a decrease in model performance. To investigate the underlying causes, we focus on the pruning methods specifically belonging to the pruning-during-training category, then drew inspiration from neuroscience and propose a new concept for artificial neural network models named Neural Burden. We investigate its impact in the model pruning process, and subsequently explore a simple yet effective approach to mitigate the decline in model performance, which can be applied to any pruning-during-training technique. Extensive experiments indicate that the neural burden phenomenon indeed exists, and show the potential of our method. We hope that our findings can provide valuable insights for future research. Code will be made publicly available after this paper is published. | 翻訳日:2024-07-30 20:31:59 公開日:2024-07-27 |
# AI緊急準備:政府によるAI関連の国家安全保障脅威の検出と対応能力の検討
AI Emergency Preparedness: Examining the federal government's ability to detect and respond to AI-related national security threats ( http://arxiv.org/abs/2407.17347v2 ) ライセンス: Link先を確認 | Akash Wasil, Everett Smith, Corin Katzke, Justin Bullock, | (参考訳) 我々は、連邦政府がAIの緊急準備をいかに強化できるかを検討する。AIに関連する、時間に敏感な国家安全保障脅威を検知し、準備する能力。
緊急準備は、AIの進捗を監視し予測し、国家安全保障上の脅威を特定し、妥当な脅威と最悪のシナリオに対する効果的な対応計画を準備する政府の能力を改善することができる。
我々のアプローチは、専門家が正確な性質やタイミング(テロ対策、サイバーセキュリティ、パンデミックの準備など)について不確実性にもかかわらず脅威に備える分野から導かれる。
我々は,(1)コントロールの喪失(人間のコントロールを逃れることのできる強力なAIシステムからの脅威)(2)悪意あるアクター(強力なAIシステムのモデル重みを盗む外国人アクターからの脅威),(3)生物兵器の拡散(生物兵器を開発するために,一般公開されたモデルの安全を守る方法を特定するユーザからの脅威)の3つの有効なリスクシナリオに焦点を当てる。
そして、潜在的なギャップを強調し、緊急準備を改善するためのレコメンデーションを提供します。
我々は、AI緊急準備の今後の取り組みが、政策立案者のリスクシナリオ理解の改善、検出能力のギャップの特定、そしてAI関連の国家安全保障脅威に対する連邦政府の対応の有効性向上のための準備計画の策定にどのように適用できるかを説明することで締めくくった。
We examine how the federal government can enhance its AI emergency preparedness: the ability to detect and prepare for time-sensitive national security threats relating to AI. Emergency preparedness can improve the government's ability to monitor and predict AI progress, identify national security threats, and prepare effective response plans for plausible threats and worst-case scenarios. Our approach draws from fields in which experts prepare for threats despite uncertainty about their exact nature or timing (e.g., counterterrorism, cybersecurity, pandemic preparedness). We focus on three plausible risk scenarios: (1) loss of control (threats from a powerful AI system that becomes capable of escaping human control), (2) cybersecurity threats from malicious actors (threats from a foreign actor that steals the model weights of a powerful AI system), and (3) biological weapons proliferation (threats from users identifying a way to circumvent the safeguards of a publicly-released model in order to develop biological weapons.) We evaluate the federal government's ability to detect, prevent, and respond to these threats. Then, we highlight potential gaps and offer recommendations to improve emergency preparedness. We conclude by describing how future work on AI emergency preparedness can be applied to improve policymakers' understanding of risk scenarios, identify gaps in detection capabilities, and form preparedness plans to improve the effectiveness of federal responses to AI-related national security threats. | 翻訳日:2024-07-30 20:22:03 公開日:2024-07-27 |
# マルチストラテジー最適化による正のテキストリフレーミング
Positive Text Reframing under Multi-strategy Optimization ( http://arxiv.org/abs/2407.17940v2 ) ライセンス: Link先を確認 | Shutong Jia, Biwei Cao, Qingqing Gao, Jiuxin Cao, Bo Liu, | (参考訳) 感情伝達から逸脱したポジティブリフレーミングは、本来の意味を保ちながら、ネガティブな視点をポジティブな表現に置き換えようとしている。
プレトレーニング言語モデル (PLM) の出現により, PLM を微調整することで, 許容可能な結果が得られる。
それでも、流動的で多様なタスク制約のあるリフレーミングテキストを生成することは大きな課題である。
この問題に対処するため,本稿では,textbf{m}ulti-\textbf{s}trategy \textbf{o}ptimization \textbf{f}ramework (MSOF)を提案する。
ポジティブリフレーミングの目的から、まずポジティブな感情報酬とコンテンツ保存報酬を設計し、セマンティクスの整合性と整合性を確保しつつ、原文のネガティブな表現を変換するようモデルに促す。
そして、テキスト生成の品質を向上させるために、異なる復号最適化手法を導入する。
最後に、ポジティブリフレーミングのモデル化式に基づいて、戦略整合性、テキスト類似性、流布性の3次元から候補文を更に選択する多次元リグレード手法を提案する。
2つのSeq2Seq PLM(BARTとT5)の大規模な実験により、我々のフレームワークは、制約なしおよび制御されたポジティブリフレーミングタスクにおいて、大幅な改善を達成できることを示した。
Differing from sentiment transfer, positive reframing seeks to substitute negative perspectives with positive expressions while preserving the original meaning. With the emergence of pre-trained language models (PLMs), it is possible to achieve acceptable results by fine-tuning PLMs. Nevertheless, generating fluent, diverse and task-constrained reframing text remains a significant challenge. To tackle this issue, a \textbf{m}ulti-\textbf{s}trategy \textbf{o}ptimization \textbf{f}ramework (MSOF) is proposed in this paper. Starting from the objective of positive reframing, we first design positive sentiment reward and content preservation reward to encourage the model to transform the negative expressions of the original text while ensuring the integrity and consistency of the semantics. Then, different decoding optimization approaches are introduced to improve the quality of text generation. Finally, based on the modeling formula of positive reframing, we propose a multi-dimensional re-ranking method that further selects candidate sentences from three dimensions: strategy consistency, text similarity and fluency. Extensive experiments on two Seq2Seq PLMs, BART and T5, demonstrate our framework achieves significant improvements on unconstrained and controlled positive reframing tasks. | 翻訳日:2024-07-30 20:22:03 公開日:2024-07-27 |
# マルチエキスパート適応選択:オールインワン画像復元のためのタスクバランシング
Multi-Expert Adaptive Selection: Task-Balancing for All-in-One Image Restoration ( http://arxiv.org/abs/2407.19139v1 ) ライセンス: Link先を確認 | Xiaoyan Yu, Shen Zhou, Huafeng Li, Liehuang Zhu, | (参考訳) マルチタスク画像復元を実現するための単一の画像復元フレームワークの使用は、研究者から大きな注目を集めている。
しかし、異なるタスクの具体的かつ同時的な要求を満たすこと、タスク間の関係のバランスをとること、モデル設計におけるタスク相関を効果的に活用することなど、いくつかの実践的な課題が残っている。
これらの課題に対処するために,マルチエキスパート適応選択機構について検討する。
画像の低周波・高周波成分を含む画素チャネルレベルとグローバルレベルの両方を考慮した特徴表現法を設計することから始める。
この方法に基づいて,マルチエキスパートの選択とアンサンブルのスキームを構築する。
このスキームは、入力画像の内容と現在のタスクのプロンプトに応じて、エキスパートライブラリから最も適した専門家を適応的に選択する。
異なるタスクの個別のニーズを満たすだけでなく、タスク間のバランスと最適化も達成します。
専門家を共有することで、我々の設計は異なるタスク間の相互接続を促進し、全体的なパフォーマンスと資源利用を向上させる。
さらに、このマルチエキスパート機構は、無関係の専門家を効果的に排除し、それらからの干渉を低減し、画像復元の有効性と精度をさらに向上させる。
実験により,提案手法は既存手法よりも効果的かつ優れたものであり,マルチタスク画像復元の実用化の可能性を強調した。
The use of a single image restoration framework to achieve multi-task image restoration has garnered significant attention from researchers. However, several practical challenges remain, including meeting the specific and simultaneous demands of different tasks, balancing relationships between tasks, and effectively utilizing task correlations in model design. To address these challenges, this paper explores a multi-expert adaptive selection mechanism. We begin by designing a feature representation method that accounts for both the pixel channel level and the global level, encompassing low-frequency and high-frequency components of the image. Based on this method, we construct a multi-expert selection and ensemble scheme. This scheme adaptively selects the most suitable expert from the expert library according to the content of the input image and the prompts of the current task. It not only meets the individualized needs of different tasks but also achieves balance and optimization across tasks. By sharing experts, our design promotes interconnections between different tasks, thereby enhancing overall performance and resource utilization. Additionally, the multi-expert mechanism effectively eliminates irrelevant experts, reducing interference from them and further improving the effectiveness and accuracy of image restoration. Experimental results demonstrate that our proposed method is both effective and superior to existing approaches, highlighting its potential for practical applications in multi-task image restoration. | 翻訳日:2024-07-30 19:40:49 公開日:2024-07-27 |
# タスク一般化のための画素ベースの階層的ポリシーの利点について
On the benefits of pixel-based hierarchical policies for task generalization ( http://arxiv.org/abs/2407.19142v1 ) ライセンス: Link先を確認 | Tudor Cristea-Platon, Bogdan Mazoure, Josh Susskind, Walter Talbott, | (参考訳) 強化学習実践者は、特に画像に基づく観察空間において、階層的な政策を避けることが多い。
通常、フラットなポリティクスに対するシングルタスクのパフォーマンス改善は、階層の実装に伴う追加の複雑さを正当化するものではない。
しかし、複数の意思決定レベルを導入することで、階層的なポリシは、タスク間のより効率的な一般化のための下位レベルのポリシを構成することができ、マルチタスク評価の必要性を強調します。
画素からのマルチタスクロボット制御実験により階層構造の利点を解析する。
この結果から,(1)訓練作業におけるパフォーマンスの向上,(2)同様のタスクにおける報酬や状態空間の一般化の促進,(3)新しいタスクの解決に必要な微調整の複雑さの低減が期待できることがわかった。
そこで我々は,タスク間の一般化が可能な強化学習アーキテクチャを構築する際に,階層的な政策を考えるべきであると考えている。
Reinforcement learning practitioners often avoid hierarchical policies, especially in image-based observation spaces. Typically, the single-task performance improvement over flat-policy counterparts does not justify the additional complexity associated with implementing a hierarchy. However, by introducing multiple decision-making levels, hierarchical policies can compose lower-level policies to more effectively generalize between tasks, highlighting the need for multi-task evaluations. We analyze the benefits of hierarchy through simulated multi-task robotic control experiments from pixels. Our results show that hierarchical policies trained with task conditioning can (1) increase performance on training tasks, (2) lead to improved reward and state-space generalizations in similar tasks, and (3) decrease the complexity of fine tuning required to solve novel tasks. Thus, we believe that hierarchical policies should be considered when building reinforcement learning architectures capable of generalizing between tasks. | 翻訳日:2024-07-30 19:40:49 公開日:2024-07-27 |
# 実用的な量子プライベートクエリにおけるユーザプライバシのリアルタイム保護の再検討
Reexamination of the realtime protection for user privacy in practical quantum private query ( http://arxiv.org/abs/2407.19147v1 ) ライセンス: Link先を確認 | Chun-Yan Wei, Xiao-Qiu Cai, Tian-Yin Wang, | (参考訳) 量子プライベートクエリ(QPQ)は、対称プライベート検索のための量子バージョンである。
しかしながら、QPQのユーザプライバシは一般的に、非リアルタイムで不正なセンシティブな方法で保護されている。
すなわち、ユーザプライバシを引き出す不正なデータベース保持者の不正行為は、プロトコルが完了した後にしか発見できない(ユーザが取得したデータベース項目にエラーを見つけた場合)。
このような遅延検出は、実際のアプリケーションでユーザにとって非常に不快な結果をもたらす可能性がある。
既存のQPQプロトコルでは、ユーザプライバシをリアルタイムで保護するための現在の取り組みは、主に2つのテクニックを使用する。
これらの2種類のQPQプロトコルを再検討し、どちらもうまく機能しないことを見つけます。
両参加者に具体的な不正行為戦略を与え、例えば、クビットチェックの選択などにおいて、内部参加者の正直なチェックをより慎重に扱うべきであることを示す。
このような議論は、量子マルチパーティセキュアな計算において不適切な参加者の検出が考慮されている場合に、新たな懸念をもたらすことを願っている。
Quantum private query (QPQ) is the quantum version for symmetrically private retrieval. However, the user privacy in QPQ is generally guarded in the non-realtime and cheat sensitive way. That is, the dishonest database holder's cheating to elicit user privacy can only be discovered after the protocol is finished (when the user finds some errors in the retrieved database item). Such delayed detection may cause very unpleasant results for the user in real-life applications. Current efforts to protect user privacy in realtime in existing QPQ protocols mainly use two techniques, i.e., adding an honesty checking on the database or allowing the user to reorder the qubits. We reexamine these two kinds of QPQ protocols and find neither of them can work well. We give concrete cheating strategies for both participants and show that honesty checking of inner participant should be dealt more carefully in for example the choosing of checking qubits. We hope such discussion can supply new concerns when detection of dishonest participant is considered in quantum multi-party secure computations. | 翻訳日:2024-07-30 19:40:49 公開日:2024-07-27 |
# 大カーネル留置を伴うFew-Shot型医用画像分割
Few-Shot Medical Image Segmentation with Large Kernel Attention ( http://arxiv.org/abs/2407.19148v1 ) ライセンス: Link先を確認 | Xiaoxiao Wu, Xiaowei Chen, Zhenguo Gao, Shulei Qu, Yuanyuan Qiu, | (参考訳) 医用画像のセグメンテーションは、深層学習の出現とともに大きな進歩をみせた。
しかし、多くのニューラルネットワークモデルが大量の注釈付きデータに依存していることは、医療画像セグメンテーションの課題である。
この問題に対処するために,メタラーニングに基づく少数ショットセグメンテーション手法が採用されている。
現在,提案手法は,パフォーマンス向上のためにサポートセットとクエリセットの整合性に重点を置いているが,このアプローチはモデルの有効性のさらなる向上を妨げている。
本研究の目的は,局所的特徴と長距離的特徴の両方をキャプチャしてセグメント化の精度を高めるため,包括的特徴表現能力を持つ数発の医用セグメンテーションモデルを提案することである。
そこで我々は,クエリ機能とサポート機能の両方を動的に拡張し,抽出した特徴の表現性を向上するプラグイン・アンド・プレイアテンション・モジュールを提案する。
本モデルは,2経路特徴抽出器,アテンションモジュール,適応型プロトタイプ予測モジュール,マルチスケール予測融合モジュールの4つの重要なモジュールから構成される。
具体的には、デュアルパス特徴抽出器は、32{\times}32サイズと64{\times}64サイズの特徴を得ることにより、マルチスケール特徴を取得する。
注目モジュールは特徴抽出器に従い、ローカルおよび長距離情報をキャプチャする。
適応型プロトタイプ予測モジュールは、異常スコア閾値を自動的に調整してプロトタイプを予測し、マルチスケール融合予測モジュールは様々なスケールの予測マスクを統合して最終セグメンテーション結果を生成する。
我々は、CHAOSとCMRの公開MRIデータセットの実験を行い、この手法を他の高度な手法と比較した。
その結果,本手法が最先端性能を実現することを示す。
Medical image segmentation has witnessed significant advancements with the emergence of deep learning. However, the reliance of most neural network models on a substantial amount of annotated data remains a challenge for medical image segmentation. To address this issue, few-shot segmentation methods based on meta-learning have been employed. Presently, the methods primarily focus on aligning the support set and query set to enhance performance, but this approach hinders further improvement of the model's effectiveness. In this paper, our objective is to propose a few-shot medical segmentation model that acquire comprehensive feature representation capabilities, which will boost segmentation accuracy by capturing both local and long-range features. To achieve this, we introduce a plug-and-play attention module that dynamically enhances both query and support features, thereby improving the representativeness of the extracted features. Our model comprises four key modules: a dual-path feature extractor, an attention module, an adaptive prototype prediction module, and a multi-scale prediction fusion module. Specifically, the dual-path feature extractor acquires multi-scale features by obtaining features of 32{\times}32 size and 64{\times}64 size. The attention module follows the feature extractor and captures local and long-range information. The adaptive prototype prediction module automatically adjusts the anomaly score threshold to predict prototypes, while the multi-scale fusion prediction module integrates prediction masks of various scales to produce the final segmentation result. We conducted experiments on publicly available MRI datasets, namely CHAOS and CMR, and compared our method with other advanced techniques. The results demonstrate that our method achieves state-of-the-art performance. | 翻訳日:2024-07-30 19:40:49 公開日:2024-07-27 |
# ディープラーニングを用いたマルウェア検出の実態調査
A Survey of Malware Detection Using Deep Learning ( http://arxiv.org/abs/2407.19153v1 ) ライセンス: Link先を確認 | Ahmed Bensaoud, Jugal Kalita, Mahmoud Bensaoud, | (参考訳) 悪意のあるソフトウェア(マルウェア)の検出と分類の問題は複雑な作業であり、完璧なアプローチは存在しない。
まだやるべきことがたくさんある。
他のほとんどの研究分野とは異なり、標準的なベンチマークはマルウェア検出では見つからない。
本研究の目的は,テキストおよび画像分類におけるDLの調査,マルウェア検出のための事前学習およびマルチタスク学習モデルの利用,および標準ベンチマークデータセットが得られた場合の最善のアプローチについて,MacOS,Windows,iOS,Android,Linuxにおけるマルウェア検出の最近の進歩について検討することである。
本稿では,これらのDL分類器の有効性と,その決定と動作を説明可能な機械学習 (XAI) プログラムや解釈可能な機械学習 (IML) プログラムを使用する必要性を示すDL開発者に説明できないことによる,DL分類器を用いたマルウェア検出の課題と課題について論じる。
さらに、敵対的攻撃がディープラーニングモデルに与える影響について論じ、その一般化能力に悪影響を及ぼし、その結果、目に見えないデータに性能が低下する。
私たちは、さまざまなマルウェアデータセット上で、現在の最先端のディープラーニングモデルの有効性と効率をトレーニングし、テストする必要があると信じています。
各種データセットに対する8つの一般的なDLアプローチについて検討する。
この調査は、研究者がディープラーニングを用いてマルウェア認識の一般的な理解を深めるのに役立つだろう。
The problem of malicious software (malware) detection and classification is a complex task, and there is no perfect approach. There is still a lot of work to be done. Unlike most other research areas, standard benchmarks are difficult to find for malware detection. This paper aims to investigate recent advances in malware detection on MacOS, Windows, iOS, Android, and Linux using deep learning (DL) by investigating DL in text and image classification, the use of pre-trained and multi-task learning models for malware detection approaches to obtain high accuracy and which the best approach if we have a standard benchmark dataset. We discuss the issues and the challenges in malware detection using DL classifiers by reviewing the effectiveness of these DL classifiers and their inability to explain their decisions and actions to DL developers presenting the need to use Explainable Machine Learning (XAI) or Interpretable Machine Learning (IML) programs. Additionally, we discuss the impact of adversarial attacks on deep learning models, negatively affecting their generalization capabilities and resulting in poor performance on unseen data. We believe there is a need to train and test the effectiveness and efficiency of the current state-of-the-art deep learning models on different malware datasets. We examine eight popular DL approaches on various datasets. This survey will help researchers develop a general understanding of malware recognition using deep learning. | 翻訳日:2024-07-30 19:40:49 公開日:2024-07-27 |
# RePLAy: エピポーラ幾何学の爆発による投影型LiDARデプスマップアーティファクトの除去
RePLAy: Remove Projective LiDAR Depthmap Artifacts via Exploiting Epipolar Geometry ( http://arxiv.org/abs/2407.19154v1 ) ライセンス: Link先を確認 | Shengjie Zhu, Girish Chandar Ganesan, Abhinav Kumar, Xiaoming Liu, | (参考訳) 3Dセンシングは自動運転車の基本課題である。
配置はRGBカメラとLiDARに依存していることが多い。
厳密な同期と校正にもかかわらず、体系的な不整合はLiDARの射影深度マップに持続する。
これは2つのセンサー間の物理的なベースライン距離が原因である。
このアーティファクトは、車や歩行者などの前景に誤って投影された背景のLiDARとしてしばしば反映される。
KITTIデータセットは、アーティファクトを削除するためのヒューリスティックソリューションとしてステレオカメラを使用する。
しかし、nuScenes、Waymo、DDADを含むほとんどのAVデータセットにはステレオイメージが欠けており、KITTIソリューションが適用できない。
射影アーティファクトを除去するためのパラメータフリー解析ソリューションであるRePLAyを提案する。
仮想LiDARカメラとRGBカメラの両眼視システムを構築する。
次に, 提案した解析解を用いて, エピポーラ閉包を決定することにより, 射影アーティファクトを除去する。
人工物不要深度マップを用いたモノクル深度推定器と3次元物体検出器において,一様改善が認められた。
3D sensing is a fundamental task for Autonomous Vehicles. Its deployment often relies on aligned RGB cameras and LiDAR. Despite meticulous synchronization and calibration, systematic misalignment persists in LiDAR projected depthmap. This is due to the physical baseline distance between the two sensors. The artifact is often reflected as background LiDAR incorrectly projected onto the foreground, such as cars and pedestrians. The KITTI dataset uses stereo cameras as a heuristic solution to remove artifacts. However most AV datasets, including nuScenes, Waymo, and DDAD, lack stereo images, making the KITTI solution inapplicable. We propose RePLAy, a parameter-free analytical solution to remove the projective artifacts. We construct a binocular vision system between a hypothesized virtual LiDAR camera and the RGB camera. We then remove the projective artifacts by determining the epipolar occlusion with the proposed analytical solution. We show unanimous improvement in the State-of-The-Art (SoTA) monocular depth estimators and 3D object detectors with the artifacts-free depthmaps. | 翻訳日:2024-07-30 19:31:05 公開日:2024-07-27 |
# トラスト型サロゲートオブジェクトによるデバイアスドグラフの攻撃
Debiased Graph Poisoning Attack via Contrastive Surrogate Objective ( http://arxiv.org/abs/2407.19155v1 ) ライセンス: Link先を確認 | Kanghoon Yoon, Yeonjun In, Namkyeong Lee, Kibum Kim, Chanyoung Park, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ上の認識不能な変更を通じて、GNNのパフォーマンスを低下させることを目的とした、敵攻撃に対して脆弱である。
しかし、実際には、損失w.r.t隣接行列の勾配を利用する一般的なメタグラディエントベースの攻撃が、訓練ノードに偏っていることが判明した。
すなわち、それらのメタグラディエントは、訓練ノードでのみ訓練される代理モデルのトレーニング手順によって決定される。
このバイアスは不均一な摂動として現れ、2つのノードを少なくとも1つのノードがラベル付きノードであるときに接続する。
しかしながら、これらのバイアスアタックアプローチは、2つの未ラベルノード間のエッジの反転を全く考慮しないため、準最適である。
これは、ノードの表現を著しく変更するラベルのないノード間の潜在的攻撃エッジを見逃すことを意味する。
本稿では,既存攻撃の不安定な摂動の根本原因を明らかにするためのメタグラディエントについて検討する。
本稿では, メタグラディエントに基づく攻撃手法を提案し, 新たなサロゲート損失を用いて, メタグラディエントにおけるバイアスを軽減する。
ベンチマークデータセットを用いて,Metaconが既存のメタグラデーションベースの攻撃方法より優れていることを示すとともに,トレーニングノードに対するバイアスを緩和することがグラフ構造を攻撃する上で有効であることを示す。
Graph neural networks (GNN) are vulnerable to adversarial attacks, which aim to degrade the performance of GNNs through imperceptible changes on the graph. However, we find that in fact the prevalent meta-gradient-based attacks, which utilizes the gradient of the loss w.r.t the adjacency matrix, are biased towards training nodes. That is, their meta-gradient is determined by a training procedure of the surrogate model, which is solely trained on the training nodes. This bias manifests as an uneven perturbation, connecting two nodes when at least one of them is a labeled node, i.e., training node, while it is unlikely to connect two unlabeled nodes. However, these biased attack approaches are sub-optimal as they do not consider flipping edges between two unlabeled nodes at all. This means that they miss the potential attacked edges between unlabeled nodes that significantly alter the representation of a node. In this paper, we investigate the meta-gradients to uncover the root cause of the uneven perturbations of existing attacks. Based on our analysis, we propose a Meta-gradient-based attack method using contrastive surrogate objective (Metacon), which alleviates the bias in meta-gradient using a new surrogate loss. We conduct extensive experiments to show that Metacon outperforms existing meta gradient-based attack methods through benchmark datasets, while showing that alleviating the bias towards training nodes is effective in attacking the graph structure. | 翻訳日:2024-07-30 19:31:05 公開日:2024-07-27 |
# モダリティ非依存デコーディングと近似に基づくモダリティアンサンブルによるロバストなマルチモーダル3次元物体検出
Robust Multimodal 3D Object Detection via Modality-Agnostic Decoding and Proximity-based Modality Ensemble ( http://arxiv.org/abs/2407.19156v1 ) ライセンス: Link先を確認 | Juhan Cha, Minseok Joo, Jihwan Park, Sanghyeok Lee, Injae Kim, Hyunwoo J. Kim, | (参考訳) 近年の3Dオブジェクト検出の進歩は、マルチビューカメラとLiDARセンサーからのマルチモーダル情報から恩恵を受けている。
しかし、モダリティ間の固有の相違は、重大な課題を引き起こす。
既存のマルチモーダル3Dオブジェクト検出法は,LiDARセンサに強く依存しており,カメラをセマンティックディテールを増強するための補助モダリティとして扱う。
これはしばしば、カメラデータの未使用化だけでなく、LiDARデータが利用できないシナリオでの大幅なパフォーマンス劣化につながる。
さらに, 既存の核融合法は, 環境変化によるセンサノイズの劣化が検出性能に与える影響を見落としている。
本稿では,LiDAR過信頼問題に対処するためのMEFormerを提案する。
具体的には、入力のモダリティに関わらず、共有トランスフォーマーデコーダで幾何学的および意味的な特徴を抽出し、単一のモダリティとマルチモダリティで有望な改善を提供するMOAD(Modality Agnostic Decoding)を導入する。
さらに,我々のPMEモジュールは,騒音センサの効果を緩和しながら,環境に応じて各モードの強度を適応的に活用する。
我々のMEFormerは73.9% NDSと71.5% mAPの最先端性能を実現している。
広範囲な分析により,MEFormerはセンサの故障や環境変化といった困難な状況に対して堅牢性を向上させることが確認された。
ソースコードはhttps://github.com/hanchaa/MEFormerで入手できる。
Recent advancements in 3D object detection have benefited from multi-modal information from the multi-view cameras and LiDAR sensors. However, the inherent disparities between the modalities pose substantial challenges. We observe that existing multi-modal 3D object detection methods heavily rely on the LiDAR sensor, treating the camera as an auxiliary modality for augmenting semantic details. This often leads to not only underutilization of camera data but also significant performance degradation in scenarios where LiDAR data is unavailable. Additionally, existing fusion methods overlook the detrimental impact of sensor noise induced by environmental changes, on detection performance. In this paper, we propose MEFormer to address the LiDAR over-reliance problem by harnessing critical information for 3D object detection from every available modality while concurrently safeguarding against corrupted signals during the fusion process. Specifically, we introduce Modality Agnostic Decoding (MOAD) that extracts geometric and semantic features with a shared transformer decoder regardless of input modalities and provides promising improvement with a single modality as well as multi-modality. Additionally, our Proximity-based Modality Ensemble (PME) module adaptively utilizes the strengths of each modality depending on the environment while mitigating the effects of a noisy sensor. Our MEFormer achieves state-of-the-art performance of 73.9% NDS and 71.5% mAP in the nuScenes validation set. Extensive analyses validate that our MEFormer improves robustness against challenging conditions such as sensor malfunctions or environmental changes. The source code is available at https://github.com/hanchaa/MEFormer | 翻訳日:2024-07-30 19:31:05 公開日:2024-07-27 |
# グラフニューラルネットワークによる異種力学系の分解
Decomposing heterogeneous dynamical systems with graph neural networks ( http://arxiv.org/abs/2407.19160v1 ) ライセンス: Link先を確認 | Cédric Allier, Magdalena C. Schneider, Michael Innerberger, Larissa Heinrich, John A. Bogovic, Stephan Saalfeld, | (参考訳) 自然、化学的、生物学的力学系はしばしば複雑であり、異種成分は様々な方法で相互作用する。
グラフニューラルネットワークは、データのみから相互作用規則と不均一性の構造を共同で学習するように設計できることを示す。
学習された潜在構造と力学は、基礎となる支配方程式のパラメータ化と推論に必要な複雑な系を事実上分解するために用いられる。
移動粒子とベクトル場が相互に相互作用するシミュレーション実験により,本手法を検証した。
現在の目的は、シミュレーションデータによるアプローチをよりよく理解し、検証することにありますが、自然界で観察される複雑なダイナミクスの根底にあるルールを明らかにするための、一般的に適用可能なツールになることを期待しています。
Natural physical, chemical, and biological dynamical systems are often complex, with heterogeneous components interacting in diverse ways. We show that graph neural networks can be designed to jointly learn the interaction rules and the structure of the heterogeneity from data alone. The learned latent structure and dynamics can be used to virtually decompose the complex system which is necessary to parameterize and infer the underlying governing equations. We tested the approach with simulation experiments of moving particles and vector fields that interact with each other. While our current aim is to better understand and validate the approach with simulated data, we anticipate it to become a generally applicable tool to uncover the governing rules underlying complex dynamics observed in nature. | 翻訳日:2024-07-30 19:31:05 公開日:2024-07-27 |
# UAVチームによる森林火災抑制のための遺伝的アルゴリズムに基づくルーティングとスケジューリング
Genetic Algorithm-based Routing and Scheduling for Wildfire Suppression using a Team of UAVs ( http://arxiv.org/abs/2407.19162v1 ) ライセンス: Link先を確認 | Josy John, Suresh Sundaram, | (参考訳) 本稿では,UAVチームによる早期の山火事対策について論じる。
早期発見と緩和システムは、資源利用の削減による破壊を緩和するのに役立つ。
遺伝的アルゴリズムに基づく時間制約付きスケジューリング (GARST) を提案し, 単一UAVタスク (SUT) として火災を軽減するための最短スケジュール経路を求める。
GARSTの目的は、UAVSがマルチUAVタスク(MUT)になる前に割り当てられた火の場所に到達するようにUAVのルートとスケジュールを計算し、消火器を使って火災を完全に消火することである。
遺伝的アルゴリズムで使用される適合関数は、全火災を緩和するためのトータルクエンチ時間である。
選択、交叉、突然変異演算子、エリート主義的戦略は、ソリューション空間の探索と利用を集合的に保証し、遺伝的多様性を維持し、早めの収束を防ぎ、ソリューションの効果的な最適化のためにハイパフォーマンスな個人を保存する。
GARSTは、時間制約のあるタスクの成長のためのルーティングとスケジューリングのNP完全問題によって引き起こされる課題に効果的に対処する。
GARSTは実現不可能なシナリオを効果的に処理することができ、山火事管理システムの全体的な最適化に寄与する。
This paper addresses early wildfire management using a team of UAVs for the mitigation of fires. The early detection and mitigation systems help in alleviating the destruction with reduced resource utilization. A Genetic Algorithm-based Routing and Scheduling with Time constraints (GARST) is proposed to find the shortest schedule route to mitigate the fires as Single UAV Tasks (SUT). The objective of GARST is to compute the route and schedule of the UAVs so that the UAVS reach the assigned fire locations before the fire becomes a Multi UAV Task (MUT) and completely quench the fire using the extinguisher. The fitness function used for the genetic algorithm is the total quench time for mitigation of total fires. The selection, crossover, mutation operators, and elitist strategies collectively ensure the exploration and exploitation of the solution space, maintaining genetic diversity, preventing premature convergence, and preserving high-performing individuals for the effective optimization of solutions. The GARST effectively addresses the challenges posed by the NP-complete problem of routing and scheduling for growing tasks with time constraints. The GARST is able to handle infeasible scenarios effectively, contributing to the overall optimization of the wildfire management system. | 翻訳日:2024-07-30 19:31:05 公開日:2024-07-27 |
# オーサシップ検証のためのクロストピック評価における話題漏洩への対処
Addressing Topic Leakage in Cross-Topic Evaluation for Authorship Verification ( http://arxiv.org/abs/2407.19164v1 ) ライセンス: Link先を確認 | Jitkapat Sawatphol, Can Udomcharoenchaikit, Sarana Nutanong, | (参考訳) オーサシップ検証(AV)は、テキストのペアが同じ著者を持っているかどうかを特定することを目的としている。
トピックシフトに対するAVモデルの堅牢性を評価するという課題に対処する。
従来の評価では、トレーニングデータとテストデータの間に最小限のトピックオーバーラップが想定されている。
しかし、テストデータにはトピックリークがあり、誤ったモデル性能と不安定なランキングを引き起こす可能性があると論じる。
そこで本研究では,ヘテロジニティ・インフォームド・トピックサンプリング(HITS, Heterogeneity-Informed Topic Smpling)と呼ばれる評価手法を提案する。
実験結果から,HITSをサンプリングしたデータセットは,ランダムシードと評価スプリットにまたがって,より安定したモデルランキングが得られることが示された。
コントリビューションには以下のものがある。
1.話題漏洩の原因と影響の分析
2.トピックリークの影響の低減におけるHITSの実証
3. トピックショートカットテストによって、AVモデルのトピック固有の機能への依存を明らかにすることができるRobust Authorship Verification bENchmark (RAVEN)。
Authorship verification (AV) aims to identify whether a pair of texts has the same author. We address the challenge of evaluating AV models' robustness against topic shifts. The conventional evaluation assumes minimal topic overlap between training and test data. However, we argue that there can still be topic leakage in test data, causing misleading model performance and unstable rankings. To address this, we propose an evaluation method called Heterogeneity-Informed Topic Sampling (HITS), which creates a smaller dataset with a heterogeneously distributed topic set. Our experimental results demonstrate that HITS-sampled datasets yield a more stable ranking of models across random seeds and evaluation splits. Our contributions include: 1. An analysis of causes and effects of topic leakage. 2. A demonstration of the HITS in reducing the effects of topic leakage, and 3. The Robust Authorship Verification bENchmark (RAVEN) that allows topic shortcut test to uncover AV models' reliance on topic-specific features. | 翻訳日:2024-07-30 19:31:05 公開日:2024-07-27 |
# HENNC: ニューラルネットワークを用いたカオスオシレータのためのハードウェアエンジン
HENNC: Hardware Engine for Artificial Neural Network-based Chaotic Oscillators ( http://arxiv.org/abs/2407.19165v1 ) ライセンス: Link先を確認 | Mobin Vaziri, Shervin Vakili, M. Mehdi Rahimifar, J. M. Pierre Langlois, | (参考訳) 本稿では、ニューラルネットワーク(ANN)ベースのカオス発振器のためのハードウェアコアの自動生成のためのフレームワークを紹介する。
このフレームワークは、モデルをカオスシステムに近似するように訓練し、その実装のために潜在的なハードウェアアーキテクチャをもたらす設計空間探索を行う。
フレームワークは、選択されたソリューションから、対応する合成可能な高レベル合成コードとバリデーションテストベンチを生成する。
ハードウェア設計は主にFPGAをターゲットにしている。
提案するフレームワークは,ハードウェアコストとスループットの観点から,手作業で設計した作業よりも優れた,候補アーキテクチャの迅速なハードウェア設計プロセスを提供する。
ソースコードはGitHubで入手できる。
This letter introduces a framework for the automatic generation of hardware cores for Artificial Neural Network (ANN)-based chaotic oscillators. The framework trains the model to approximate a chaotic system, then performs design space exploration yielding potential hardware architectures for its implementation. The framework then generates the corresponding synthesizable High-Level Synthesis code and a validation testbench from a selected solution. The hardware design primarily targets FPGAs. The proposed framework offers a rapid hardware design process of candidate architectures superior to manually designed works in terms of hardware cost and throughput. The source code is available on GitHub. | 翻訳日:2024-07-30 19:31:05 公開日:2024-07-27 |
# 局所構造を用いた自己監督深度推定の再検討
Revisit Self-supervised Depth Estimation with Local Structure-from-Motion ( http://arxiv.org/abs/2407.19166v1 ) ライセンス: Link先を確認 | Shengjie Zhu, Xiaoming Liu, | (参考訳) 自己教師付き深度推定とSfM(Structure-from-Motion)の両方がRGBビデオからシーン深度を復元する。
同様の目的を共有しながらも、2つのアプローチは切り離されている。
自己超越的バックプロパゲート損失の以前の研究は、隣接するフレーム内で定義された。
この研究は、学習スルーロスの代わりに、局所的なSfMを実行することで代替のスキームを提案する。
まず、RGBまたはRGB-D画像の校正により、深度マップとペアワイド対応マップを推定するために深度・対応推定器を用いる。
そして、新しいバンドル-RANSAC調整アルゴリズムは、カメラポーズと深度マップの1つの深さ調整を共同で最適化する。
最後に、カメラのポーズを修正し、ニューラルネットワークを使わずにNeRFを用いて、密接な三角測量と幾何的検証を行う。
ポス、深さ調整、三角形のスパース深度は私たちの出力です。
初めて、SoTAが監督する深度と対応モデルに既に利点がある5ドルフレームの自己超越を示す。
Both self-supervised depth estimation and Structure-from-Motion (SfM) recover scene depth from RGB videos. Despite sharing a similar objective, the two approaches are disconnected. Prior works of self-supervision backpropagate losses defined within immediate neighboring frames. Instead of learning-through-loss, this work proposes an alternative scheme by performing local SfM. First, with calibrated RGB or RGB-D images, we employ a depth and correspondence estimator to infer depthmaps and pair-wise correspondence maps. Then, a novel bundle-RANSAC-adjustment algorithm jointly optimizes camera poses and one depth adjustment for each depthmap. Finally, we fix camera poses and employ a NeRF, however, without a neural network, for dense triangulation and geometric verification. Poses, depth adjustments, and triangulated sparse depths are our outputs. For the first time, we show self-supervision within $5$ frames already benefits SoTA supervised depth and correspondence models. | 翻訳日:2024-07-30 19:31:05 公開日:2024-07-27 |
# FarSSiBERT:ペルシアの社会ネットワークインフォーマルテキストのセマンティック類似度測定のためのトランスフォーマーに基づく新しいモデル
FarSSiBERT: A Novel Transformer-based Model for Semantic Similarity Measurement of Persian Social Networks Informal Texts ( http://arxiv.org/abs/2407.19173v1 ) ライセンス: Link先を確認 | Seyed Mojtaba Sadjadi, Zeinab Rajabi, Leila Rabiei, Mohammad-Shahram Moin, | (参考訳) NLPの基本的な課題は、2つのテキスト間の類似性を決定し、それらの類似度を評価することである。
ペルシア語の以前の手法は精度が低く、テキストの構造や意味を効果的に理解できない。
さらに、これらの手法は主に形式テキストに焦点をあてるが、実際のテキスト処理の応用においては、口語テキストを扱える堅牢な方法が必要である。
これは、単に単語の頻度ではなく、文脈に基づく単語の構造と重要性を考えるアルゴリズムを必要とする。
ペルシア語では、このタスクに適切なデータセットがないため、そのようなアルゴリズムを開発し、ペルシア語のテキストのためのデータセットを構築することが重要である。
本稿では,ソーシャルメディアからペルシャの非公式短文間の意味的類似性を測定するための,トランスフォーマーに基づく新しいモデルを提案する。
さらに、この目的のためにFarSSiMというペルシアのデータセットが構築され、ソーシャルネットワークの実際のデータを使用し、言語専門家チームによって手動で注釈付けされ、検証されている。
提案モデルでは,BERTアーキテクチャをゼロから使用した大規模言語モデルをトレーニングする。
FarSSiBERTと呼ばれるこのモデルは、約9100万のペルシア語の非公式な短文をソーシャルネットワークから事前訓練しており、ペルシア語の一種である。
さらに、フォーマルテキスト上でトークン化をうまく行うだけでなく、他のペルシアのトークン化者が認識できないトークンを正確に識別する、新しい専門用語トークン化器が提供される。
提案手法はPearsonとSpearmanの係数基準でParsBERT, laBSE, multilingual BERTより優れていた。
さらに、事前学習された大きな言語モデルは、口語テキスト上の他のNLPタスクや、あまり知られていない非公式な単語のトークン化ツールとして、大きな可能性を秘めている。
One fundamental task for NLP is to determine the similarity between two texts and evaluate the extent of their likeness. The previous methods for the Persian language have low accuracy and are unable to comprehend the structure and meaning of texts effectively. Additionally, these methods primarily focus on formal texts, but in real-world applications of text processing, there is a need for robust methods that can handle colloquial texts. This requires algorithms that consider the structure and significance of words based on context, rather than just the frequency of words. The lack of a proper dataset for this task in the Persian language makes it important to develop such algorithms and construct a dataset for Persian text. This paper introduces a new transformer-based model to measure semantic similarity between Persian informal short texts from social networks. In addition, a Persian dataset named FarSSiM has been constructed for this purpose, using real data from social networks and manually annotated and verified by a linguistic expert team. The proposed model involves training a large language model using the BERT architecture from scratch. This model, called FarSSiBERT, is pre-trained on approximately 104 million Persian informal short texts from social networks, making it one of a kind in the Persian language. Moreover, a novel specialized informal language tokenizer is provided that not only performs tokenization on formal texts well but also accurately identifies tokens that other Persian tokenizers are unable to recognize. It has been demonstrated that our proposed model outperforms ParsBERT, laBSE, and multilingual BERT in the Pearson and Spearman's coefficient criteria. Additionally, the pre-trained large language model has great potential for use in other NLP tasks on colloquial text and as a tokenizer for less-known informal words. | 翻訳日:2024-07-30 19:31:05 公開日:2024-07-27 |
# フェデレーションドメイン一般化のためのスパーラス相関の低減
Reducing Spurious Correlation for Federated Domain Generalization ( http://arxiv.org/abs/2407.19174v1 ) ライセンス: Link先を確認 | Shuran Ma, Weiying Xie, Daixun Li, Haowei Li, Yunsong Li, | (参考訳) マルチメディアの急速な発展は、視覚的なタスクのために異なる分布を持つ大量のデータを提供し、異なるドメインを形成している。
フェデレートラーニング(FL)は、モデル共有を通じて、異なるクライアントメディア上に分散されたこの多様なデータを分散的に効率的に利用することができる。
しかし、オープンワールドのシナリオでは、グローバルモデルはトレーニング中に遭遇しなかった特定のメディアによってキャプチャされた完全に新しいドメインデータをうまく予測するのに苦労する可能性がある。
既存の手法は、この問題に対処するためにサンプルとラベルの強い統計的相関に依存しており、いくつかの特徴は予測と急激なショートカット相関を確立する可能性があるため、誤解を招く可能性がある。
この課題に包括的に対処するために、ローカルレベルとグローバルレベルの両方で全体的な最適化フレームワークであるFedCD(Cross-Domain Invariant Federated Learning)を紹介します。
本稿では,Spurious correlation Intervener(SCI)について紹介する。これは不均一理論を用いて,自己監督的な方法で特徴に対するインターベンタを局所的に生成し,刺激的相関特徴に対するモデルの感受性を低下させる。
私たちのアプローチでは、データや機能の共有は必要ありません。
さらに,大域的因果不変予測を容易にするために,数式最適化により凝集係数を決定する,シンプルで効果的なリスク外挿集約戦略(REA)を開発した。
大規模な実験とアブレーション研究は、我々のアプローチの有効性を浮き彫りにしている。
分類および対象検出の一般化タスクでは,mAP50では平均1.45%,4.8%,1.27%がベースラインを上回っている。
The rapid development of multimedia has provided a large amount of data with different distributions for visual tasks, forming different domains. Federated Learning (FL) can efficiently use this diverse data distributed on different client media in a decentralized manner through model sharing. However, in open-world scenarios, there is a challenge: global models may struggle to predict well on entirely new domain data captured by certain media, which were not encountered during training. Existing methods still rely on strong statistical correlations between samples and labels to address this issue, which can be misleading, as some features may establish spurious short-cut correlations with the predictions. To comprehensively address this challenge, we introduce FedCD (Cross-Domain Invariant Federated Learning), an overall optimization framework at both the local and global levels. We introduce the Spurious Correlation Intervener (SCI), which employs invariance theory to locally generate interventers for features in a self-supervised manner to reduce the model's susceptibility to spurious correlated features. Our approach requires no sharing of data or features, only the gradients related to the model. Additionally, we develop the simple yet effective Risk Extrapolation Aggregation strategy (REA), determining aggregation coefficients through mathematical optimization to facilitate global causal invariant predictions. Extensive experiments and ablation studies highlight the effectiveness of our approach. In both classification and object detection generalization tasks, our method outperforms the baselines by an average of at least 1.45% in Acc, 4.8% and 1.27% in mAP50. | 翻訳日:2024-07-30 19:31:05 公開日:2024-07-27 |
# Power-LLaVA: 送電線検査のための大規模言語と視覚アシスタント
Power-LLaVA: Large Language and Vision Assistant for Power Transmission Line Inspection ( http://arxiv.org/abs/2407.19178v1 ) ライセンス: Link先を確認 | Jiahao Wang, Mingxuan Li, Haichen Luo, Jinguo Zhu, Aijun Yang, Mingzhe Rong, Xiaohua Wang, | (参考訳) 電力送電線の検査は,近年,ディープラーニング技術の統合が主な成果となっている。
しかし、現在の検査手法は一般化と知能の難しさに悩まされ続けており、適用性はさらに制限されている。
本稿では,人間と対話することで,送電線に対するプロフェッショナルで信頼性の高い検査サービスを提供するための,最初の大規模言語および視覚アシスタントであるPower-LLaVAを紹介する。
また,検査作業に特化した大規模かつ高品質なデータセットを構築した。
構築されたデータセットに2段階のトレーニング戦略を採用することで、Power-LLaVAは比較的低いトレーニングコストで例外的なパフォーマンスを示す。
大規模な実験により、送電線検査の領域におけるパワー・ラバの優れた能力が証明された。
コードは解放される。
The inspection of power transmission line has achieved notable achievements in the past few years, primarily due to the integration of deep learning technology. However, current inspection approaches continue to encounter difficulties in generalization and intelligence, which restricts their further applicability. In this paper, we introduce Power-LLaVA, the first large language and vision assistant designed to offer professional and reliable inspection services for power transmission line by engaging in dialogues with humans. Moreover, we also construct a large-scale and high-quality dataset specialized for the inspection task. By employing a two-stage training strategy on the constructed dataset, Power-LLaVA demonstrates exceptional performance at a comparatively low training cost. Extensive experiments further prove the great capabilities of Power-LLaVA within the realm of power transmission line inspection. Code shall be released. | 翻訳日:2024-07-30 19:31:05 公開日:2024-07-27 |
# 現代マルチモーダルモデルのためのデータ処理技術
Data Processing Techniques for Modern Multimodal Models ( http://arxiv.org/abs/2407.19180v1 ) ライセンス: Link先を確認 | Yinheng Li, Han Ding, Hang Chen, | (参考訳) データ処理は、現在のマルチモーダルモデルのトレーニングにおいて重要な役割を果たす。
本項で述べる。
本稿では,拡散モデルと多モーダル大言語モデル(MLLM)に着目し,現代マルチモーダルモデルトレーニングで使用される共通データ処理手法の総合的なレビューを行う。
すべてのテクニックを、データ品質、データ量、データ分散、データ安全性の4つのカテゴリにまとめました。
さらに、異なるタイプのモデルにおけるデータ処理方法の選択に関する知見を提示する。
本研究の目的は,効率的なデータ処理技術を持つマルチモーダルモデル開発者へのガイダンスを提供することである。
Data processing plays an significant role in current multimodal model training. In this paper. we provide an comprehensive review of common data processing techniques used in modern multimodal model training with a focus on diffusion models and multimodal large language models (MLLMs). We summarized all techniques into four categories: data quality, data quantity, data distribution and data safety. We further present our findings in the choice of data process methods in different type of models. This study aims to provide guidance to multimodal models developers with effective data processing techniques. | 翻訳日:2024-07-30 19:31:05 公開日:2024-07-27 |
# グラフメモリ学習:脳ネットワークの生涯記憶と予測を省略する
Graph Memory Learning: Imitating Lifelong Remembering and Forgetting of Brain Networks ( http://arxiv.org/abs/2407.19183v1 ) ライセンス: Link先を確認 | Jiaxing Miao, Liang Hu, Qi Zhang, Longbing Cao, | (参考訳) 現実のシナリオにおけるグラフデータは、迅速かつ頻繁に変更されるため、既存のグラフモデルでは、新しいデータの継続的な流入を効果的に処理し、データ削除要求に対応することは困難である。
グラフモデルを頻繁に再トレーニングするアプローチは、リソース集約的で実用的ではない。
そこで本研究では,グラフメモリ学習の新たな概念を提案する。
その中核となる考え方は、グラフモデルが新しい知識を選択的に記憶し、古い知識を忘れることである。
このアプローチに基づいて、脳ネットワークのダイナミクスと機能構造結合戦略にインスパイアされた、ブレインインスパイアされたグラフメモリ学習(BGML)という新しいグラフメモリ学習フレームワークを提案する。
BGMLは,グラフメモリ学習における記憶と忘れとの潜在的な衝突を軽減するために,特徴グラフの粒度学習に根ざした多階層的階層的漸進学習機構を取り入れている。
このメカニズムは、進化するグラフ内の局所的な詳細を包括的かつ多段階的に認識することを可能にする。
さらに,新たに追加されるインクリメンタル情報における信頼できない構造の問題に対処するために,情報自己評価のオーナシップ機構を提案する。
このメカニズムは、モデル内の漸進的な情報の伝播を促進するだけでなく、過去の経験の完全性も効果的に維持する。
我々は、BGMLを評価するために、正規、メモリ、アンラーニング、データインクリメンタル、クラスインクリメンタルの5種類のグラフメモリ学習タスクを設計する。
その優れた性能は、複数の実世界のノード分類データセットに関する広範な実験を通じて確認される。
Graph data in real-world scenarios undergo rapid and frequent changes, making it challenging for existing graph models to effectively handle the continuous influx of new data and accommodate data withdrawal requests. The approach to frequently retraining graph models is resource intensive and impractical. To address this pressing challenge, this paper introduces a new concept of graph memory learning. Its core idea is to enable a graph model to selectively remember new knowledge but forget old knowledge. Building on this approach, the paper presents a novel graph memory learning framework - Brain-inspired Graph Memory Learning (BGML), inspired by brain network dynamics and function-structure coupling strategies. BGML incorporates a multi-granular hierarchical progressive learning mechanism rooted in feature graph grain learning to mitigate potential conflict between memorization and forgetting in graph memory learning. This mechanism allows for a comprehensive and multi-level perception of local details within evolving graphs. In addition, to tackle the issue of unreliable structures in newly added incremental information, the paper introduces an information self-assessment ownership mechanism. This mechanism not only facilitates the propagation of incremental information within the model but also effectively preserves the integrity of past experiences. We design five types of graph memory learning tasks: regular, memory, unlearning, data-incremental, and class-incremental to evaluate BGML. Its excellent performance is confirmed through extensive experiments on multiple real-world node classification datasets. | 翻訳日:2024-07-30 19:31:05 公開日:2024-07-27 |
# 森林火災リスク評価における木型検出の強化:UAV画像のための多段階的アプローチと森林火災リスク評価フレームワークによる色符号化
Enhancing Tree Type Detection in Forest Fire Risk Assessment: Multi-Stage Approach and Color Encoding with Forest Fire Risk Evaluation Framework for UAV Imagery ( http://arxiv.org/abs/2407.19184v1 ) ライセンス: Link先を確認 | Jinda Zhang, Michal Aibin, | (参考訳) 森林火災は世界中の生態系、経済、人間の健康に重大な脅威をもたらす。
森林火災の早期発見と評価は, 効果的な管理・保全に不可欠である。
高度なコンピュータビジョンアルゴリズムを備えた無人航空機(UAV)は森林火災の検出と評価に有望なソリューションを提供する。
本稿では,UAVと多段階物体検出アルゴリズムを用いた森林火災リスク評価フレームワークを最適化する。
本稿では,Faster R-CNN,Grid R-CNN,Sparse R-CNN,Cascade R-CNN,Dynamic R-CNN,Libra R-CNN 検出器の採用など,従来のフレームワークの改良について紹介する。
カナダ,ブリティッシュコロンビア州の各地域の航空画像画像を用いて,これらの拡張を評価する。
本研究は,森林火災リスク評価の精度向上に有効な多段階検出器と最適化の有効性を示すものである。
本研究は,UAVによる森林火災検知・評価システムの高度化に寄与し,持続的森林管理・保全活動の効率化と効率化に寄与する。
Forest fires pose a significant threat to ecosystems, economies, and human health worldwide. Early detection and assessment of forest fires are crucial for effective management and conservation efforts. Unmanned Aerial Vehicles (UAVs) equipped with advanced computer vision algorithms offer a promising solution for forest fire detection and assessment. In this paper, we optimize an integrated forest fire risk assessment framework using UAVs and multi-stage object detection algorithms. We introduce improvements to our previous framework, including the adoption of Faster R-CNN, Grid R-CNN, Sparse R-CNN, Cascade R-CNN, Dynamic R-CNN, and Libra R-CNN detectors, and explore optimizations such as CBAM for attention enhancement, random erasing for preprocessing, and different color space representations. We evaluate these enhancements through extensive experimentation using aerial image footage from various regions in British Columbia, Canada. Our findings demonstrate the effectiveness of multi-stage detectors and optimizations in improving the accuracy of forest fire risk assessment. This research contributes to the advancement of UAV-based forest fire detection and assessment systems, enhancing their efficiency and effectiveness in supporting sustainable forest management and conservation efforts. | 翻訳日:2024-07-30 19:31:05 公開日:2024-07-27 |
# LLaVA-Read: マルチモーダル言語モデルの可読性向上
LLaVA-Read: Enhancing Reading Ability of Multimodal Language Models ( http://arxiv.org/abs/2407.19185v1 ) ライセンス: Link先を確認 | Ruiyi Zhang, Yufan Zhou, Jian Chen, Jiuxiang Gu, Changyou Chen, Tong Sun, | (参考訳) 大規模なマルチモーダル言語モデルは、画像の理解と操作に優れた能力を誇示している。
しかし、これらのモデルの多くは、画像内に埋め込まれた集中的なテキスト内容の理解に苦慮している。
これらの制約の源泉を理解するために、視覚テキスト理解における古典的視覚エンコーダの欠点を示す探索的解析を行う。
そこで本稿では,デュアルビジュアルエンコーダとビジュアルテキストエンコーダを併用したマルチモーダルな大規模言語モデルであるLLaVA-Readを提案する。
本モデルは,画像中のテキスト内容の理解度の向上を図りながら,様々なテキストリッチな画像理解タスクにおける既存の最先端モデルを上回る。
両研究は、視覚テキスト理解は依然としてオープンな課題であり、視覚テキストエンコーダは将来のマルチモーダルシステムにおいて重要であることを示唆している。
Large multimodal language models have demonstrated impressive capabilities in understanding and manipulating images. However, many of these models struggle with comprehending intensive textual contents embedded within the images, primarily due to the limited text recognition and layout understanding ability. To understand the sources of these limitations, we perform an exploratory analysis showing the drawbacks of classical visual encoders on visual text understanding. Hence, we present LLaVA-Read, a multimodal large language model that utilizes dual visual encoders along with a visual text encoder. Our model surpasses existing state-of-the-art models in various text-rich image understanding tasks, showcasing enhanced comprehension of textual content within images. Together, our research suggests visual text understanding remains an open challenge and an efficient visual text encoder is crucial for future successful multimodal systems. | 翻訳日:2024-07-30 19:31:05 公開日:2024-07-27 |
# チャネルブーストCNN変換器を用いたマルチレベル・マルチスケール核セグメンテーション
Channel Boosted CNN-Transformer-based Multi-Level and Multi-Scale Nuclei Segmentation ( http://arxiv.org/abs/2407.19186v1 ) ライセンス: Link先を確認 | Zunaira Rauf, Abdul Rehman Khan, Asifullah Khan, | (参考訳) 正確な核分割は、癌診断や治療計画など、計算病理学の様々な応用に欠かせない基礎である。
核表現のわずかなバリエーションでさえ、これらの下流のタスクに大きな影響を及ぼす。
しかし、クラスター化された核、サイズと形状の高いクラス内変動、他の細胞との類似、核と背景の間の色やコントラストの変化など、正確なセグメンテーションを達成することは依然として困難である。
医用画像セグメンテーションにおける畳み込みニューラルネットワーク(CNN)の広範な利用にもかかわらず、正確な核のデライン化に不可欠な長距離依存を捉えるのに苦労する可能性がある。
トランスフォーマーはこの制限に対処するが、必須の低レベル機能に欠ける可能性がある。
これらの限界を克服するため,我々は,H&E染色組織像の核分割にCNN-Transformer を用いた手法を応用した。
本研究では,CNN-TransformerアーキテクチャであるNuclei Hybrid Vision Transformer (NucleiHVT) とChannel Boosted Nuclei Hybrid Vision Transformer (CB-NucleiHVT) を提案し,CNNとTransformerの長所を利用して,マルチ組織組織像の核境界を効果的に学習する。
最初のアーキテクチャであるNucleiHVTはUNetアーキテクチャにインスパイアされ、マルチレベルとマルチスケールの両方のコンテキストを効果的にキャプチャするデュアルアテンション機構が組み込まれている。
一方、CB-NucleiHVTネットワークはチャネルブースティングの概念を利用して多様な特徴空間を学習し、核特性の微妙な変化を識別するモデルの能力を高める。
2つの医用画像セグメンテーションデータセットの詳細な評価は、提案アーキテクチャが既存のCNNベース、トランスフォーマーベース、ハイブリッドメソッドよりも優れていることを示している。
提案したネットワークは,定量的指標と質的視覚評価の両面で有効であることを示した。
Accurate nuclei segmentation is an essential foundation for various applications in computational pathology, including cancer diagnosis and treatment planning. Even slight variations in nuclei representations can significantly impact these downstream tasks. However, achieving accurate segmentation remains challenging due to factors like clustered nuclei, high intra-class variability in size and shape, resemblance to other cells, and color or contrast variations between nuclei and background. Despite the extensive utilization of Convolutional Neural Networks (CNNs) in medical image segmentation, they may have trouble capturing long-range dependencies crucial for accurate nuclei delineation. Transformers address this limitation but might miss essential low-level features. To overcome these limitations, we utilized CNN-Transformer-based techniques for nuclei segmentation in H&E stained histology images. In this work, we proposed two CNN-Transformer architectures, Nuclei Hybrid Vision Transformer (NucleiHVT) and Channel Boosted Nuclei Hybrid Vision Transformer (CB-NucleiHVT), that leverage the strengths of both CNNs and Transformers to effectively learn nuclei boundaries in multi-organ histology images. The first architecture, NucleiHVT is inspired by the UNet architecture and incorporates the dual attention mechanism to capture both multi-level and multi-scale context effectively. The CB-NucleiHVT network, on the other hand, utilizes the concept of channel boosting to learn diverse feature spaces, enhancing the model's ability to distinguish subtle variations in nuclei characteristics. Detailed evaluation of two medical image segmentation datasets shows that the proposed architectures outperform existing CNN-based, Transformer-based, and hybrid methods. The proposed networks demonstrated effective results both in terms of quantitative metrics, and qualitative visual assessment. | 翻訳日:2024-07-30 19:21:07 公開日:2024-07-27 |
# 潜時空間におけるガイド付き反復予測を行うことにより、重要気象変動の予測を効果的に改善する
Efficiently improving key weather variables forecasting by performing the guided iterative prediction in latent space ( http://arxiv.org/abs/2407.19187v1 ) ライセンス: Link先を確認 | Shuangliang Li, Siwei Li, | (参考訳) 天気予報とは、重要な上層および表層変数の進化パターンを学習することであり、これは非常に重要である。
近年,その強力な特徴学習能力により,気象予報分野に深層学習に基づく手法が適用されてきている。
しかし、もともとの空間反復に基づく予測手法は、多数の気象変数を効果的に効果的に活用するのに苦労している。
そこで我々は,「符号化予測復号」予測ネットワークを提案する。
このネットワークは、キー変数を持つより関連性の高い入力変数、すなわち、より多くの入力された大気変数からキー変数に関連する低次元潜在特徴を適応的に抽出し、反復予測を行うことができる。
そして,複数の大気変数を対応するリード時間で利用することにより,遅延特徴の反復を導出する損失関数を構築した。
その後、反復予測により得られた潜在特徴を復号し、複数のリードタイムでキー変数の予測値を得る。
さらに,予測結果と入力変数の時間的相関性を高めるために,より多くの時間ステップを入力することで, \cite{bi2023accurate}におけるHTAアルゴリズムを改善する。
ERA5データセットの定性的および定量的な予測結果は,他の手法よりも本手法の方が優れていることを検証した。
(コードはhttps://github.com/rs-lsl/Kvp-lsi)。
Weather forecasting refers to learning evolutionary patterns of some key upper-air and surface variables which is of great significance. Recently, deep learning-based methods have been increasingly applied in the field of weather forecasting due to their powerful feature learning capabilities. However, prediction methods based on the original space iteration struggle to effectively and efficiently utilize large number of weather variables. Therefore, we propose an 'encoding-prediction-decoding' prediction network. This network can efficiently benefit to more related input variables with key variables, that is, it can adaptively extract key variable-related low-dimensional latent feature from much more input atmospheric variables for iterative prediction. And we construct a loss function to guide the iteration of latent feature by utilizing multiple atmospheric variables in corresponding lead times. The obtained latent features through iterative prediction are then decoded to obtain the predicted values of key variables in multiple lead times. In addition, we improve the HTA algorithm in \cite{bi2023accurate} by inputting more time steps to enhance the temporal correlation between the prediction results and input variables. Both qualitative and quantitative prediction results on ERA5 dataset validate the superiority of our method over other methods. (The code will be available at https://github.com/rs-lsl/Kvp-lsi) | 翻訳日:2024-07-30 19:21:07 公開日:2024-07-27 |
# マルチモーダル誤情報検出におけるハーモディ・マニピュレーション画像の課題
Harmfully Manipulated Images Matter in Multimodal Misinformation Detection ( http://arxiv.org/abs/2407.19192v1 ) ライセンス: Link先を確認 | Bing Wang, Shengsheng Wang, Changchun Li, Renchu Guan, Ximing Li, | (参考訳) 現在、誤報は様々なソーシャルメディアプラットフォームに広まり、社会に極めて悪影響を及ぼしている。
この問題に対処するため,誤情報,特にマルチモーダルコンテンツを含むものの自動識別は,学術・産業コミュニティから注目を集め,MMD(Multimodal Misinformation Detection)と呼ばれる活発な研究トピックを誘導している。
通常、既存のMDD法は複数のモーダル間の意味的相関と矛盾を捉えるが、マルチモーダル内容の潜在的な手がかりは無視する。
近年の研究では、記事中の画像の操作された痕跡が、誤報を検出するための非自明な手がかりであることが示唆されている。
一方、MDDでは、その操作の背後にある意図、例えば有害で無害な意図も重要である。
そこで本研究では、画像が操作されたかどうかを示す操作特徴と、その操作の有害かつ無害な意図に関する意図的特徴を学習することにより、誤情報を検出することを提案する。
残念ながら、これらの特徴を識別する操作や意図のラベルは未知数である。
この問題を解決するために、画像操作検出のための追加データセットを導入し、2つの分類タスクを肯定的かつ未ラベルの学習問題として定式化することにより、2つの弱教師付き信号の代替として提案する。
そこで本研究では,MDDにおけるHamfully Manipulated Images Matter in MMD (HAMI-M3D) という新しいMDD手法を提案する。
3つのベンチマークデータセットにわたる大規模な実験は、HAMI-M3Dが任意のMDDベースラインのパフォーマンスを一貫して改善できることを実証することができる。
Nowadays, misinformation is widely spreading over various social media platforms and causes extremely negative impacts on society. To combat this issue, automatically identifying misinformation, especially those containing multimodal content, has attracted growing attention from the academic and industrial communities, and induced an active research topic named Multimodal Misinformation Detection (MMD). Typically, existing MMD methods capture the semantic correlation and inconsistency between multiple modalities, but neglect some potential clues in multimodal content. Recent studies suggest that manipulated traces of the images in articles are non-trivial clues for detecting misinformation. Meanwhile, we find that the underlying intentions behind the manipulation, e.g., harmful and harmless, also matter in MMD. Accordingly, in this work, we propose to detect misinformation by learning manipulation features that indicate whether the image has been manipulated, as well as intention features regarding the harmful and harmless intentions of the manipulation. Unfortunately, the manipulation and intention labels that make these features discriminative are unknown. To overcome the problem, we propose two weakly supervised signals as alternatives by introducing additional datasets on image manipulation detection and formulating two classification tasks as positive and unlabeled learning problems. Based on these ideas, we propose a novel MMD method, namely Harmfully Manipulated Images Matter in MMD (HAMI-M3D). Extensive experiments across three benchmark datasets can demonstrate that HAMI-M3D can consistently improve the performance of any MMD baselines. | 翻訳日:2024-07-30 19:21:07 公開日:2024-07-27 |
# 共生型ランダム林のアンサンブル構築法
A collaborative ensemble construction method for federated random forest ( http://arxiv.org/abs/2407.19193v1 ) ライセンス: Link先を確認 | Penjan Antonio Eng Lim, Cheong Hee Park, | (参考訳) ランダム・フォレストは、その堅牢性と汎用性のために機械学習の基盤となっている。
これらの強みにもかかわらず、従来の集中型トレーニングは、しばしば分散され、敏感で、プライバシーの懸念にさらされる、現代のデータランドスケープに不適である。
フェデレートラーニング(FL)は、この問題に対する説得力のあるソリューションを提供し、各クライアントデータのプライバシを維持しながら、クライアントのグループ間でモデルをトレーニングできるようにする。
しかしながら、ランダムなフォレストのようなツリーベースの手法をフェデレートした設定に適応させることは、特に実世界のアプリケーションでは一般的なシナリオであるクライアント間での非ID分散(非IID)データに関して、大きな課題をもたらす。
本研究では,非IIDデータによる性能向上を目的とした,新しいアンサンブル構築手法を用いたランダムな森林群集構築手法を提案する。
各クライアントで独立してツリーを成長させる代わりに、我々のアプローチは、アンサンブル内の各決定ツリーが反復的に、クライアント間で集合的に成長することを保証します。
クライアントのデータのプライバシを維持するため、各ノードに到達したクライアントのローカルデータのサンプルから特定された多数決クラスラベルに、リーフノードに格納された情報を格納する。
この限定的な開示は、クライアントの基盤となるデータ配布の機密性を保ち、これにより、連合学習プロセスのプライバシを高める。
さらに、我々の共同アンサンブル構築戦略により、異なるクライアント間でのデータの均一性をよりよく反映し、実験結果が判明したように、非IIDデータの性能を向上させることができる。
Random forests are considered a cornerstone in machine learning for their robustness and versatility. Despite these strengths, their conventional centralized training is ill-suited for the modern landscape of data that is often distributed, sensitive, and subject to privacy concerns. Federated learning (FL) provides a compelling solution to this problem, enabling models to be trained across a group of clients while maintaining the privacy of each client's data. However, adapting tree-based methods like random forests to federated settings introduces significant challenges, particularly when it comes to non-identically distributed (non-IID) data across clients, which is a common scenario in real-world applications. This paper presents a federated random forest approach that employs a novel ensemble construction method aimed at improving performance under non-IID data. Instead of growing trees independently in each client, our approach ensures each decision tree in the ensemble is iteratively and collectively grown across clients. To preserve the privacy of the client's data, we confine the information stored in the leaf nodes to the majority class label identified from the samples of the client's local data that reach each node. This limited disclosure preserves the confidentiality of the underlying data distribution of clients, thereby enhancing the privacy of the federated learning process. Furthermore, our collaborative ensemble construction strategy allows the ensemble to better reflect the data's heterogeneity across different clients, enhancing its performance on non-IID data, as our experimental results confirm. | 翻訳日:2024-07-30 19:21:07 公開日:2024-07-27 |
# なぜ誤報が生まれるのか? 意図的特徴を統合することによって検出する
Why Misinformation is Created? Detecting them by Integrating Intent Features ( http://arxiv.org/abs/2407.19196v1 ) ライセンス: Link先を確認 | Bing Wang, Ximing Li, Changchun Li, Bo Fu, Songwen Pei, Shengsheng Wang, | (参考訳) さまざまなソーシャルメディアプラットフォーム、例えばTwitterやRedditは、多くの情報をより効率的に便利に広めることを可能にする。
しかし、彼らは必然的に誤報に満ちており、私たちの日常生活の様々な側面にダメージを与えている。
ネガティブな影響を低減するため、誤情報検出(MD)という誤情報のタイムリーな識別が、広く注目を集めている研究トピックとなっている。
複雑な現象として、記事の正確性は様々な側面に影響される。
本稿では,誤情報と実情報との意図の対立から着想を得た。
そこで本稿では,記事の意図を推論し,それに対応する意図的特徴を定式化し,記事の特徴の妥当性の識別を促進することを提案する。
これを実現するために,既存の心理学的理論を参照して,誤情報と実情報の両方に対する意図の集合の階層を構築し,エンコーダ・デコーダ構造を用いて2進的な回答を段階的に生成することによって記事の意図を推論する。
我々は、対応する意図的特徴を定式化し、トークン特徴と統合し、MDのより差別的な記事特徴を達成する。
そこで本研究では,DM-INTER(Intent achievementuRes)の統合による誤情報検出という,新しいMD手法を提案する。
DM-INTERの性能を評価するため,ベンチマークMDデータセットの広範な実験を行った。
実験の結果, DM-INTERは既存のベースラインMD法より優れていることがわかった。
Various social media platforms, e.g., Twitter and Reddit, allow people to disseminate a plethora of information more efficiently and conveniently. However, they are inevitably full of misinformation, causing damage to diverse aspects of our daily lives. To reduce the negative impact, timely identification of misinformation, namely Misinformation Detection (MD), has become an active research topic receiving widespread attention. As a complex phenomenon, the veracity of an article is influenced by various aspects. In this paper, we are inspired by the opposition of intents between misinformation and real information. Accordingly, we propose to reason the intent of articles and form the corresponding intent features to promote the veracity discrimination of article features. To achieve this, we build a hierarchy of a set of intents for both misinformation and real information by referring to the existing psychological theories, and we apply it to reason the intent of articles by progressively generating binary answers with an encoder-decoder structure. We form the corresponding intent features and integrate it with the token features to achieve more discriminative article features for MD. Upon these ideas, we suggest a novel MD method, namely Detecting Misinformation by Integrating Intent featuRes (DM-INTER). To evaluate the performance of DM-INTER, we conduct extensive experiments on benchmark MD datasets. The experimental results validate that DM-INTER can outperform the existing baseline MD methods. | 翻訳日:2024-07-30 19:21:07 公開日:2024-07-27 |
# DNN学習記号相互作用のダイナミクスに向けて
Towards the Dynamics of a DNN Learning Symbolic Interactions ( http://arxiv.org/abs/2407.19198v1 ) ライセンス: Link先を確認 | Qihan Ren, Yang Xu, Junpeng Zhang, Yue Xin, Dongrui Liu, Quanshi Zhang, | (参考訳) 本研究では、ディープニューラルネットワーク(DNN)学習相互作用の2相ダイナミクスを実証する。
DNNのポストホックな説明の忠実さに対する長く失望した見解にもかかわらず、近年、一連の定理が、入力されたサンプルが与えられた場合、入力変数間の少数の相互作用が原始的推論パターンと見なされ、DNNのすべての詳細推論ロジックを忠実に表現できることを示すことが証明されている。
特に、様々なDNNが2相ダイナミクスと異なる複雑さの相互作用を学習していることが観察されており、このことはDNNの一般化パワーが不適合から過適合へとどのように変化するかをうまく説明している。
そこで本研究では,DNNの動的特性を,異なる複雑さの相互作用を徐々に符号化し,DNNの過度な適合を理論的に基礎づけたメカニズムを提供する。
実験の結果,我々の理論は様々なDNNの実際の学習ダイナミクスを様々なタスクでよく予測できることがわかった。
This study proves the two-phase dynamics of a deep neural network (DNN) learning interactions. Despite the long disappointing view of the faithfulness of post-hoc explanation of a DNN, in recent years, a series of theorems have been proven to show that given an input sample, a small number of interactions between input variables can be considered as primitive inference patterns, which can faithfully represent every detailed inference logic of the DNN on this sample. Particularly, it has been observed that various DNNs all learn interactions of different complexities with two-phase dynamics, and this well explains how a DNN's generalization power changes from under-fitting to over-fitting. Therefore, in this study, we prove the dynamics of a DNN gradually encoding interactions of different complexities, which provides a theoretically grounded mechanism for the over-fitting of a DNN. Experiments show that our theory well predicts the real learning dynamics of various DNNs on different tasks. | 翻訳日:2024-07-30 19:21:07 公開日:2024-07-27 |
# ガウス混合モデルによるデータセットにおけるクラスタ探索アルゴリズムのシミュレーション研究
A simulation study of cluster search algorithms in data set generated by Gaussian mixture models ( http://arxiv.org/abs/2407.19199v1 ) ライセンス: Link先を確認 | Ryosuke Motegi, Yoichi Seki, | (参考訳) クラスタ数を決定することは、データクラスタリングにおける根本的な問題である。
ユークリッド距離を用いたセントロイドアルゴリズムや確率分布の混合を用いたモデルベースアルゴリズムなど、いくつかのアルゴリズムが提案されている。
これらのうち、クラスタの分割やマージを繰り返すことでクラスタ数を探索する欲求アルゴリズムは、大きなサンプルサイズを持つ問題に対する計算時間という面で有利である。
しかし、これらの手法を体系的な評価実験で比較する研究は、いまだに含まれていない。
本研究では,ガウス混合モデル (GMM) が生成できる様々なケースにおいて,セントロイドおよびモデルに基づくクラスタ探索アルゴリズムについて検討した。
ケースは、次元性、サンプルサイズ、クラスタの数、クラスタオーバーラップ、共分散タイプという5つの要素を組み合わせることで生成される。
その結果, ユークリッド距離に基づくクラスタ分割基準は, クラスタが重なり合うと不合理な決定を下すことがわかった。
また,モデルに基づくアルゴリズムは,サンプルサイズが十分であれば,Centroid法と比較して,共分散型やクラスタオーバーラップに敏感であることを示す。
クラスタ検索の実装コードはhttps://github.com/lipryou/searchClustKで利用可能です。
Determining the number of clusters is a fundamental issue in data clustering. Several algorithms have been proposed, including centroid-based algorithms using the Euclidean distance and model-based algorithms using a mixture of probability distributions. Among these, greedy algorithms for searching the number of clusters by repeatedly splitting or merging clusters have advantages in terms of computation time for problems with large sample sizes. However, studies comparing these methods in systematic evaluation experiments still need to be included. This study examines centroid- and model-based cluster search algorithms in various cases that Gaussian mixture models (GMMs) can generate. The cases are generated by combining five factors: dimensionality, sample size, the number of clusters, cluster overlap, and covariance type. The results show that some cluster-splitting criteria based on Euclidean distance make unreasonable decisions when clusters overlap. The results also show that model-based algorithms are insensitive to covariance type and cluster overlap compared to the centroid-based method if the sample size is sufficient. Our cluster search implementation codes are available at https://github.com/lipryou/searchClustK | 翻訳日:2024-07-30 19:21:07 公開日:2024-07-27 |
# LLM時代のNLPモデル解釈可能性の動向
On Behalf of the Stakeholders: Trends in NLP Model Interpretability in the Era of LLMs ( http://arxiv.org/abs/2407.19200v1 ) ライセンス: Link先を確認 | Nitay Calderon, Roi Reichart, | (参考訳) 近年のNLPシステムの進歩、特にLSMの導入により、様々な領域にわたる幅広いユーザーによってこれらのシステムが広く採用され、意思決定、求人市場、社会、科学研究に影響を及ぼしている。
この利用の増加により、NLPモデルの解釈可能性と分析研究が爆発的に増加し、数多くの技術調査が行われた。
しかし、これらの調査は、しばしば説明ステークホルダーのニーズと視点を見落としている。
本稿では,3つの基本的問題に対処する。なぜ解釈可能性が必要なのか,どのように解釈されているのか?
これらの質問を探索することにより、既存の解釈可能性パラダイム、それらの特性、および異なる利害関係者との関係について検討する。
複数の研究分野にわたる過去10年間の傾向を分析し,これらのパラダイムの実践的意義について考察する。
この目的のために、私たちは何千もの論文を回収し、それらを特徴づけるためにLLMを使用しました。
分析の結果,NLP開発者と非開発者ユーザ,および研究分野の相違が明らかとなり,利害関係者の多様なニーズを浮き彫りにしている。
例えば、内部モデルコンポーネントの説明は、NLPフィールドの外ではほとんど使われない。
本稿は,様々な利害関係者の目的や要求に合致する手法の設計,開発,適用について報告する。
Recent advancements in NLP systems, particularly with the introduction of LLMs, have led to widespread adoption of these systems by a broad spectrum of users across various domains, impacting decision-making, the job market, society, and scientific research. This surge in usage has led to an explosion in NLP model interpretability and analysis research, accompanied by numerous technical surveys. Yet, these surveys often overlook the needs and perspectives of explanation stakeholders. In this paper, we address three fundamental questions: Why do we need interpretability, what are we interpreting, and how? By exploring these questions, we examine existing interpretability paradigms, their properties, and their relevance to different stakeholders. We further explore the practical implications of these paradigms by analyzing trends from the past decade across multiple research fields. To this end, we retrieved thousands of papers and employed an LLM to characterize them. Our analysis reveals significant disparities between NLP developers and non-developer users, as well as between research fields, underscoring the diverse needs of stakeholders. For example, explanations of internal model components are rarely used outside the NLP field. We hope this paper informs the future design, development, and application of methods that align with the objectives and requirements of various stakeholders. | 翻訳日:2024-07-30 19:21:07 公開日:2024-07-27 |
# 状態空間モデルによる長距離切替時系列予測
Long Range Switching Time Series Prediction via State Space Model ( http://arxiv.org/abs/2407.19201v1 ) ライセンス: Link先を確認 | Jiaming Zhang, Yang Ding, Yunfeng Gao, | (参考訳) 本研究では,Structured State Space Model (S4), Change Point Detection Methodologies, and the Switching Non-linear Dynamics System (SNLDS)について検討する。
我々の中心となる提案はSNLDSのための拡張推論手法と長距離依存性手法である。
我々のアプローチの基盤はS4とSNLDSの融合であり、両モデルの強みを活用して、スイッチング時系列における長距離依存の複雑さを効果的に解決する。
厳密な試験により,提案手法は1-Dローレンツデータセットと2-Dバウンシングボールデータセットの両方において,精度よくセグメントを分割し,長距離依存性を再現することを示した。
特に、我々の統合的なアプローチは、これらのタスクにおいてスタンドアロンのSNLDSよりも優れています。
In this study, we delve into the Structured State Space Model (S4), Change Point Detection methodologies, and the Switching Non-linear Dynamics System (SNLDS). Our central proposition is an enhanced inference technique and long-range dependency method for SNLDS. The cornerstone of our approach is the fusion of S4 and SNLDS, leveraging the strengths of both models to effectively address the intricacies of long-range dependencies in switching time series. Through rigorous testing, we demonstrate that our proposed methodology adeptly segments and reproduces long-range dependencies in both the 1-D Lorenz dataset and the 2-D bouncing ball dataset. Notably, our integrated approach outperforms the standalone SNLDS in these tasks. | 翻訳日:2024-07-30 19:21:07 公開日:2024-07-27 |
# 物理界におけるクリーンラベルバックドア攻撃に向けて
Towards Clean-Label Backdoor Attacks in the Physical World ( http://arxiv.org/abs/2407.19203v1 ) ライセンス: Link先を確認 | Thinh Dao, Cuong Chi Le, Khoa D Doan, Kok-Seng Wong, | (参考訳) ディープニューラルネットワーク(DNN)は、バックドアの毒殺攻撃に対して脆弱であり、ほとんどの研究はデジタルトリガー、ターゲットの誤分類を誘発するテスト時間入力にデジタルに付加される特別なパターンに焦点を当てている。
対照的に、物理的なシーン内の自然な物体である物理的なトリガーは、デジタル操作なしでリアルタイムのバックドアアクティベーションを可能にするため、望ましい代替手段として現れてきた。
しかし、現在の物理的攻撃では、有毒な入力が誤ったラベルを持つ必要があるため、人間の検査で容易に検出できる。
本稿では,7つの共通アクセサリーをトリガーとした21,238枚の顔画像のデータセットを収集し,それを用いて,物理世界におけるクリーンラベルバックドア攻撃の脅威について検討する。
私たちの研究は2つの発見を公表した。
まず、物理的攻撃の成功は、毒殺アルゴリズム、物理的トリガー、およびソースターゲットクラスのペアに依存する。
第二に、クリーンラベルの有毒なサンプルは、地味のラベルを保存しているが、その知覚的品質は、画像の顕著なアーティファクトによって著しく劣化する可能性がある。
このようなサンプルは、特徴空間におけるクリーンサンプルの分布から逸脱するため、統計的フィルタリング法にも脆弱である。
これらの問題に対処するために、標準的な$\ell_\infty$正規化を新しいピクセル正規化と特徴正規化に置き換えることを提案する。
本研究は,クリーンラベルの物理的バックドア攻撃の鍵となる,偶然のバックドアアクティベーションに注目した。
これは意図しないオブジェクトやクラスが誤ってモデルをターゲットクラスと誤分類させた場合に発生する。
Deep Neural Networks (DNNs) are vulnerable to backdoor poisoning attacks, with most research focusing on digital triggers, special patterns digitally added to test-time inputs to induce targeted misclassification. In contrast, physical triggers, which are natural objects within a physical scene, have emerged as a desirable alternative since they enable real-time backdoor activations without digital manipulation. However, current physical attacks require that poisoned inputs have incorrect labels, making them easily detectable upon human inspection. In this paper, we collect a facial dataset of 21,238 images with 7 common accessories as triggers and use it to study the threat of clean-label backdoor attacks in the physical world. Our study reveals two findings. First, the success of physical attacks depends on the poisoning algorithm, physical trigger, and the pair of source-target classes. Second, although clean-label poisoned samples preserve ground-truth labels, their perceptual quality could be seriously degraded due to conspicuous artifacts in the images. Such samples are also vulnerable to statistical filtering methods because they deviate from the distribution of clean samples in the feature space. To address these issues, we propose replacing the standard $\ell_\infty$ regularization with a novel pixel regularization and feature regularization that could enhance the imperceptibility of poisoned samples without compromising attack performance. Our study highlights accidental backdoor activations as a key limitation of clean-label physical backdoor attacks. This happens when unintended objects or classes accidentally cause the model to misclassify as the target class. | 翻訳日:2024-07-30 19:21:07 公開日:2024-07-27 |
# ターミネーター経済に向けて:LLMによるAIへの求人露光の評価
Towards the Terminator Economy: Assessing Job Exposure to AI through LLMs ( http://arxiv.org/abs/2407.19204v1 ) ライセンス: Link先を確認 | Emilio Colombo, Fabio Mercorio, Mario Mezzanzanica, Antonio Serino, | (参考訳) AI関連の技術の広がりと急速な発展は、労働市場を含む社会から教育まで、私たちの日常生活の多くの側面に影響を与えています。
多くの研究者が、職場における人間の能力の自動化または強化によって、AIとテクノロジーが仕事と関連するタスクを変革する上で果たす重要な役割を強調している。
最先端のAI関連技術によって自動化されるリスクに対して、仕事と関連するタスクがどの程度、どの程度露出されているかを推定できますか?
私たちの仕事は、データ駆動アプローチによってこの問題に取り組みます。
二 オープンソースのLarge Language Modelsのバッテリを利用して、ジョブ関連のタスクを行う際の現在のAIとロボティクスの能力を評価する再現可能なフレームワークを開発すること。
(二)職業別AI被曝指標、すなわち茶飯指数を定式化し、計算すること。
その結果、米国の雇用の約3分の1がAIに強く依存していることがわかりました。
この露出は、2019年から2023年までの雇用と賃金の伸びと相関しており、AIが生産性に与える影響を示唆している。
ソースコードと結果は公開されており、コミュニティ全体が時間をかけてAIとテクノロジーの能力をベンチマークして追跡することができる。
The spread and rapid development of AI-related technologies are influencing many aspects of our daily lives, from social to educational, including the labour market. Many researchers have been highlighting the key role AI and technologies play in reshaping jobs and their related tasks, either by automating or enhancing human capabilities in the workplace. Can we estimate if, and to what extent, jobs and related tasks are exposed to the risk of being automatized by state-of-the-art AI-related technologies? Our work tackles this question through a data-driven approach: (i) developing a reproducible framework that exploits a battery of open-source Large Language Models to assess current AI and robotics' capabilities in performing job-related tasks; (ii) formalising and computing an AI exposure measure by occupation, namely the teai (Task Exposure to AI) index. Our results show that about one-third of U.S. employment is highly exposed to AI, primarily in high-skill jobs (aka, white collars). This exposure correlates positively with employment and wage growth from 2019 to 2023, indicating a beneficial impact of AI on productivity. The source codes and results are publicly available, enabling the whole community to benchmark and track AI and technology capabilities over time. | 翻訳日:2024-07-30 19:21:07 公開日:2024-07-27 |
# 高速な画像2ビデオ生成:CLIPイメージの埋め込みが時空間的交点に与える影響を詳しく見る
Faster Image2Video Generation: A Closer Look at CLIP Image Embedding's Impact on Spatio-Temporal Cross-Attentions ( http://arxiv.org/abs/2407.19205v1 ) ライセンス: Link先を確認 | Ashkan Taghipour, Morteza Ghahremani, Mohammed Bennamoun, Aref Miri Rekavandi, Zinuo Li, Hamid Laga, Farid Boussaid, | (参考訳) 本稿では,SVDフレームワークにおけるCLIP画像埋め込みの役割について検討し,映像生成品質と計算効率への影響に着目した。
以上の結果から,CLIP埋め込みは審美的品質に重要であるが,映像出力の主観的・背景的整合性にはあまり寄与しないことが明らかとなった。
さらに、計算コストのかかるクロスアテンション機構を、より単純な線形層に効果的に置き換えることができる。
この層は第1拡散推論ステップで1回だけ計算され、その出力は推論プロセスを通してキャッシュされ再利用され、高品質な出力を維持しながら効率を向上する。
これらの知見に基づいて、SVDアーキテクチャの効率性に最適化されたトレーニング不要のアプローチであるVCUTを紹介します。
VCUTは時間的クロスアテンションを排除し、空間的クロスアテンションを1時間計算された線形層に置き換え、計算負荷を大幅に削減する。
VCUTの実装により、ビデオ毎のMAC(Multiple-Accumulate Operations)を最大322T削減し、モデルパラメータを最大50M削減し、ベースラインと比較して20%のレイテンシ削減を実現した。
提案手法は,セマンティックバインディングの段階での条件付けが十分であることを示し,すべての推論ステップをまたいだ連続計算の必要性を排除し,効率的なビデオ生成のための新しい標準を設定する。
This paper investigates the role of CLIP image embeddings within the Stable Video Diffusion (SVD) framework, focusing on their impact on video generation quality and computational efficiency. Our findings indicate that CLIP embeddings, while crucial for aesthetic quality, do not significantly contribute towards the subject and background consistency of video outputs. Moreover, the computationally expensive cross-attention mechanism can be effectively replaced by a simpler linear layer. This layer is computed only once at the first diffusion inference step, and its output is then cached and reused throughout the inference process, thereby enhancing efficiency while maintaining high-quality outputs. Building on these insights, we introduce the VCUT, a training-free approach optimized for efficiency within the SVD architecture. VCUT eliminates temporal cross-attention and replaces spatial cross-attention with a one-time computed linear layer, significantly reducing computational load. The implementation of VCUT leads to a reduction of up to 322T Multiple-Accumulate Operations (MACs) per video and a decrease in model parameters by up to 50M, achieving a 20% reduction in latency compared to the baseline. Our approach demonstrates that conditioning during the Semantic Binding stage is sufficient, eliminating the need for continuous computation across all inference steps and setting a new standard for efficient video generation. | 翻訳日:2024-07-30 19:21:07 公開日:2024-07-27 |
# 協調的なCP-NIZK: 分散シークレットのためのモジュール的で構成可能な証明
Collaborative CP-NIZKs: Modular, Composable Proofs for Distributed Secrets ( http://arxiv.org/abs/2407.19212v1 ) ライセンス: Link先を確認 | Mohammed Alghazwi, Tariq Bontekoe, Leon Visscher, Fatih Turkmen, | (参考訳) 非対話的ゼロ知識(NIZK)の知識証明は、プライバシと正当性の両方に依存する広範囲のアプリケーションを実現する上で、極めて関連性があることが証明されている。
証明者は、秘密の証人に対する公言の正当性をいかなる当事者にも納得させることができる。
しかし、ほとんどのNIZKは、複数のプローバーに分散した秘密の目撃者の知識の証明をネイティブにサポートしていない。
以前は、この制限を克服するために共同証明[51]が提案されていた。
本稿では,レゴSNARK[17]のコミット・アンド・プロブ設計に従って,コンポーザビリティの概念を考察する。
構成性により、ユーザーは異なる特殊なNIZK(例えば、1つの算術回路、1つのブール回路、1つのレンジ証明)を、証明生成時間を短縮するために組み合わせることができる。
さらに、相互排他的な証明グループ、協調的な証明と単一パーティの証明を組み合わせること、公的な監査可能なMPC(PA-MPC)を効率的に実装することなど、協調的な環境で多くのアプリケーションの効率的な実現への扉を開く。
本稿では,知識の協調的コミット・アンド・プロブNIZK(CP-NIZK)証明の最初の一般定義を示し,その実現を目的とした分散プロトコルの構築を行う。
我々は、一般的なNIZKであるGroth16とBulletproofのプロトコルを実装し、その実用性を様々な計算環境で評価する。
コンポーザビリティは,特に大型回路において,わずかなオーバーヘッドしか生じないことが示唆された。
アプリケーション設定で構築実験を行い、以前の作業と比較すると、通信の分数(0.2%)しか必要とせず、レイテンシーを18~55倍削減しました。
Non-interactive zero-knowledge (NIZK) proofs of knowledge have proven to be highly relevant for securely realizing a wide array of applications that rely on both privacy and correctness. They enable a prover to convince any party of the correctness of a public statement for a secret witness. However, most NIZKs do not natively support proving knowledge of a secret witness that is distributed over multiple provers. Previously, collaborative proofs [51] have been proposed to overcome this limitation. We investigate the notion of composability in this setting, following the Commit-and-Prove design of LegoSNARK [17]. Composability allows users to combine different, specialized NIZKs (e.g., one arithmetic circuit, one boolean circuit, and one for range proofs) with the aim of reducing the prove generation time. Moreover, it opens the door to efficient realizations of many applications in the collaborative setting such as mutually exclusive prover groups, combining collaborative and single-party proofs and efficiently implementing publicly auditable MPC (PA-MPC). We present the first, general definition for collaborative commit-and-prove NIZK (CP-NIZK) proofs of knowledge and construct distributed protocols to enable their realization. We implement our protocols for two commonly used NIZKs, Groth16 and Bulletproofs, and evaluate their practicality in a variety of computational settings. Our findings indicate that composability adds only minor overhead, especially for large circuits. We experimented with our construction in an application setting, and when compared to prior works, our protocols reduce latency by 18-55x while requiring only a fraction (0.2%) of the communication. | 翻訳日:2024-07-30 19:21:07 公開日:2024-07-27 |
# QEEGNet: 拡張脳波エンコーディングのための量子機械学習
QEEGNet: Quantum Machine Learning for Enhanced Electroencephalography Encoding ( http://arxiv.org/abs/2407.19214v1 ) ライセンス: Link先を確認 | Chi-Sheng Chen, Samuel Yen-Chi Chen, Aidan Hung-Wen Tsai, Chun-Shu Wei, | (参考訳) 脳波検査(Electroencephalography、EEG)は、脳活動のモニタリングと分析のための神経科学および臨床実践において重要なツールである。
EEGNetのような従来のニューラルネットワークモデルは、EEG信号の復号化でかなりの成功を収めてきたが、しばしばデータの複雑さと高次元性に悩まされている。
量子コンピューティングの最近の進歩は、量子機械学習(QML)技術を通じて機械学習モデルを強化する新たな機会を提供する。
本稿では,量子コンピューティングと従来のEEGNetアーキテクチャを統合した新しいハイブリッドニューラルネットワークであるQuantum-EEGNetを紹介する。
QEEGNetはニューラルネットワークに量子層を組み込んで、EEGデータのより複雑なパターンをキャプチャし、計算上の利点を提供する。
我々は、ベンチマークEEGデータセットであるBCI Competition IV 2aでQEEGNetを評価し、従来のEEGNetをほとんどの被験者で一貫して上回り、ノイズに対するロバスト性を示している。
本研究は,脳波解析における量子強化ニューラルネットワークの有意な可能性を強調し,この分野における研究と実践の両面での新しい方向性を示唆するものである。
Electroencephalography (EEG) is a critical tool in neuroscience and clinical practice for monitoring and analyzing brain activity. Traditional neural network models, such as EEGNet, have achieved considerable success in decoding EEG signals but often struggle with the complexity and high dimensionality of the data. Recent advances in quantum computing present new opportunities to enhance machine learning models through quantum machine learning (QML) techniques. In this paper, we introduce Quantum-EEGNet (QEEGNet), a novel hybrid neural network that integrates quantum computing with the classical EEGNet architecture to improve EEG encoding and analysis, as a forward-looking approach, acknowledging that the results might not always surpass traditional methods but it shows its potential. QEEGNet incorporates quantum layers within the neural network, allowing it to capture more intricate patterns in EEG data and potentially offering computational advantages. We evaluate QEEGNet on a benchmark EEG dataset, BCI Competition IV 2a, demonstrating that it consistently outperforms traditional EEGNet on most of the subjects and other robustness to noise. Our results highlight the significant potential of quantum-enhanced neural networks in EEG analysis, suggesting new directions for both research and practical applications in the field. | 翻訳日:2024-07-30 19:21:07 公開日:2024-07-27 |
# 線形サンプルにおける雑音によるスパースパリティの学習
Learning Sparse Parity with Noise in Linear Samples ( http://arxiv.org/abs/2407.19215v1 ) ライセンス: Link先を確認 | Xue Chen, Wenxuan Shu, Zhaienhe Zhou, | (参考訳) 我々は、最低でも$n$変数の$k$を含むスパースシークレットを用いて、ノイズ問題と学習パリティを再考する。
$\eta$は、各ラベルが確率$\eta$でフリップされるようなノイズ率を表す。
本研究では,低雑音設定と高雑音設定のアルゴリズムを別々に示す。
我々は、任意の$\eta$と$k$に対して、O(\eta \cdot n/k)^k$を走らせるアルゴリズムを示し、$n>k/\eta$を満たす。
これにより、$k\le n^{0.99}$や$\eta < \sqrt{k/n}$のような幅広いパラメータでスパースパリティを学習するための最先端技術が向上し、最もよく知られているアルゴリズムは少なくとも${\binom{n}{k/2}} \ge (n/k)^{k/2}$を走らせた。
バイアスサンプルの生成に基づく従来のアプローチと異なり、新しいアイデアはサブセットサンプリングとガウス除去を組み合わせることである。
得られたアルゴリズムは、$O(k/\eta + k \log \frac{n}{k})$サンプルを必要とし、以前のアルゴリズムよりも構造的に単純である。
高雑音設定では、$n^{\frac{\omega+o(1)}{3}\cdot k}$ time (行列乗算定数 $\omega$) と $\tilde{O}(k^2)$ sample を用いてヴァリアントの古典的アルゴリズムを改善する。
任意の$\eta<1/2$に対して、我々のアルゴリズムは時間複雑性$(n/k)^{\frac{\omega+o(1)}{3}\cdot k}$とサンプル複雑性$\tilde{O}(k)$を持つ。
したがって、時間複雑性とサンプル複雑性の両方の観点からヴァリアントのアルゴリズムを改善し、ヴァリアントのフレームワークを一般化して、任意の$k \le n^{0.99}$と$\eta \in (0.4,0.5)$に対して最先端のバウンドを与える。
We revisit the learning parity with noise problem with a sparse secret that involves at most $k$ out of $n$ variables. Let $\eta$ denote the noise rate such that each label gets flipped with probability $\eta$. In this work, we show algorithms in the low-noise setting and high-noise setting separately. We present an algorithm of running time $O(\eta \cdot n/k)^k$ for any $\eta$ and $k$ satisfying $n>k/\eta$. This improves the state-of-the-art for learning sparse parity in a wide range of parameters like $k\le n^{0.99}$ and $\eta < \sqrt{k/n}$, where the best known algorithm had running time at least ${\binom{n}{k/2}} \ge (n/k)^{k/2}$ . Different from previous approaches based on generating biased samples , our new idea is to combine subset sampling and Gaussian elimination. The resulting algorithm just needs $O(k/\eta + k \log \frac{n}{k})$ samples and is structurally simpler than previous algorithms. In the high-noise setting, we present an improvement on Valiant's classical algorithm using $n^{\frac{\omega+o(1)}{3}\cdot k}$ time (with the matrix multiplication constant $\omega$) and $\tilde{O}(k^2)$ samples. For any $\eta<1/2$, our algorithm has time complexity $(n/k)^{\frac{\omega+o(1)}{3}\cdot k}$ and sample complexity $\tilde{O}(k)$. Hence it improves Valiant's algorithm in terms of both time complexity and sample complexity and generalizes Valiant's framework to give the state-of-the-art bound for any $k \le n^{0.99}$ and $\eta \in (0.4,0.5)$. | 翻訳日:2024-07-30 19:21:07 公開日:2024-07-27 |
# EaTVul:ChatGPTベースのソフトウェア脆弱性検出に対する侵入攻撃
EaTVul: ChatGPT-based Evasion Attack Against Software Vulnerability Detection ( http://arxiv.org/abs/2407.19216v1 ) ライセンス: Link先を確認 | Shigang Liu, Di Cao, Junae Kim, Tamas Abraham, Paul Montague, Seyit Camtepe, Jun Zhang, Yang Xiang, | (参考訳) 近年、ディープラーニングは脆弱性検出の精度を高め、ソフトウェアの脆弱性を識別する上で有望な結果を証明している。
しかし、これらの技術は依然として攻撃に弱い。
敵対的な例は、ディープニューラルネットワーク内の脆弱性を悪用し、システムのセキュリティに重大な脅威をもたらす可能性がある。
本研究は,攻撃成功率100%を達成できる敵対的攻撃に対する深層学習モデルの受容可能性を示す(表5参照)。
提案手法は,支援ベクトルマシンを用いた重要なサンプルの同定,注意機構を用いた重要な特徴の同定,ChatGPTを用いたこれらの特徴に基づく敵データの生成,敵攻撃プールの作成,ファジィ遺伝的アルゴリズムを用いたシードデータの選択,回避攻撃の実施の6段階を含む。
大規模な実験はEaTVulの有効性を示し、スニペットサイズが2より大きい場合に83%以上の攻撃成功率を達成する。
さらに、スニペットサイズが4のほとんどの場合、EaTVulは100%の攻撃成功率を達成する。
本研究は,ソフトウェア脆弱性検出における敵攻撃に対する堅牢な防御の必要性を強調した。
Recently, deep learning has demonstrated promising results in enhancing the accuracy of vulnerability detection and identifying vulnerabilities in software. However, these techniques are still vulnerable to attacks. Adversarial examples can exploit vulnerabilities within deep neural networks, posing a significant threat to system security. This study showcases the susceptibility of deep learning models to adversarial attacks, which can achieve 100% attack success rate (refer to Table 5). The proposed method, EaTVul, encompasses six stages: identification of important samples using support vector machines, identification of important features using the attention mechanism, generation of adversarial data based on these features using ChatGPT, preparation of an adversarial attack pool, selection of seed data using a fuzzy genetic algorithm, and the execution of an evasion attack. Extensive experiments demonstrate the effectiveness of EaTVul, achieving an attack success rate of more than 83% when the snippet size is greater than 2. Furthermore, in most cases with a snippet size of 4, EaTVul achieves a 100% attack success rate. The findings of this research emphasize the necessity of robust defenses against adversarial attacks in software vulnerability detection. | 翻訳日:2024-07-30 19:11:23 公開日:2024-07-27 |
# サイバーセキュリティ防衛の強化:MITRE ATT&CK緩和戦略に対する多基準意思決定アプローチ
Enhancing cybersecurity defenses: a multicriteria decision-making approach to MITRE ATT&CK mitigation strategy ( http://arxiv.org/abs/2407.19222v1 ) ライセンス: Link先を確認 | Ihab Mohamed, Hesham A. Hefny, Nagy R. Darwish, | (参考訳) ハッカーは常に、システムの脆弱性を攻撃して悪用する新しい方法を見つけようとしている。
近年、デバイスやネットワークの接続の増加により、サイバーセキュリティの脅威やリスクが増加している。
これにより、ランサムウェア、データ漏洩、高度な永続的脅威(APT)など、新たなサイバー攻撃パターンが開発された。
そのため、このような複雑な攻撃を防御するには、適切なサイバーセキュリティ防衛戦略を確立するために、最新のシステムの脆弱性と弱点を最新に保つ必要がある。
本稿では,MITRE ATT&CKフレームワークとMCDM(Multi-criteria decision-making)技術を組み合わせて,どのセキュリティ制御を行うべきかを判断・優先順位付けすることで,提示されたセキュリティ脅威に対する防御戦略を提案する。
このアプローチは、組織がより堅牢でレジリエントなサイバーセキュリティ姿勢を達成するのに役立つ。
Cybersecurity is a big challenge as hackers are always trying to find new methods to attack and exploit system vulnerabilities. Cybersecurity threats and risks have increased in recent years, due to the increasing number of devices and networks connected. This has led to the development of new cyberattack patterns, such as ransomware, data breaches, and advanced persistent threats (APT). Consequently, defending such complicated attacks needs to stay up to date with the latest system vulnerabilities and weaknesses to set a proper cybersecurity defense strategy. This paper aims to propose a defense strategy for the presented security threats by determining and prioritizing which security control to put in place based on combining the MITRE ATT&CK framework with multi-criteria decision-making (MCDM) techniques. This approach helps organizations achieve a more robust and resilient cybersecurity posture. | 翻訳日:2024-07-30 19:11:23 公開日:2024-07-27 |
# RAVSS:多話者シナリオにおけるロバスト・オーディオ・ビジュアル音声分離
RAVSS: Robust Audio-Visual Speech Separation in Multi-Speaker Scenarios with Missing Visual Cues ( http://arxiv.org/abs/2407.19224v1 ) ライセンス: Link先を確認 | Tianrui Pan, Jie Liu, Bohan Wang, Jie Tang, Gangshan Wu, | (参考訳) 既存のAVSS(Audio-Visual Speech separation)手法は、主に2話者分離のための音声-視覚融合戦略に重点を置いているが、それらはマルチ話者分離シナリオにおいて深刻な性能低下を示す。
典型的には、AVSS法では、個々の話者を所定のオーディオミックスから順次分離するためにガイドビデオを使用する。
本研究では,単一プロセス内で複数の話者の同時分離を容易にする,同時多話者分離フレームワークを提案する。
話者間の区別と相関を確立するために、話者と話者の相互作用を導入する。
VoxCeleb2 と LRS3 のデータセットによる実験結果から,2, 3, 4, 5 話者を分離した場合に,本手法が最先端の性能を達成することが示された。
さらに,本モデルでは,音声・視覚情報を完全に活用することで,他の視覚障害話者を軽減し,視覚的手がかりの欠如に対するレジリエンスを高めることができる。
また、特定の話者の視覚情報が完全に欠落している場合や、視覚的フレームが部分的に欠落している場合も検討する。
その結果,2, 3, 4, 5 話者を含むすべての設定において,我々のモデルが最小性能の低下を示した。
While existing Audio-Visual Speech Separation (AVSS) methods primarily concentrate on the audio-visual fusion strategy for two-speaker separation, they demonstrate a severe performance drop in the multi-speaker separation scenarios. Typically, AVSS methods employ guiding videos to sequentially isolate individual speakers from the given audio mixture, resulting in notable missing and noisy parts across various segments of the separated speech. In this study, we propose a simultaneous multi-speaker separation framework that can facilitate the concurrent separation of multiple speakers within a singular process. We introduce speaker-wise interactions to establish distinctions and correlations among speakers. Experimental results on the VoxCeleb2 and LRS3 datasets demonstrate that our method achieves state-of-the-art performance in separating mixtures with 2, 3, 4, and 5 speakers, respectively. Additionally, our model can utilize speakers with complete audio-visual information to mitigate other visual-deficient speakers, thereby enhancing its resilience to missing visual cues. We also conduct experiments where visual information for specific speakers is entirely absent or visual frames are partially missing. The results demonstrate that our model consistently outperforms others, exhibiting the smallest performance drop across all settings involving 2, 3, 4, and 5 speakers. | 翻訳日:2024-07-30 19:11:23 公開日:2024-07-27 |
# Magic3DSketch: テキストと言語画像による3Dモデリングから色とりどりの3Dモデルを作る
Magic3DSketch: Create Colorful 3D Models From Sketch-Based 3D Modeling Guided by Text and Language-Image Pre-Training ( http://arxiv.org/abs/2407.19225v1 ) ライセンス: Link先を確認 | Ying Zang, Yidong Han, Chaotao Ding, Jianqi Zhang, Tianrun Chen, | (参考訳) AR/VRアプリケーションが出現するにつれて、3Dコンテンツの要件は増大している。
CAD(Computer-Aided Design)のような従来の手法は労働集約的であり、スキルの要求が多すぎるため、初心者には難しい。
提案手法であるMagic3DSketchは、スケッチを符号化して3Dメッシュを予測し、テキスト記述によってガイドされ、テキストと言語イメージによる事前学習によって得られた外部の事前知識を活用する。
言語イメージの事前学習ニューラルネットワークの統合は、シングルビュースケッチ入力のスパースであいまいな性質を補完する。
ユーザ調査によると,本手法は既存のテキスト・ツー・3D手法と比較して,より有用であり,制御性が高い。
さらに、Magic3DSketchはテキスト入力の助けを借りてより詳細な構造と現実的な形状を生成できるため、合成データセットと実データセットの両方で最先端のパフォーマンスを実現する。
ユーザ調査によると、Magic3DSketchのモデルにも満足している。
さらに、スケッチ由来の形状にテキスト記述に基づく色を加えることも、私たちの知る限りでは初めてです。
Magic3DSketchは、スケッチとテキストのガイダンスと、言語イメージの事前訓練されたモデルの助けを組み合わせることで、初心者のユーザーが最小限の努力と最大限の創造的自由でカスタム3Dモデルを作成することができ、将来の3Dモデリングパイプラインに革命をもたらす可能性がある。
The requirement for 3D content is growing as AR/VR application emerges. At the same time, 3D modelling is only available for skillful experts, because traditional methods like Computer-Aided Design (CAD) are often too labor-intensive and skill-demanding, making it challenging for novice users. Our proposed method, Magic3DSketch, employs a novel technique that encodes sketches to predict a 3D mesh, guided by text descriptions and leveraging external prior knowledge obtained through text and language-image pre-training. The integration of language-image pre-trained neural networks complements the sparse and ambiguous nature of single-view sketch inputs. Our method is also more useful and offers higher degree of controllability compared to existing text-to-3D approaches, according to our user study. Moreover, Magic3DSketch achieves state-of-the-art performance in both synthetic and real dataset with the capability of producing more detailed structures and realistic shapes with the help of text input. Users are also more satisfied with models obtained by Magic3DSketch according to our user study. Additionally, we are also the first, to our knowledge, add color based on text description to the sketch-derived shapes. By combining sketches and text guidance with the help of language-image pretrained models, our Magic3DSketch can allow novice users to create custom 3D models with minimal effort and maximum creative freedom, with the potential to revolutionize future 3D modeling pipelines. | 翻訳日:2024-07-30 19:11:23 公開日:2024-07-27 |
# 多体動的局在による量子情報保護
Protecting Quantum Information via Many-Body Dynamical Localization ( http://arxiv.org/abs/2407.19228v1 ) ライセンス: Link先を確認 | Ling-Zhi Tang, Dan-Wei Zhang, Hai-Feng Yu, Z. D. Wang, | (参考訳) 量子多体系の動的局在状態は、量子熱化を理解するのに基本的に重要であり、量子情報処理に応用できる。
ここでは、周期的および二次的キックの下で、非可積分量子XYスピンチェーンにおける障害のない多体動的局在(MBDL)について検討する。
MBDLと非局在化状態を持つ局所化位相図を取得し、動的観測値を示し、位相図を抽出する。
MBDL系における適切なキック強度を得るために、特定のスピンのラビ振動に対する局所的動的デカップリング効果を明らかにする。
さらに,MBDLで保護された量子情報を高温で解析し,量子記憶に必要なシステムパラメータを求める。
他の非熱化状態と比較して、無秩序なMBDL状態は繰り返しや資源をはるかに少なくし、熱雑音に対して堅牢な量子情報を保護し保存する有望な手段を提供する。
Dynamically localized states in quantum many-body systems are fundamentally important in understanding quantum thermalization and have applications in quantum information processing. Here we explore many-body dynamical localization (MBDL) without disorders in a non-integrable quantum XY spin chain under periodical and quadratic kicks. We obtain the localization phase diagram with the MBDL and delocalization states and show dynamical observables to extract the phase diagram. For proper kick strengths in the MBDL regime, we reveal a local dynamical decoupling effect for persistent Rabi oscillation of certain spins. Furthermore, we propose the MBDL-protected quantum information at high temperatures, and present an analysis of the dynamical decoupling to obtain the required system parameters for quantum storage. Compared to other non-thermalized states, the disorder-free MBDL states require much fewer repetitions and resources, providing a promising way to protect and store quantum information robust against thermal noises. | 翻訳日:2024-07-30 19:11:23 公開日:2024-07-27 |
# コンパクト多様体上の凝集による過平滑化の軽減
Alleviating Over-Smoothing via Aggregation over Compact Manifolds ( http://arxiv.org/abs/2407.19231v1 ) ライセンス: Link先を確認 | Dongzhuoran Zhou, Hui Yang, Bo Xiong, Yue Ma, Evgeny Kharlamov, | (参考訳) グラフニューラルネットワーク(GNN)は様々なアプリケーションで大きな成功を収めている。
ほとんどのGNNは、隣人の情報収集と各レイヤの機能変換によってノードの特徴を学習する。
しかし、ノードの機能は多くのレイヤの後に区別不能になり、パフォーマンスが劣化する。
過去の研究では、レイヤワイド出力の正規化やスキップ接続など、この問題に対処する様々な手法が採用されている。
研究の結果、既存の作業における情報集約は、すべて収縮した集約であり、特徴が複数のレイヤーの後に必然的に同じ単一点に収束するという本質的な性質を持つことがわかった。
そこで本研究では, コンパクト多様体上のアグリゲーションに代えて, 制約付きアグリゲーションを回避する, コンパクト多様体上のアグリゲーションに代えて, コンパクトなアグリゲーション法(ACM)を用いたアグリゲーションを提案する。
本研究では,契約集約とその特性を理論的に解析する。
また,ACMが過度なスムース化を効果的に軽減し,最先端技術より優れていることを示す実験的な評価も行った。
コードはhttps://github.com/DongzhuoranZhou/ACM.gitにある。
Graph neural networks (GNNs) have achieved significant success in various applications. Most GNNs learn the node features with information aggregation of its neighbors and feature transformation in each layer. However, the node features become indistinguishable after many layers, leading to performance deterioration: a significant limitation known as over-smoothing. Past work adopted various techniques for addressing this issue, such as normalization and skip-connection of layer-wise output. After the study, we found that the information aggregations in existing work are all contracted aggregations, with the intrinsic property that features will inevitably converge to the same single point after many layers. To this end, we propose the aggregation over compacted manifolds method (ACM) that replaces the existing information aggregation with aggregation over compact manifolds, a special type of manifold, which avoids contracted aggregations. In this work, we theoretically analyze contracted aggregation and its properties. We also provide an extensive empirical evaluation that shows ACM can effectively alleviate over-smoothing and outperforms the state-of-the-art. The code can be found in https://github.com/DongzhuoranZhou/ACM.git. | 翻訳日:2024-07-30 19:11:23 公開日:2024-07-27 |
# 非同期SGDのための順序付きモーメント
Ordered Momentum for Asynchronous SGD ( http://arxiv.org/abs/2407.19234v1 ) ライセンス: Link先を確認 | Chang-Wei Shi, Yi-Rui Yang, Wu-Jun Li, | (参考訳) 大規模深層モデルのトレーニングには分散学習が不可欠だ。
非同期SGD~(ASGD)とその変種は、クラスタ内のワーカの計算能力が不均一である多くのシナリオにおいて、分散学習法として一般的に使用される。
Momentumは、ディープモデルトレーニングにおける最適化と一般化の両面での利点が認められている。
しかし、既存の研究により、ASGDに運動量を取り込むことで収束を妨げることが判明している。
本稿では,ASGDのための順序運動量(OrMo)と呼ばれる新しい手法を提案する。
OrMo では、モーメントを ASGD に組み入れ、それらの反復指数に基づいて順に勾配を整理する。
非凸問題に対するOrMoの収束を理論的に証明する。
我々の知る限り、これは有界遅延仮定に頼ることなく運動量を持つASGDの収束解析を確立する最初の研究である。
実験の結果, モーメントを持つASGDや他の非同期手法と比較して, OrMo は収束性能が向上することが示された。
Distributed learning is indispensable for training large-scale deep models. Asynchronous SGD~(ASGD) and its variants are commonly used distributed learning methods in many scenarios where the computing capabilities of workers in the cluster are heterogeneous. Momentum has been acknowledged for its benefits in both optimization and generalization in deep model training. However, existing works have found that naively incorporating momentum into ASGD can impede the convergence. In this paper, we propose a novel method, called ordered momentum (OrMo), for ASGD. In OrMo, momentum is incorporated into ASGD by organizing the gradients in order based on their iteration indexes. We theoretically prove the convergence of OrMo for non-convex problems. To the best of our knowledge, this is the first work to establish the convergence analysis of ASGD with momentum without relying on the bounded delay assumption. Empirical results demonstrate that OrMo can achieve better convergence performance compared with ASGD and other asynchronous methods with momentum. | 翻訳日:2024-07-30 19:11:23 公開日:2024-07-27 |
# 擬似ベイズ文脈木の近似学習
Approximate learning of parsimonious Bayesian context trees ( http://arxiv.org/abs/2407.19236v1 ) ライセンス: Link先を確認 | Daniyar Ghani, Nicholas A. Heard, Francesco Sanna Passino, | (参考訳) 分類列のモデルは通常、交換可能または一階依存配列要素を仮定する。
これらは、例えば、コンピュータマルウェアのトレースとタンパク質配列のモデルにおける一般的な仮定である。
このような単純化された仮定は計算的なトラクタビリティをもたらすが、これらのモデルはより予測力を高めるために利用されるような、長距離で複雑な依存構造を捉えることができない。
この目的のために,データストリームのリアルタイム処理に適したメモリ効率を備えたベイジアン・モデリング・フレームワークを提案する。
相似ベイズ文脈木は、共役事前分布を持つ可変階マルコフモデルの形式として導入される。
新しいフレームワークでは、冗長な依存関係を削除し、シーケンシャルなコンテキストをクラスタリングすることで、固定順序のMarkovモデルよりも少ないパラメータを必要とする。
文脈木構造に対する近似推論は、計算効率のよいモデルベース凝集クラスタリング手法によって行われる。
提案したフレームワークは、合成および実世界のデータ例に基づいてテストされ、実際のタンパク質配列やハニーポットコンピュータ端末セッションに適合すると、既存のシーケンスモデルよりも優れている。
Models for categorical sequences typically assume exchangeable or first-order dependent sequence elements. These are common assumptions, for example, in models of computer malware traces and protein sequences. Although such simplifying assumptions lead to computational tractability, these models fail to capture long-range, complex dependence structures that may be harnessed for greater predictive power. To this end, a Bayesian modelling framework is proposed to parsimoniously capture rich dependence structures in categorical sequences, with memory efficiency suitable for real-time processing of data streams. Parsimonious Bayesian context trees are introduced as a form of variable-order Markov model with conjugate prior distributions. The novel framework requires fewer parameters than fixed-order Markov models by dropping redundant dependencies and clustering sequential contexts. Approximate inference on the context tree structure is performed via a computationally efficient model-based agglomerative clustering procedure. The proposed framework is tested on synthetic and real-world data examples, and it outperforms existing sequence models when fitted to real protein sequences and honeypot computer terminal sessions. | 翻訳日:2024-07-30 19:11:23 公開日:2024-07-27 |
# 陸上大気フラックスから高調波を抽出する非線形スペクトル解析
Nonlinear spectral analysis extracts harmonics from land-atmosphere fluxes ( http://arxiv.org/abs/2407.19237v1 ) ライセンス: Link先を確認 | Leonard Schulz, Jürgen Vollmer, Miguel D. Mahecha, Karin Mora, | (参考訳) CO$2$の土地・大気交換のダイナミクスを理解することは、気候・炭素フィードバックシステムの予測能力を高める鍵となる。
本質的には、光合成によるCO$_2$の取り込みと呼吸によるCO$_2$の放出の差であり、システムは異なる時間スケールで周期的プロセスによって駆動される。
基礎となる力学の複雑さは、特異スペクトル解析のようなデータ分散の最大化に焦点を当てた古典的な分解法に課題をもたらす。
本稿では,非線形データ駆動手法が雑音や確率的変動から周期パターンとその調和性をよりよく分離できるかどうかを考察する。
非線形ラプラシア分光分析(NLSA)は線形法より優れ、複数の関連する高調波を検出する。
しかし、これらの高調波は、実質的な測定の不規則性の存在下では検出されない。
まとめると、NLSAアプローチは、線形手法よりも季節周期をより正確に抽出するためにも使用できるが、不規則な陸-大気相互作用や測定失敗に起因する不規則信号を検出することもできる。
時系列分解の検出能力の向上は、任意の時間スケールで正確に動作すべき陸・大気相互作用モデルの改善に不可欠である。
Understanding the dynamics of the land-atmosphere exchange of CO$_2$ is key to advance our predictive capacities of the coupled climate-carbon feedback system. In essence, the net vegetation flux is the difference of the uptake of CO$_2$ via photosynthesis and the release of CO$_2$ via respiration, while the system is driven by periodic processes at different time-scales. The complexity of the underlying dynamics poses challenges to classical decomposition methods focused on maximizing data variance, such as singular spectrum analysis. Here, we explore whether nonlinear data-driven methods can better separate periodic patterns and their harmonics from noise and stochastic variability. We find that Nonlinear Laplacian Spectral Analysis (NLSA) outperforms the linear method and detects multiple relevant harmonics. However, these harmonics are not detected in the presence of substantial measurement irregularities. In summary, the NLSA approach can be used to both extract the seasonal cycle more accurately than linear methods, but likewise detect irregular signals resulting from irregular land-atmosphere interactions or measurement failures. Improving the detection capabilities of time-series decomposition is essential for improving land-atmosphere interactions models that should operate accurately on any time scale. | 翻訳日:2024-07-30 19:11:23 公開日:2024-07-27 |
# 周波数信号に基づくヒトシルエットセグメンテーション : 逐次拡散アプローチ
Radio Frequency Signal based Human Silhouette Segmentation: A Sequential Diffusion Approach ( http://arxiv.org/abs/2407.19244v1 ) ライセンス: Link先を確認 | Penghui Wen, Kun Hu, Dong Yuan, Zhiyuan Ning, Changyang Li, Zhiyong Wang, | (参考訳) 高周波(RF)信号は複雑な環境下でのヒトのシルエットセグメンテーション(HSS)に対して柔軟であることが証明されている。
既存の研究は主に、RF領域からのコヒーレント射影能力に欠けるワンショットアプローチに基づいている。
さらに、この時空間パターンは、HSSにおける人間の運動力学について完全には研究されていない。
そこで我々は,2段階連続拡散モデル (SDM) を提案し,運動力学の考察とともに,高品質なセグメンテーションを段階的に合成する。
信号面からの指向性投影などの個々のフレームにおける人間関連パターンを包括的に特徴付けるため,クロスビュー変換ブロックが多スケールで拡散モデルを導出するために考案された。
さらに、時空間ブロックはフレームレベルのモデルを微調整し、時空間の文脈や動きのダイナミクスを取り入れ、分節写像の整合性を高めるために考案される。
HIBERは、IoU 0.732を用いて、我々の手法の最先端性能を実証する。
私たちのコードはhttps://github.com/ph-w2000/SDMで公開されています。
Radio frequency (RF) signals have been proved to be flexible for human silhouette segmentation (HSS) under complex environments. Existing studies are mainly based on a one-shot approach, which lacks a coherent projection ability from the RF domain. Additionally, the spatio-temporal patterns have not been fully explored for human motion dynamics in HSS. Therefore, we propose a two-stage Sequential Diffusion Model (SDM) to progressively synthesize high-quality segmentation jointly with the considerations on motion dynamics. Cross-view transformation blocks are devised to guide the diffusion model in a multi-scale manner for comprehensively characterizing human related patterns in an individual frame such as directional projection from signal planes. Moreover, spatio-temporal blocks are devised to fine-tune the frame-level model to incorporate spatio-temporal contexts and motion dynamics, enhancing the consistency of the segmentation maps. Comprehensive experiments on a public benchmark -- HIBER demonstrate the state-of-the-art performance of our method with an IoU 0.732. Our code is available at https://github.com/ph-w2000/SDM. | 翻訳日:2024-07-30 19:11:23 公開日:2024-07-27 |
# Mamba-UIE:物理モデル制約による水中画像の強調
Mamba-UIE: Enhancing Underwater Images with Physical Model Constraint ( http://arxiv.org/abs/2407.19248v1 ) ライセンス: Link先を確認 | Song Zhang, Yuqing Duan, Dong Ana, Daoliang Li, Ran Zhao, | (参考訳) 水中画像強調(UIE)では、畳み込みニューラルネットワーク(CNN)は長距離依存のモデリングに固有の制限があり、グローバルな特徴の回復にはあまり効果がない。
トランスフォーマーは長距離依存のモデリングに優れていますが、画像解像度の増大に伴う2次計算の複雑さは、大きな効率上の課題を示します。
さらに、ほとんどの教師付き学習手法は効果的な物理モデル制約を欠いているため、現実主義が不十分になり、生成した画像に過度に適合する可能性がある。
これらの課題に対処するために,物理モデル制約に基づく水中画像強調フレームワークであるMamba-UIEを提案する。
具体的には、入力画像を水中のシーンラディアンス、ダイレクトトランスミッションマップ、バックスキャッタートランスミッションマップ、グローバルバックグラウンドライトの4つのコンポーネントに分解する。
これらの部品は、改良された水中画像形成モデルに従って再組み立てされ、再構成画像と原画像との再構成一貫性制約が適用され、水中画像強調処理に有効な物理的制約が達成される。
長い列を扱う場合の変換器の2次計算複雑性に対処するために,線形複雑性状態空間モデル(SSM)に基づくMamba-UIEネットワークを導入する。
コンボリューションブロックにMambaを組み込むことで、長距離依存はチャネルレベルと空間レベルの両方でモデル化され、CNNバックボーンは局所的な特徴と詳細を回復するために保持される。
3つの公開データセットに対する大規模な実験により、提案したMamba-UIEは既存の最先端手法より優れており、PSNRは27.13、SSIMは0.93であることがわかった。
私たちのメソッドはhttps://github.com/zhangsong1213/Mamba-UIEで利用可能です。
In underwater image enhancement (UIE), convolutional neural networks (CNN) have inherent limitations in modeling long-range dependencies and are less effective in recovering global features. While Transformers excel at modeling long-range dependencies, their quadratic computational complexity with increasing image resolution presents significant efficiency challenges. Additionally, most supervised learning methods lack effective physical model constraint, which can lead to insufficient realism and overfitting in generated images. To address these issues, we propose a physical model constraint-based underwater image enhancement framework, Mamba-UIE. Specifically, we decompose the input image into four components: underwater scene radiance, direct transmission map, backscatter transmission map, and global background light. These components are reassembled according to the revised underwater image formation model, and the reconstruction consistency constraint is applied between the reconstructed image and the original image, thereby achieving effective physical constraint on the underwater image enhancement process. To tackle the quadratic computational complexity of Transformers when handling long sequences, we introduce the Mamba-UIE network based on linear complexity state space models (SSM). By incorporating the Mamba in Convolution block, long-range dependencies are modeled at both the channel and spatial levels, while the CNN backbone is retained to recover local features and details. Extensive experiments on three public datasets demonstrate that our proposed Mamba-UIE outperforms existing state-of-the-art methods, achieving a PSNR of 27.13 and an SSIM of 0.93 on the UIEB dataset. Our method is available at https://github.com/zhangsong1213/Mamba-UIE. | 翻訳日:2024-07-30 19:11:23 公開日:2024-07-27 |
# 量子チャネルにおける資源性と不可分性
Resourcefulness vs indivisibility in quantum channels ( http://arxiv.org/abs/2407.19252v1 ) ライセンス: Link先を確認 | Priya Ghosh, Soumyajit Pal, Ujjwal Sen, | (参考訳) オープン量子力学は、その可視性に応じて、いくつかの方法で分類できる。
任意の有限期間に作用する任意の量子チャネルに対して、P と CP がそれぞれ正の正の値と完全正の正の値を示すような P と CP の可分性の測度を提案する。
続いて、任意の時間間隔内の任意の量子チャネルのリソースフルネス(任意の量子リソース)を測定するための2つの量も提案する。
さらに, 量子チャネルの可視性を定量化する指標と, 量子チャネルの可視性を測る指標との橋渡しを, 1つのクラスの要素と他方の要素との間の2つの別々の関係を同定することによって行う。
最後に、チャネルリソースとして量子非マルコビアン性を用いた2つの関係を検証する。
Open quantum dynamics can be categorized in several ways, including according to their divisibility. For any quantum channel acting for any finite time period, we propose measures of P-indivisibility and CP-indivisibility, where P and CP stand for positivity and complete positivity respectively. Subsequently, we also propose two quantities to measure the resourcefulness - with respect to an arbitrary quantum resource - of any quantum channel within any finite time interval. Moreover, we find a bridge between these two classes of metrics, viz. those quantifying divisibilities of quantum channels and those gauging their resourcefulness, by identifying two separate relations between elements of one class with those of the other. Lastly, we verify the two relations using quantum non-Markovianity as a channel resource. | 翻訳日:2024-07-30 19:11:23 公開日:2024-07-27 |
# 確率的パロットかICU専門家か : 医療における大規模言語モデル:スコーピングのレビュー
Stochastic Parrots or ICU Experts? Large Language Models in Critical Care Medicine: A Scoping Review ( http://arxiv.org/abs/2407.19256v1 ) ライセンス: Link先を確認 | Tongyue Shi, Jun Ma, Zihan Yu, Haowei Xu, Minqi Xiong, Meirong Xiao, Yilin Li, Huiying Zhao, Guilan Kong, | (参考訳) 人工知能(AI)の急速な発展に伴い、大規模言語モデル(LLM)は、自然言語理解、推論、生成において強力な能力を示し、健康や医学にLLMを適用することへの多くの研究の関心を集めている。
CCM(Critical Care Medicine)は、集中治療単位(ICU)の集中的モニタリングと介入を必要とする重度疾患の患者に対して、診断と治療を提供する。
LLMはCCMに適用できるのか?
LLMは、確率的オウムやICUの専門家のように臨床意思決定を支援するか?
このスコーピングレビューは、LCMをCCMに応用したパノラマ像を提供することを目的としている。
PubMed、Embase、Scoops、Web of Science、CINAHL、IEEE Xplore、ACM Digital Libraryを含む7つのデータベースの文献が、2019年1月1日から2024年6月10日まで検索された。
批判的ケア設定におけるLSMの適用について論じるピアレビュー論文や会議記事も含んだ。
最初の619条から24条が最終審査に選ばれている。
本報告では, CCMにおけるLCMの応用を, 臨床診断支援, 医療文書, 報告, 医学教育, 医師と患者とのコミュニケーションの3つのカテゴリに分類した。
LLMは非構造化データを扱う利点があり、手動の機能工学を必要としない。
一方、LCMをCCMに適用することは、幻覚、弱い解釈可能性、バイアスとアライメントの課題、プライバシーと倫理の問題など、課題に直面します。
今後の研究は、モデルの信頼性と解釈可能性を高め、最新の医療知識を統合し、プライバシーと倫理的ガイドラインを強化する。
LLMが進化するにつれて、CCMの重要なツールとなり、患者の成果を改善し、医療提供を最適化する。
本研究は, CCMにおけるLCMの現状と将来の可能性を理解するために, 研究者, 臨床医, 政策立案者を支援する最初のLCMのレビューである。
With the rapid development of artificial intelligence (AI), large language models (LLMs) have shown strong capabilities in natural language understanding, reasoning, and generation, attracting amounts of research interest in applying LLMs to health and medicine. Critical care medicine (CCM) provides diagnosis and treatment for critically ill patients who often require intensive monitoring and interventions in intensive care units (ICUs). Can LLMs be applied to CCM? Are LLMs just like stochastic parrots or ICU experts in assisting clinical decision-making? This scoping review aims to provide a panoramic portrait of the application of LLMs in CCM. Literature in seven databases, including PubMed, Embase, Scopus, Web of Science, CINAHL, IEEE Xplore, and ACM Digital Library, were searched from January 1, 2019, to June 10, 2024. Peer-reviewed journal and conference articles that discussed the application of LLMs in critical care settings were included. From an initial 619 articles, 24 were selected for final review. This review grouped applications of LLMs in CCM into three categories: clinical decision support, medical documentation and reporting, and medical education and doctor-patient communication. LLMs have advantages in handling unstructured data and do not require manual feature engineering. Meanwhile, applying LLMs to CCM faces challenges, including hallucinations, poor interpretability, bias and alignment challenges, and privacy and ethics issues. Future research should enhance model reliability and interpretability, integrate up-to-date medical knowledge, and strengthen privacy and ethical guidelines. As LLMs evolve, they could become key tools in CCM to help improve patient outcomes and optimize healthcare delivery. This study is the first review of LLMs in CCM, aiding researchers, clinicians, and policymakers to understand the current status and future potentials of LLMs in CCM. | 翻訳日:2024-07-30 19:11:23 公開日:2024-07-27 |
# 複合価値ニューラルネットワークの包括的調査:バックプロパゲーションとアクティベーション機能の考察
Comprehensive Survey of Complex-Valued Neural Networks: Insights into Backpropagation and Activation Functions ( http://arxiv.org/abs/2407.19258v1 ) ライセンス: Link先を確認 | M. M. Hammad, | (参考訳) 人工知能ニューラルネットワーク(ANN)、特にディープラーニングモデルを採用するものは、複雑な数値が不可欠であるコンピュータビジョン、信号処理、無線通信などの分野に広く応用されている。
現在のANNフレームワークにおける実数実装の普及にもかかわらず、複素数を利用するANNの開発への関心が高まっている。
本稿では,複雑評価ニューラルネットワーク(CVNN)の最近の進歩を包括的に調査し,その活性化機能(AF)と学習アルゴリズムに着目した。
複雑な入力、重み、AF、出力を含むニューラルネットワークのトレーニングを可能にする、バックプロパゲーションアルゴリズムの複雑な領域への拡張を探索する。
この調査では、複素微分法、偏微分法、コーシー・リーマン方程式を取り入れたアルゴリズムの3つの複雑なバックプロパゲーションアルゴリズムを考察した。
CVNN設計における重要な課題は、リウヴィルの定理で述べられているような複素平面全体に対する有界性と微分可能性の相違による、適切な非線形複素値活性化関数(CVAF)の同定である。
本研究では,有界性と微分可能性を求める完全複雑AFと,解析性を保たないにもかかわらず現実的な妥協を提供する分割AFについて検討する。
本総説では, CVNN構築に不可欠な各種CVAFの詳細な分析を行う。
さらに,本調査はCVNNの現状を概観するだけでなく,新たなCVAF(完全複雑・分裂・複雑振幅相AF)の導入による研究・開発にも貢献する。
Artificial neural networks (ANNs), particularly those employing deep learning models, have found widespread application in fields such as computer vision, signal processing, and wireless communications, where complex numbers are crucial. Despite the prevailing use of real-number implementations in current ANN frameworks, there is a growing interest in developing ANNs that utilize complex numbers. This paper presents a comprehensive survey of recent advancements in complex-valued neural networks (CVNNs), focusing on their activation functions (AFs) and learning algorithms. We delve into the extension of the backpropagation algorithm to the complex domain, which enables the training of neural networks with complex-valued inputs, weights, AFs, and outputs. This survey considers three complex backpropagation algorithms: the complex derivative approach, the partial derivatives approach, and algorithms incorporating the Cauchy-Riemann equations. A significant challenge in CVNN design is the identification of suitable nonlinear Complex Valued Activation Functions (CVAFs), due to the conflict between boundedness and differentiability over the entire complex plane as stated by Liouville theorem. We examine both fully complex AFs, which strive for boundedness and differentiability, and split AFs, which offer a practical compromise despite not preserving analyticity. This review provides an in-depth analysis of various CVAFs essential for constructing effective CVNNs. Moreover, this survey not only offers a comprehensive overview of the current state of CVNNs but also contributes to ongoing research and development by introducing a new set of CVAFs (fully complex, split and complex amplitude-phase AFs). | 翻訳日:2024-07-30 19:11:23 公開日:2024-07-27 |
# サンプルレベルバイアス予測による微粒なシーングラフ生成
Fine-Grained Scene Graph Generation via Sample-Level Bias Prediction ( http://arxiv.org/abs/2407.19259v1 ) ライセンス: Link先を確認 | Yansheng Li, Tingzhu Wang, Kang Wu, Linlin Wang, Xin Guo, Wenbin Wang, | (参考訳) シーングラフ生成(SGG)は、画像内のオブジェクト間の関係を探索し、シーン概要グラフを得る。
しかし、長い尾の問題はシーングラフの品質に悪影響を及ぼしている。
予測は粗い粒度の関係が支配的であり、より情報的な粒度の細かい関係が欠如している。
1つのオブジェクトペア(つまり1つのサンプル)の結合領域は、リッチで専用のコンテキスト情報を含み、サンプル固有のバイアスの予測を可能にして、元の関係予測を精査する。
そこで本研究では,細粒度SGG(SBG)のためのサンプルレベルバイアス予測(SBP)手法を提案する。
まず,古典的SGGモデルを訓練し,古典的SGGモデルを用いて基底真理ラベルと予測ラベルとのマージンを計算することにより,補正バイアスセットを構築する。
そこで,BGAN(Bias-Oriented Generative Adversarial Network)を考案し,構成された補正バイアスの予測を学習し,粗粒度関係から細粒度関係への補正を行う。
VG,GQA,VG-1800データセットに関する広範な実験結果から,当社のSBGは,Average@Kの観点から,Motif,VCtree,Transformerの3つの主流SGGモデルにおいて,最先端の手法よりも優れていることが示されている。
VG上のデータセットレベルの補正手法と比較して、SBGは、それぞれPredCls、SGCls、SGDetのAverage@Kにおける5.6%、3.9%、および3.2%の大幅な平均改善を示している。
コードはhttps://github.com/Zhuzi24/SBG.comで入手できる。
Scene Graph Generation (SGG) aims to explore the relationships between objects in images and obtain scene summary graphs, thereby better serving downstream tasks. However, the long-tailed problem has adversely affected the scene graph's quality. The predictions are dominated by coarse-grained relationships, lacking more informative fine-grained ones. The union region of one object pair (i.e., one sample) contains rich and dedicated contextual information, enabling the prediction of the sample-specific bias for refining the original relationship prediction. Therefore, we propose a novel Sample-Level Bias Prediction (SBP) method for fine-grained SGG (SBG). Firstly, we train a classic SGG model and construct a correction bias set by calculating the margin between the ground truth label and the predicted label with one classic SGG model. Then, we devise a Bias-Oriented Generative Adversarial Network (BGAN) that learns to predict the constructed correction biases, which can be utilized to correct the original predictions from coarse-grained relationships to fine-grained ones. The extensive experimental results on VG, GQA, and VG-1800 datasets demonstrate that our SBG outperforms the state-of-the-art methods in terms of Average@K across three mainstream SGG models: Motif, VCtree, and Transformer. Compared to dataset-level correction methods on VG, SBG shows a significant average improvement of 5.6%, 3.9%, and 3.2% on Average@K for tasks PredCls, SGCls, and SGDet, respectively. The code will be available at https://github.com/Zhuzi24/SBG. | 翻訳日:2024-07-30 19:11:23 公開日:2024-07-27 |
# テストスメルの検出における大規模言語モデルの評価
Evaluating Large Language Models in Detecting Test Smells ( http://arxiv.org/abs/2407.19261v1 ) ライセンス: Link先を確認 | Keila Lucas, Rohit Gheyi, Elvys Soares, Márcio Ribeiro, Ivan Machado, | (参考訳) テストの臭いは、一般的に不適切なプラクティス、効果的なテストに関する知識の欠如、プロジェクトを完成させる期限のプレッシャーから生じるコーディングの問題です。
テストの臭いの存在は、ソフトウェアの保守性と信頼性に悪影響を及ぼす可能性がある。
高度な静的分析や機械学習技術を使ってテストの臭いを検知するツールもあるが、これらのツールはよく使われる。
本研究では,テスト臭の自動検出におけるLarge Language Models (LLMs) の有効性を評価することを目的とする。
文献から収集した7つの異なるプログラミング言語のコードベースに30種類のテスト臭いを流し,ChatGPT-4,Mistral Large,Gemini Advancedを評価した。
ChatGPT-4は21種類の試験臭を同定した。
Gemini Advancedは17種を特定し、Mistral Largeは15種類の試験臭を検出した。
結論: LLMはテストの臭いを識別する貴重なツールとしての可能性を示した。
Test smells are coding issues that typically arise from inadequate practices, a lack of knowledge about effective testing, or deadline pressures to complete projects. The presence of test smells can negatively impact the maintainability and reliability of software. While there are tools that use advanced static analysis or machine learning techniques to detect test smells, these tools often require effort to be used. This study aims to evaluate the capability of Large Language Models (LLMs) in automatically detecting test smells. We evaluated ChatGPT-4, Mistral Large, and Gemini Advanced using 30 types of test smells across codebases in seven different programming languages collected from the literature. ChatGPT-4 identified 21 types of test smells. Gemini Advanced identified 17 types, while Mistral Large detected 15 types of test smells. Conclusion: The LLMs demonstrated potential as a valuable tool in identifying test smells. | 翻訳日:2024-07-30 19:01:38 公開日:2024-07-27 |
# LLMにおける記憶の理解:ダイナミクス、影響要因、含意
Understanding Memorisation in LLMs: Dynamics, Influencing Factors, and Implications ( http://arxiv.org/abs/2407.19262v1 ) ライセンス: Link先を確認 | Till Speicher, Mohammad Aflah Khan, Qinyuan Wu, Vedant Nanda, Soumi Das, Bishwamittra Ghosh, Krishna P. Gummadi, Evimaria Terzi, | (参考訳) 大規模言語モデル(LLM)がどの程度トレーニングデータを記憶したかを理解することは、その出力の信頼性とトレーニングデータのプライバシに重要な意味を持つ。
他の現象(例えば、文脈内学習)から記憶をきれいに計測し、解き放つために、ランダムな文字列に繰り返しLLMを露呈する実験的なフレームワークを作成します。
私たちのフレームワークは、ランダムな文字列に繰り返し公開する際に、モデルの振る舞いをよりよく理解することができます。
フレームワークを使用して、いくつかの顕著な観察を行います。
(a)モデルの族(Pythia,Phi,Llama2)間の力学の一貫した位相を求める。
b)一部の弦を他よりも覚えやすくする要因を特定し,
(c) 記憶における局所的な接頭辞の役割とグローバルな文脈を同定する。
また,異なるランダム文字列への逐次展開が記憶に重大な影響を及ぼすことを示す。
LLMの研究と利用において,我々の研究成果は,しばしば驚くべきものである。
Understanding whether and to what extent large language models (LLMs) have memorised training data has important implications for the reliability of their output and the privacy of their training data. In order to cleanly measure and disentangle memorisation from other phenomena (e.g. in-context learning), we create an experimental framework that is based on repeatedly exposing LLMs to random strings. Our framework allows us to better understand the dynamics, i.e., the behaviour of the model, when repeatedly exposing it to random strings. Using our framework, we make several striking observations: (a) we find consistent phases of the dynamics across families of models (Pythia, Phi and Llama2), (b) we identify factors that make some strings easier to memorise than others, and (c) we identify the role of local prefixes and global context in memorisation. We also show that sequential exposition to different random strings has a significant effect on memorisation. Our results, often surprising, have significant downstream implications in the study and usage of LLMs. | 翻訳日:2024-07-30 19:01:38 公開日:2024-07-27 |
# コントラスト表現を用いた音声分類におけるロバスト・ファウショット・インクリメンタル・ラーニング
Towards Robust Few-shot Class Incremental Learning in Audio Classification using Contrastive Representation ( http://arxiv.org/abs/2407.19265v1 ) ライセンス: Link先を確認 | Riyansha Singh, Parinita Nema, Vinod K Kurmi, | (参考訳) 機械学習アプリケーションでは、特にリアルタイム分析にインクリメンタルな学習が不可欠であるオーディオ処理において、漸進的なデータ入力が一般的である。
少数のクラスインクリメンタルな学習は、限られた受信データから生じる課題に対処する。
既存の手法は、しばしば追加のトレーニング可能なコンポーネントを統合するか、あるいはベースセッションでトレーニング後の固定埋め込み抽出器を頼りにすることで、破滅的な忘れ物やモデルオーバーフィッティングの危険性に関する懸念を軽減する。
しかし、ベースセッショントレーニング中に単独でクロスエントロピーロスを使用することは、オーディオデータに最適である。
そこで本研究では,教師付きコントラスト学習を取り入れて表現空間を洗練させ,識別力を高め,段階的なクラスをシームレスに統合しやすくすることで,より高度な一般化を実現することを提案する。
100のクラスを持つNSynthおよびLibriSpeechデータセットと50と10のクラスを持つESCデータセットの実験結果は、最先端のパフォーマンスを示している。
In machine learning applications, gradual data ingress is common, especially in audio processing where incremental learning is vital for real-time analytics. Few-shot class-incremental learning addresses challenges arising from limited incoming data. Existing methods often integrate additional trainable components or rely on a fixed embedding extractor post-training on base sessions to mitigate concerns related to catastrophic forgetting and the dangers of model overfitting. However, using cross-entropy loss alone during base session training is suboptimal for audio data. To address this, we propose incorporating supervised contrastive learning to refine the representation space, enhancing discriminative power and leading to better generalization since it facilitates seamless integration of incremental classes, upon arrival. Experimental results on NSynth and LibriSpeech datasets with 100 classes, as well as ESC dataset with 50 and 10 classes, demonstrate state-of-the-art performance. | 翻訳日:2024-07-30 19:01:38 公開日:2024-07-27 |
# Discord Chatbot によるコンピュータサイエンス教育における対話型学習
Interactive Learning in Computer Science Education Supported by a Discord Chatbot ( http://arxiv.org/abs/2407.19266v1 ) ライセンス: Link先を確認 | Santiago Berrezueta-Guzman, Ivan Parmacli, Stephan Krusche, Stefan Wagner, | (参考訳) 第1学期コンピュータサイエンスコースにおけるインタラクションとフィードバックの収集の強化は、学生の多様なニーズとエンゲージメントレベルのために大きな課題となる。
この問題に対処するため、Discord上のコース通信サーバ上にコマンドベースのチャットボットを作成し、統合した。
DiscordBotは、運動、クイズ、講義などの短い調査を通じてコース活動に対するフィードバックを提供し、インストラクターとのストレスのないコミュニケーションを容易にする。
出席者追跡もサポートし、開始前に講義を紹介する。
本研究は,コミュニケーションツールとしてのDiscordBotの有効性を実証する。
進行中のフィードバックにより、コースインストラクターは、今後の活動の難易度を動的に調整し、改善し、その後の講師セッションでの議論を促進することができる。
収集したデータは、学生がアクティビティの難易度と期待された結果を正確に知覚できることを明らかにし、従来の終末調査では不可能な洞察を与える。
学生はDiscordBotとの対話は簡単であり、将来のセムターで使い続けたいと願っていると報告した。
このレスポンシブなアプローチは、コースが進化する学生のニーズを満たすことを保証する。
Enhancing interaction and feedback collection in a first-semester computer science course poses a significant challenge due to students' diverse needs and engagement levels. To address this issue, we created and integrated a command-based chatbot on the course communication server on Discord. The DiscordBot enables students to provide feedback on course activities through short surveys, such as exercises, quizzes, and lectures, facilitating stress-free communication with instructors. It also supports attendance tracking and introduces lectures before they start. The research demonstrates the effectiveness of the DiscordBot as a communication tool. The ongoing feedback allowed course instructors to dynamically adjust and improve the difficulty level of upcoming activities and promote discussion in subsequent tutor sessions. The data collected reveal that students can accurately perceive the activities' difficulty and expected results, providing insights not possible through traditional end-of-semester surveys. Students reported that interaction with the DiscordBot was easy and expressed a desire to continue using it in future semesters. This responsive approach ensures the course meets the evolving needs of students, thereby enhancing their overall learning experience. | 翻訳日:2024-07-30 19:01:38 公開日:2024-07-27 |
# GUPによるホーキング放射に対する量子重力補正
Quantum Gravity Corrections to Hawking Radiation via GUP ( http://arxiv.org/abs/2407.19268v1 ) ライセンス: Link先を確認 | Gaurav Bhandari, S. D. Pathak, Manabendra Sharma, Maxim Yu Khlopov, | (参考訳) 本稿では、シュワルツシルトブラックホールに対する一般化不確実性原理(GUP)の効果について検討する。
特に, GUP の効果を, ホーキング放射に対する Parikh-Wilczek トンネル法に取り入れた。
この効果として, GUP補正により得られた結果は, ライスナー・ノルドストロングブラックホールに似ており, 電荷の性質と類似性を示す。
また, この枠組みでは, 排ガスは純粋に熱的ではなく, 相関関数による情報損失問題に対処する。
In this paper we explore the effects of a Generalized Uncertainty Principle (GUP) on Schwarzschild black hole. In particular, we incorporate the effects of GUP into the Parikh-Wilczek tunneling process for Hawking radiation. To this effect, we observe that results obtained due to GUP correction resemble that of the Reissner-Nordstr\"{om} black hole, showing similarities to the nature of an electric charge. We also find that, within this framework, the emission is not purely thermal, thus addressing the information loss problem through the correlation function. | 翻訳日:2024-07-30 19:01:38 公開日:2024-07-27 |
# ロバストな多次元楕円体-特殊フィッティングへのベイズ的アプローチ
A Bayesian Approach Toward Robust Multidimensional Ellipsoid-Specific Fitting ( http://arxiv.org/abs/2407.19269v1 ) ライセンス: Link先を確認 | Zhao Mingyang, Jia Xiaohong, Ma Lei, Shi Yuke, Jiang Jingen, Li Qizhai, Yan Dong-Ming, Huang Tiejun, | (参考訳) 本研究は, ノイズおよび外周波の汚染における散乱データに多次元楕円体を適合させる, 新規で効果的な方法を提案する。
ベイズパラメータ推定法としてこの問題にアプローチし, 与えられた楕円形解の後方確率を最大化する。
ベイズフレームワーク内の予測分布に基づいて,これらの点間のより堅牢な相関関係を確立する。
我々は、楕円体領域内の原始パラメータの探索を制約するために、均一な事前分布を導入し、入力によらず楕円体固有の結果を保証する。
次にベイズの法則を用いて測定点とモデルデータとの接続を確立し,ノイズに対する手法のロバスト性を高める。
空間次元の独立性から,提案手法は細長い楕円体に対して高品質なフィッティングを提供するだけでなく,多次元空間によく一般化する。
従来の手法では見過ごされがちな外乱に対処するため,予測分布上に一様分布を導入し,外乱に対するアルゴリズムの堅牢性を大幅に向上させる。
本研究では, EMの収束を著しく早めるために, {\epsilon} 加速技術を導入する。
我々の知る限り、この手法はベイズ最適化パラダイムにおいて多次元楕円体特異的なフィッティングを多様な乱れの下で行うことができる最初の包括的手法である。
重騒音, 外れ値, 軸比のかなりの変動の有無で, より低次元, 高次元の空間で評価した。
また, 顕微鏡細胞計数, 3次元再構成, 幾何形状近似, 磁力計の校正タスクなど, 幅広い応用に応用する。
This work presents a novel and effective method for fitting multidimensional ellipsoids to scattered data in the contamination of noise and outliers. We approach the problem as a Bayesian parameter estimate process and maximize the posterior probability of a certain ellipsoidal solution given the data. We establish a more robust correlation between these points based on the predictive distribution within the Bayesian framework. We incorporate a uniform prior distribution to constrain the search for primitive parameters within an ellipsoidal domain, ensuring ellipsoid-specific results regardless of inputs. We then establish the connection between measurement point and model data via Bayes' rule to enhance the method's robustness against noise. Due to independent of spatial dimensions, the proposed method not only delivers high-quality fittings to challenging elongated ellipsoids but also generalizes well to multidimensional spaces. To address outlier disturbances, often overlooked by previous approaches, we further introduce a uniform distribution on top of the predictive distribution to significantly enhance the algorithm's robustness against outliers. We introduce an {\epsilon}-accelerated technique to expedite the convergence of EM considerably. To the best of our knowledge, this is the first comprehensive method capable of performing multidimensional ellipsoid specific fitting within the Bayesian optimization paradigm under diverse disturbances. We evaluate it across lower and higher dimensional spaces in the presence of heavy noise, outliers, and substantial variations in axis ratios. Also, we apply it to a wide range of practical applications such as microscopy cell counting, 3D reconstruction, geometric shape approximation, and magnetometer calibration tasks. | 翻訳日:2024-07-30 19:01:38 公開日:2024-07-27 |
# 深度優先型下水画像超解像とその軽量ネットワーク
Sewer Image Super-Resolution with Depth Priors and Its Lightweight Network ( http://arxiv.org/abs/2407.19271v1 ) ライセンス: Link先を確認 | Gang Pan, Chen Wang, Zhijie Sui, Shuai Guo, Yaozhi Lv, Honglie Li, Di Sun, | (参考訳) クイックビュー(Quick-view, QV)技術は、下水道システム内の欠陥を検出する主要な方法である。
しかし、QVの有効性はハードウェアの視覚範囲の制限によって阻害され、その結果、下水道網の遠方部分の最適画像品質が低下する。
画像超解像は画像品質を改善する効果的な方法であり、様々な場面で応用されている。
しかし, 下水道画像の超高分解能化に関する研究はいまだに未検討である。
そこで本研究では,QV画像内に存在する固有深度関係を活用し,DSRNetと呼ばれる新しい深度誘導型参照型超解法フレームワークを提案する。
深度抽出モジュールと深度情報マッチングモジュール(DMM)の2つのコアコンポーネントから構成される。
DSRNetは、低解像度画像の隣接フレームを基準画像として利用し、相関に基づいてテクスチャ情報を復元する。
これらのモジュールを組み合わせることで、深度事前の統合は視覚的品質とパフォーマンスのベンチマークの両方を大幅に強化する。
さらに,計算効率とコンパクト性を追求するために,注意機構に基づく超解像知識蒸留モデルを提案する。
このメカニズムは,DSRNetの軽量版である,より複雑な教師モデルと合理化された学生モデルとの間の特徴的類似性の獲得を促進する。
実験の結果,DSRNetはPSNRとSSIMを他の手法と比較して有意に改善した。
また, 下水道欠陥セマンティックセグメンテーション, オブジェクト検出, およびPipeデータセットと下水道MLデータセットの分類について実験を行った。
実験により, これらの課題において, 低解像度下水道画像の性能を向上させることができることがわかった。
The Quick-view (QV) technique serves as a primary method for detecting defects within sewerage systems. However, the effectiveness of QV is impeded by the limited visual range of its hardware, resulting in suboptimal image quality for distant portions of the sewer network. Image super-resolution is an effective way to improve image quality and has been applied in a variety of scenes. However, research on super-resolution for sewer images remains considerably unexplored. In response, this study leverages the inherent depth relationships present within QV images and introduces a novel Depth-guided, Reference-based Super-Resolution framework denoted as DSRNet. It comprises two core components: a depth extraction module and a depth information matching module (DMM). DSRNet utilizes the adjacent frames of the low-resolution image as reference images and helps them recover texture information based on the correlation. By combining these modules, the integration of depth priors significantly enhances both visual quality and performance benchmarks. Besides, in pursuit of computational efficiency and compactness, our paper introduces a super-resolution knowledge distillation model based on an attention mechanism. This mechanism facilitates the acquisition of feature similarity between a more complex teacher model and a streamlined student model, the latter being a lightweight version of DSRNet. Experimental results demonstrate that DSRNet significantly improves PSNR and SSIM compared with other methods. This study also conducts experiments on sewer defect semantic segmentation, object detection, and classification on the Pipe dataset and Sewer-ML dataset. Experiments show that the method can improve the performance of low-resolution sewer images in these tasks. | 翻訳日:2024-07-30 19:01:38 公開日:2024-07-27 |
# Mamba? ハイプをキャッチするか、イメージ登録に本当に役立つものを再考する
Mamba? Catch The Hype Or Rethink What Really Helps for Image Registration ( http://arxiv.org/abs/2407.19274v1 ) ライセンス: Link先を確認 | Bailiang Jian, Jiazhen Pan, Morteza Ghahremani, Daniel Rueckert, Christian Wachinger, Benedikt Wiestler, | (参考訳) 以上の結果から,「先進的」な計算要素の採用は,登録精度を著しく向上させるには至らなかったことが示唆された。
代わりに、明確に確立された登録専用設計は、明確な改善を提供し、ベースラインよりも1.5\%の差で結果を向上する。
本研究は、コンピュータビジョンのトレンドを「より高度な」計算ブロックで追従するのではなく、厳密で偏りのない評価と、すべての低レベルおよび高レベル登録コンポーネントの寄与の抑制の重要性を強調した。
従来の登録精度を超え、多様な臓器やモダリティのさらなる研究を保証し、よりシンプルで効果的なソリューションと新しい評価指標を提唱する。
コードは \url{https://github.com/BailiangJ/rethink-reg} で公開されている。
Our findings indicate that adopting "advanced" computational elements fails to significantly improve registration accuracy. Instead, well-established registration-specific designs offer fair improvements, enhancing results by a marginal 1.5\% over the baseline. Our findings emphasize the importance of rigorous, unbiased evaluation and contribution disentanglement of all low- and high-level registration components, rather than simply following the computer vision trends with "more advanced" computational blocks. We advocate for simpler yet effective solutions and novel evaluation metrics that go beyond conventional registration accuracy, warranting further research across diverse organs and modalities. The code is available at \url{https://github.com/BailiangJ/rethink-reg}. | 翻訳日:2024-07-30 19:01:38 公開日:2024-07-27 |
# 人間のような自律運転のための大規模言語モデル:調査
Large Language Models for Human-like Autonomous Driving: A Survey ( http://arxiv.org/abs/2407.19280v1 ) ライセンス: Link先を確認 | Yun Li, Kai Katsumata, Ehsan Javanmardi, Manabu Tsukada, | (参考訳) 大規模言語モデル(LLM)は、言語理解と生成能力に優れた巨大なテキストコーパスでトレーニングされたAIモデルであり、自律運転(AD)の分野を変革している。
ADシステムは、ルールベースおよび最適化ベースの手法から、深層強化学習のような学習ベースの手法へと進化するにつれて、LLMによって強化された知識ベースのADという、より高度なカテゴリを採用できるようになった。
このシフトはADを人間に近いADに近づけることを約束する。
しかしながら、LLMをADシステムに統合することは、リアルタイムの推論、安全性保証、デプロイメントコストに課題をもたらす。
この調査は、モジュール化されたADパイプラインとエンドツーエンドのADシステムにおける彼らのアプリケーションに焦点を当てて、ADにLLMを活用する最近の進歩を包括的で批判的なレビューを提供する。
我々は、重要な進歩を強調し、プレス課題を特定し、LLMとADのギャップを埋め、より人間的なADシステムの開発を促進するための有望な研究方向を提案する。
調査ではまず、LLMの主要な機能と一般的なトレーニングスキームを紹介し、その後、モジュール型のADパイプラインとエンドツーエンドのADのアプリケーションをそれぞれ検討し、続いてオープンな課題と今後の方向性について議論した。
この詳細な分析を通じて、AIと自動運転車の交差点で働く研究者や実践者に洞察とインスピレーションを提供し、最終的にはより安全でスマートでより人間中心のAD技術に寄与することを目指している。
Large Language Models (LLMs), AI models trained on massive text corpora with remarkable language understanding and generation capabilities, are transforming the field of Autonomous Driving (AD). As AD systems evolve from rule-based and optimization-based methods to learning-based techniques like deep reinforcement learning, they are now poised to embrace a third and more advanced category: knowledge-based AD empowered by LLMs. This shift promises to bring AD closer to human-like AD. However, integrating LLMs into AD systems poses challenges in real-time inference, safety assurance, and deployment costs. This survey provides a comprehensive and critical review of recent progress in leveraging LLMs for AD, focusing on their applications in modular AD pipelines and end-to-end AD systems. We highlight key advancements, identify pressing challenges, and propose promising research directions to bridge the gap between LLMs and AD, thereby facilitating the development of more human-like AD systems. The survey first introduces LLMs' key features and common training schemes, then delves into their applications in modular AD pipelines and end-to-end AD, respectively, followed by discussions on open challenges and future directions. Through this in-depth analysis, we aim to provide insights and inspiration for researchers and practitioners working at the intersection of AI and autonomous vehicles, ultimately contributing to safer, smarter, and more human-centric AD technologies. | 翻訳日:2024-07-30 19:01:38 公開日:2024-07-27 |
# 画像診断における高スペクトル分解とRGB再構成の自己監督的・対向的アプローチ
A self-supervised and adversarial approach to hyperspectral demosaicking and RGB reconstruction in surgical imaging ( http://arxiv.org/abs/2407.19282v1 ) ライセンス: Link先を確認 | Peichao Li, Oscar MacCormac, Jonathan Shapey, Tom Vercauteren, | (参考訳) ハイパースペクトルイメージングは、肉眼では見えない詳細な情報を持つ生体組織分化機能を提供することによって、外科的イメージングにおいて有望である。
術中ガイダンスには、リアルタイムのスペクトルデータキャプチャと表示が義務付けられている。
スナップショットモザイクハイパースペクトルカメラは、この要件を考えると、現在最も適した技術と見なされている。
しかし、スナップショットモザイク画像は、画像の空間的およびスペクトル的詳細を完全に復元するために、デモサイクリングアルゴリズムを必要とする。
現代のデモサイクリングアプローチは一般的に、同じ手術シーンのスナップショットと高解像度の分光画像の両方を同時にキャプチャすることは事実上不可能であるため、教師付き学習手法を開発するために合成データセットに依存している。
本研究では,2組の高分解能データに依存しない自己教師型復号法とRGB再構成法を提案する。
我々は、RGBデータのみを提供するが、定期的な手術で収集できる、未使用の標準高分解能顕微鏡画像を活用する。
自己指導的アプローチによって補完される対人学習は、我々のハイパースペクトルベースのRGB再構成を、手術用顕微鏡画像に似たものにし、デモショッキングの空間分解能を高めるために使用される。
再構成したハイパースペクトル画像の空間的およびスペクトル的忠実度を定量的に評価した。
さらに,これらのスペクトル画像から生成したRGBの可視化を評価するために,ユーザスタディを行った。
空間的細部と色の精度は神経外科の専門家によって評価された。
提案手法は従来の方法と比較して改善された結果を示し,術中ワークフローへのシームレスな統合の可能性を示した。
Hyperspectral imaging holds promises in surgical imaging by offering biological tissue differentiation capabilities with detailed information that is invisible to the naked eye. For intra-operative guidance, real-time spectral data capture and display is mandated. Snapshot mosaic hyperspectral cameras are currently seen as the most suitable technology given this requirement. However, snapshot mosaic imaging requires a demosaicking algorithm to fully restore the spatial and spectral details in the images. Modern demosaicking approaches typically rely on synthetic datasets to develop supervised learning methods, as it is practically impossible to simultaneously capture both snapshot and high-resolution spectral images of the exact same surgical scene. In this work, we present a self-supervised demosaicking and RGB reconstruction method that does not depend on paired high-resolution data as ground truth. We leverage unpaired standard high-resolution surgical microscopy images, which only provide RGB data but can be collected during routine surgeries. Adversarial learning complemented by self-supervised approaches are used to drive our hyperspectral-based RGB reconstruction into resembling surgical microscopy images and increasing the spatial resolution of our demosaicking. The spatial and spectral fidelity of the reconstructed hyperspectral images have been evaluated quantitatively. Moreover, a user study was conducted to evaluate the RGB visualisation generated from these spectral images. Both spatial detail and colour accuracy were assessed by neurosurgical experts. Our proposed self-supervised demosaicking method demonstrates improved results compared to existing methods, demonstrating its potential for seamless integration into intra-operative workflows. | 翻訳日:2024-07-30 19:01:38 公開日:2024-07-27 |
# 膵腫瘍分節増強のための合成データの最適化
Optimizing Synthetic Data for Enhanced Pancreatic Tumor Segmentation ( http://arxiv.org/abs/2407.19284v1 ) ライセンス: Link先を確認 | Linkai Peng, Zheyuan Zhang, Gorkem Durak, Frank H. Miller, Alpay Medetalibeyoglu, Michael B. Wallace, Ulas Bagci, | (参考訳) 膵臓がんは、世界中でがん関連死亡の原因の1つとなっている。
医用画像からの膵腫瘍の精密分画は, 臨床的に有効な意思決定のボトルネックとなる。
しかし、深層学習モデルの訓練において、実際の患者データの小型化と可用性によって、高い精度を達成することは、しばしば制限される。
近年のアプローチでは、トレーニングデータセットの強化に合成データ生成を採用している。
有望ではあるが、これらの手法は実際の臨床使用に必要なパフォーマンスベンチマークをまだ満たしていないかもしれない。
本研究は膵腫瘍分節に対する既存の生成AIフレームワークの限界を批判的に評価する。
モデル性能に対する合成 \textit{tumor size} と \textit{boundary definition} の精度の影響を調べるための一連の実験を行った。
以上の結果より,(1)合成腫瘍サイズの組み合わせを戦略的に選択することが最適セグメンテーションの結果にとって重要であること,(2)正確な境界を持つ合成腫瘍の生成がモデル精度を著しく向上すること,などが示唆された。
これらの知見は、診断、予後、治療計画を含む膵癌決定におけるセグメンテーションモデルの臨床的有用性を高めるために、改良された合成データ拡張を活用することの重要性を強調している。
私たちのコードはhttps://github.com/lkpengcs/SynTumorAnalyzer.comで利用可能です。
Pancreatic cancer remains one of the leading causes of cancer-related mortality worldwide. Precise segmentation of pancreatic tumors from medical images is a bottleneck for effective clinical decision-making. However, achieving a high accuracy is often limited by the small size and availability of real patient data for training deep learning models. Recent approaches have employed synthetic data generation to augment training datasets. While promising, these methods may not yet meet the performance benchmarks required for real-world clinical use. This study critically evaluates the limitations of existing generative-AI based frameworks for pancreatic tumor segmentation. We conduct a series of experiments to investigate the impact of synthetic \textit{tumor size} and \textit{boundary definition} precision on model performance. Our findings demonstrate that: (1) strategically selecting a combination of synthetic tumor sizes is crucial for optimal segmentation outcomes, and (2) generating synthetic tumors with precise boundaries significantly improves model accuracy. These insights highlight the importance of utilizing refined synthetic data augmentation for enhancing the clinical utility of segmentation models in pancreatic cancer decision making including diagnosis, prognosis, and treatment plans. Our code will be available at https://github.com/lkpengcs/SynTumorAnalyzer. | 翻訳日:2024-07-30 19:01:38 公開日:2024-07-27 |
# 複数の局所的なステップを持つ差分私的フェデレーション学習における関節雑音のスケーリングについて
On Joint Noise Scaling in Differentially Private Federated Learning with Multiple Local Steps ( http://arxiv.org/abs/2407.19286v1 ) ライセンス: Link先を確認 | Mikko A. Heikkilä, | (参考訳) フェデレートラーニング(Federated Learning)とは、学習に必要なデータを共有することなく、マシンラーニングモデルをトレーニングする分散ラーニング環境である。
トレーニングデータプライバシと高ユーティリティモデルを保証するため、差分プライバシとセキュアアグリゲーション技術は、しばしば連合学習と組み合わせられる。
しかし、厳密な保護の粒度によって、現在存在する技術は、正式なプライバシー保証の結果として生じるセキュアなアグリゲーションの恩恵を完全に享受したい場合、各局所的な最適化ステップに対して、当事者にコミュニケーションを要求する。
本稿では,セキュアなアグリゲーションを用いた場合のジョイントノイズスケーリングの恩恵を受けながら,複数の局所的な最適化を行うための簡易な解析手法を提案する。
本分析により,限られた通信ラウンド数で,プライバシー保護が保証された高機能モデルの実現が可能であることを示す。
Federated learning is a distributed learning setting where the main aim is to train machine learning models without having to share raw data but only what is required for learning. To guarantee training data privacy and high-utility models, differential privacy and secure aggregation techniques are often combined with federated learning. However, with fine-grained protection granularities the currently existing techniques require the parties to communicate for each local optimisation step, if they want to fully benefit from the secure aggregation in terms of the resulting formal privacy guarantees. In this paper, we show how a simple new analysis allows the parties to perform multiple local optimisation steps while still benefiting from joint noise scaling when using secure aggregation. We show that our analysis enables higher utility models with guaranteed privacy protection under limited number of communication rounds. | 翻訳日:2024-07-30 19:01:38 公開日:2024-07-27 |
# 信頼に値する不確実性定量化のためのベイズメタ学習
Bayesian meta learning for trustworthy uncertainty quantification ( http://arxiv.org/abs/2407.19287v1 ) ライセンス: Link先を確認 | Zhenyuan Yuan, Thinh T. Doan, | (参考訳) 我々は、信頼できる不確実性定量化を伴うベイズ回帰の問題を考察する。
不確実性定量化は、前提真理が予め特定された確率で予測分布に依存する間隔で捉えられる場合、信頼に値すると定義する。
さらに,ベイズメタ学習のための新しい最適化フレームワークであるTrust-Bayesを提案する。
提案手法は, 与えられた間隔で捉えられる基底真理の確率の低い境界を特徴付けるとともに, 信頼に値する不確実性定量化の可能な確率に関して, サンプルの複雑さを解析する。
ガウス過程回帰を用いたケーススタディのモンテカルロシミュレーションを行い,メタプライアアルゴリズムとの比較を行った。
We consider the problem of Bayesian regression with trustworthy uncertainty quantification. We define that the uncertainty quantification is trustworthy if the ground truth can be captured by intervals dependent on the predictive distributions with a pre-specified probability. Furthermore, we propose, Trust-Bayes, a novel optimization framework for Bayesian meta learning which is cognizant of trustworthy uncertainty quantification without explicit assumptions on the prior model/distribution of the functions. We characterize the lower bounds of the probabilities of the ground truth being captured by the specified intervals and analyze the sample complexity with respect to the feasible probability for trustworthy uncertainty quantification. Monte Carlo simulation of a case study using Gaussian process regression is conducted for verification and comparison with the Meta-prior algorithm. | 翻訳日:2024-07-30 19:01:38 公開日:2024-07-27 |
# ROSにおけるミスコンフィグレーションの理解--実証的研究と現状
Understanding Misconfigurations in ROS: An Empirical Study and Current Approaches ( http://arxiv.org/abs/2407.19292v1 ) ライセンス: Link先を確認 | Paulo Canelas, Bradley Schmerl, Alcides Fonseca, Christopher S. Timperley, | (参考訳) Robot Operating System (ROS)は、開発者が再利用可能な既製のコンポーネントからロボットソフトウェアシステムを構築することができる人気のフレームワークとエコシステムである。
システムはしばしば構成ファイルを通じてコンポーネントをカスタマイズして接続することによって構築される。
再利用可能なコンポーネントは理論上は高速なプロトタイピングを可能にするが、開発者フォーラムでの多くの質問によって証明されているように、適切な構成と接続を確保することは困難である。
開発者は、しばしばチェックされていない個々のコンポーネントの仮定に従わなければならない。
失敗すると、フィールドデプロイメント時にのみ見つかる設定ミスが発生し、その時点でエラーが予測不能で危険な振る舞いを引き起こす可能性がある。
ソフトウェア工学の幅広い文脈で誤った構成が研究されているにもかかわらず、ロボティクスソフトウェア(特にROS)は、潜在的に破壊的な結果をもたらす可能性のあるドメイン固有の課題を提起する。
ROSプロジェクトの信頼性を理解し改善するためには、開発者が直面している設定ミスのタイプを特定することが重要です。
そのために、我々は、ROS開発中に発生する誤設定を特定し分類するために、Q&AプラットフォームであるROS Answersの研究を行う。
次に、既存の検出手法を用いて、これらの誤設定のカバレッジを評価するための文献レビューを行う。
合計すると、12のハイレベルカテゴリと50のサブカテゴリのミスコンフィグレーションが見つかる。
これらのカテゴリのうち、27は既存のテクニックによってカバーされていない。
結論として、今後の作業において、これらの設定ミスに対処する方法について議論する。
The Robot Operating System (ROS) is a popular framework and ecosystem that allows developers to build robot software systems from reusable, off-the-shelf components. Systems are often built by customizing and connecting components via configuration files. While reusable components theoretically allow rapid prototyping, ensuring proper configuration and connection is challenging, as evidenced by numerous questions on developer forums. Developers must abide to the often unchecked and unstated assumptions of individual components. Failure to do so can result in misconfigurations that are only discovered during field deployment, at which point errors may lead to unpredictable and dangerous behavior. Despite misconfigurations having been studied in the broader context of software engineering, robotics software (and ROS in particular) poses domain-specific challenges with potentially disastrous consequences. To understand and improve the reliability of ROS projects, it is critical to identify the types of misconfigurations faced by developers. To that end, we perform a study of ROS Answers, a Q&A platform, to identify and categorize misconfigurations that occur during ROS development. We then conduct a literature review to assess the coverage of these misconfigurations by existing detection techniques. In total, we find 12 high-level categories and 50 sub-categories of misconfigurations. Of these categories, 27 are not covered by existing techniques. To conclude, we discuss how to tackle those misconfigurations in future work. | 翻訳日:2024-07-30 19:01:38 公開日:2024-07-27 |
# ポイントクラウド分析のための注意モジュール設計の再考
Rethinking Attention Module Design for Point Cloud Analysis ( http://arxiv.org/abs/2407.19294v1 ) ライセンス: Link先を確認 | Chengzhi Wu, Kaige Wang, Zeyun Zhong, Hao Fu, Junwei Zheng, Jiaming Zhang, Julius Pfrommer, Jürgen Beyerer, | (参考訳) 近年, 点雲解析への注意機構の適用が著しく進展している。
しかし、様々な研究論文で取り上げられた注意モジュールの変種は、しばしば様々な設定やタスクの下で運用され、潜在的な訓練戦略が組み込まれている。
この異質性は、これらの注目モジュールの変種との公正な比較を確立する際に問題を引き起こす。
本稿では,一貫した基盤フレームワークと設定内でのアテンションモジュール設計を再考し,その課題に対処する。
グローバルベースとローカルベースの両方のアテンション手法が研究され、地域ベースのアテンションのための隣人の選択ベースとスケールに焦点を当てている。
初期追加/連結に基づくアプローチから広く採用されているドット製品ベース手法,最近提案されたベクトルアテンション手法に至るまで,アテンションスコアの集約的局所特徴と計算手法の異なる組み合わせを評価した。
また,様々な位置符号化手法についても検討した。
我々の広範な実験分析により,多様なクラウドタスクに対して,普遍的に最適な設計が存在しないことが明らかとなった。
代わりに、ベストプラクティスから、特定のタスクに適した注意モジュールを提案し、ポイントクラウドの分類とセグメンテーションベンチマークにおいて優れたパフォーマンスをもたらす。
In recent years, there have been significant advancements in applying attention mechanisms to point cloud analysis. However, attention module variants featured in various research papers often operate under diverse settings and tasks, incorporating potential training strategies. This heterogeneity poses challenges in establishing a fair comparison among these attention module variants. In this paper, we address this issue by rethinking and exploring attention module design within a consistent base framework and settings. Both global-based and local-based attention methods are studied, with a focus on the selection basis and scales of neighbors for local-based attention. Different combinations of aggregated local features and computation methods for attention scores are evaluated, ranging from the initial addition/concatenation-based approach to the widely adopted dot product-based method and the recently proposed vector attention technique. Various position encoding methods are also investigated. Our extensive experimental analysis reveals that there is no universally optimal design across diverse point cloud tasks. Instead, drawing from best practices, we propose tailored attention modules for specific tasks, leading to superior performance on point cloud classification and segmentation benchmarks. | 翻訳日:2024-07-30 19:01:38 公開日:2024-07-27 |
# マルチモーダルCLIPインフォームドタンパク質編集
Multi-Modal CLIP-Informed Protein Editing ( http://arxiv.org/abs/2407.19296v1 ) ライセンス: Link先を確認 | Mingze Yin, Hanjing Zhou, Yiheng Zhu, Miao Lin, Yixuan Wu, Jialu Wu, Hongxia Xu, Chang-Yu Hsieh, Tingjun Hou, Jintai Chen, Jian Wu, | (参考訳) タンパク質は生命に不可欠なほとんどの生物学的機能を支配しているが、制御可能なタンパク質の発見と最適化は依然として困難である。
近年、機械学習支援タンパク質編集(MLPE)は最適化サイクルの加速と実験負荷の削減を約束している。
しかし、現在の手法は、潜在的なタンパク質編集の膨大な組み合わせ空間に苦しむとともに、バイオテキスト命令を用いてタンパク質編集を明示的に行うことができず、人間のフィードバックとの相互作用を制限している。
これらのギャップを埋めるために,マルチモーダリティ学習によるCLIPインフォームドタンパク質の効率的な編集のためのProtETという新しい手法を提案する。
本手法は,2つの大規模言語モデル (LLM) で符号化されたタンパク質-バイオテキスト表現を,事前学習段階において比較学習により整合させる。
その後、タンパク質編集段階において、対象タンパク質配列を生成するための最終編集条件として、命令テキストと原タンパク質配列の編集から融合した特徴を果たす。
包括的な実験は、タンパク質の編集において、酵素触媒活性、タンパク質安定性、抗体特異的結合能など、複数の属性領域にまたがる人為的な機能を強化するために、ProtETの優位性を実証した。
そして、ProtETは最先端の結果を大きなマージンで改善し、16.67%と16.90%の大幅な安定性改善をもたらした。
この能力により、ProtETは実際の人工タンパク質編集を推進し、学術的、工業的、臨床的なニーズに対処する可能性がある。
Proteins govern most biological functions essential for life, but achieving controllable protein discovery and optimization remains challenging. Recently, machine learning-assisted protein editing (MLPE) has shown promise in accelerating optimization cycles and reducing experimental workloads. However, current methods struggle with the vast combinatorial space of potential protein edits and cannot explicitly conduct protein editing using biotext instructions, limiting their interactivity with human feedback. To fill these gaps, we propose a novel method called ProtET for efficient CLIP-informed protein editing through multi-modality learning. Our approach comprises two stages: in the pretraining stage, contrastive learning aligns protein-biotext representations encoded by two large language models (LLMs), respectively. Subsequently, during the protein editing stage, the fused features from editing instruction texts and original protein sequences serve as the final editing condition for generating target protein sequences. Comprehensive experiments demonstrated the superiority of ProtET in editing proteins to enhance human-expected functionality across multiple attribute domains, including enzyme catalytic activity, protein stability and antibody specific binding ability. And ProtET improves the state-of-the-art results by a large margin, leading to significant stability improvements of 16.67% and 16.90%. This capability positions ProtET to advance real-world artificial protein editing, potentially addressing unmet academic, industrial, and clinical needs. | 翻訳日:2024-07-30 18:51:52 公開日:2024-07-27 |
# LLM用LoRAアダプタがデータ制限下のNLP分類に及ぼす影響
The Impact of LoRA Adapters for LLMs on Clinical NLP Classification Under Data Limitations ( http://arxiv.org/abs/2407.19299v1 ) ライセンス: Link先を確認 | Thanh-Dung Le, Ti Ti Nguyen, Vu Nguyen Ha, | (参考訳) 臨床自然言語処理(NLP)のための微調整大型言語モデル(LLM)は、ドメインギャップと限られたデータ可用性のために大きな課題を提起する。
本研究は,低ランク適応 (LoRA) に準ずる各種アダプタ技術の,資源制約型病院環境における微調整LDMへの応用について検討した。
臨床ノート分類のための最終層として,4つの構造適応器,軽量,TinyAttention,Gated Residual Network(GRN)を実験した。
我々は2つのTransformerベースのモデルとともに、CamemBERT-bio、AliBERT、DrBERTなどのバイオメディカル事前訓練モデルを微調整した。
我々の広範な実験結果から、
一 微調整バイオメディカルプレトレーニングLDMにおいて、アダプタ構造を用いることで、大幅な改善が得られず、
二 よりシンプルなトランスフォーマーベースのモデルで、スクラッチから訓練し、リソース制約下でより良い性能を発揮すること。
アダプタ構造のうち、GRNは精度、精度、リコール、F1スコア0.88で優れた性能を示した。
さらに、LLMのトレーニング時間は1000時間を超え、より単純なトランスフォーマーベースのモデルでは6時間以下であった。
その結果,より単純なTransformerベースのモデルをスクラッチから効果的に訓練できることが示され,低リソース環境におけるNLPタスクに対して,限られたデータ可用性で実現可能なソリューションが提供される。
GRNを最も効果的なアダプタ構造として同定することにより、広範な計算資源を必要とせず、臨床ノート分類を強化するための実践的なアプローチを提供する。
Fine-tuning Large Language Models (LLMs) for clinical Natural Language Processing (NLP) poses significant challenges due to the domain gap and limited data availability. This study investigates the effectiveness of various adapter techniques, equivalent to Low-Rank Adaptation (LoRA), for fine-tuning LLMs in a resource-constrained hospital environment. We experimented with four structures-Adapter, Lightweight, TinyAttention, and Gated Residual Network (GRN)-as final layers for clinical notes classification. We fine-tuned biomedical pre-trained models, including CamemBERT-bio, AliBERT, and DrBERT, alongside two Transformer-based models. Our extensive experimental results indicate that i) employing adapter structures does not yield significant improvements in fine-tuning biomedical pre-trained LLMs, and ii) simpler Transformer-based models, trained from scratch, perform better under resource constraints. Among the adapter structures, GRN demonstrated superior performance with accuracy, precision, recall, and an F1 score of 0.88. Moreover, the total training time for LLMs exceeded 1000 hours, compared to under 6 hours for simpler transformer-based models, highlighting that LLMs are more suitable for environments with extensive computational resources and larger datasets. Consequently, this study demonstrates that simpler Transformer-based models can be effectively trained from scratch, providing a viable solution for clinical NLP tasks in low-resource environments with limited data availability. By identifying the GRN as the most effective adapter structure, we offer a practical approach to enhance clinical note classification without requiring extensive computational resources. | 翻訳日:2024-07-30 18:51:52 公開日:2024-07-27 |
# CoLiDR: Aggregated Disentangled Representation を用いた概念学習
CoLiDR: Concept Learning using Aggregated Disentangled Representations ( http://arxiv.org/abs/2407.19300v1 ) ライセンス: Link先を確認 | Sanchit Sinha, Guangzhi Xiong, Aidong Zhang, | (参考訳) 概念に基づくモデルを用いたディープニューラルネットワークの解釈可能性は、人間の理解可能な概念を通じてモデルの振る舞いを説明する有望な方法を提供する。
並列的な研究は、データ分散をその基盤となる生成因子に切り離し、データ生成プロセスを説明することに重点を置いている。
両方向とも注目されているが、下流タスクの説明として、数学的に不整合な表現と人間の理解可能な概念を統一するための生成的要素の観点から概念を説明することは、ほとんど行われていない。
本稿では, 互いに独立な生成因子を学習するために, 絡み合った表現学習機構を利用したCoLiDRを提案する。
未知の潜在的生成因子と未知の潜在的生成因子の両方を持つデータセット上で実験を行う。
提案手法は, 最先端のコンセプトベースアプローチと同等性を保ちながら, 絡み合った生成因子を概念に集約する。
学習したアグリゲーション手順の定量的および視覚的分析は、4つの挑戦的データセット上でよく使用される概念ベースモデルと比較して、我々の作業の利点を示している。
最後に、我々の仕事は任意の数の概念と生成要因に一般化できます。
Interpretability of Deep Neural Networks using concept-based models offers a promising way to explain model behavior through human-understandable concepts. A parallel line of research focuses on disentangling the data distribution into its underlying generative factors, in turn explaining the data generation process. While both directions have received extensive attention, little work has been done on explaining concepts in terms of generative factors to unify mathematically disentangled representations and human-understandable concepts as an explanation for downstream tasks. In this paper, we propose a novel method CoLiDR - which utilizes a disentangled representation learning setup for learning mutually independent generative factors and subsequently learns to aggregate the said representations into human-understandable concepts using a novel aggregation/decomposition module. Experiments are conducted on datasets with both known and unknown latent generative factors. Our method successfully aggregates disentangled generative factors into concepts while maintaining parity with state-of-the-art concept-based approaches. Quantitative and visual analysis of the learned aggregation procedure demonstrates the advantages of our work compared to commonly used concept-based models over four challenging datasets. Lastly, our work is generalizable to an arbitrary number of concepts and generative factors - making it flexible enough to be suitable for various types of data. | 翻訳日:2024-07-30 18:51:52 公開日:2024-07-27 |
# IBMEA:マルチモーダルエンティティアライメントのための変分情報基盤を探る
IBMEA: Exploring Variational Information Bottleneck for Multi-modal Entity Alignment ( http://arxiv.org/abs/2407.19302v1 ) ライセンス: Link先を確認 | Taoyu Su, Jiawei Sheng, Shicheng Wang, Xinghua Zhang, Hongbo Xu, Tingwen Liu, | (参考訳) マルチモーダル・エンティティ・アライメント(MMEA)は、マルチモーダル・ナレッジ・グラフ(MMKG)間の等価なエンティティを識別することを目的としている。
既存の研究の多くは、自動学習した融合モジュールに大きく依存するマルチモーダル情報を統合しており、MMEAの冗長情報を明示的に抑制することは滅多にない。
この目的のために,マルチモーダルエンティティアライメント(IBMEA)の変動情報ボトルネックについて検討し,アライメント関連情報を強調し,エンティティ表現の生成におけるアライメント関連情報を抑制する。
具体的には,マルチモーダル変分エンコーダを考案し,確率分布としてモーダル固有の実体表現を生成する。
そこで,4つのモーダル固有情報ボトルネック正規化器を提案する。
最後に、改良されたすべてのモーダル固有表現を統合するためのモーダルハイブリッド情報比較正規化器を提案し、MMEAを実現するためにMMKG間のエンティティ類似性を高める。
我々は2つのクロスKGと3つのバイリンガルMMEAデータセットについて広範な実験を行った。
実験結果から,我々のモデルは従来の最先端手法よりも一貫して優れており,低リソース・高ノイズデータシナリオにおいて有望かつ堅牢な性能を示すことが示された。
Multi-modal entity alignment (MMEA) aims to identify equivalent entities between multi-modal knowledge graphs (MMKGs), where the entities can be associated with related images. Most existing studies integrate multi-modal information heavily relying on the automatically-learned fusion module, rarely suppressing the redundant information for MMEA explicitly. To this end, we explore variational information bottleneck for multi-modal entity alignment (IBMEA), which emphasizes the alignment-relevant information and suppresses the alignment-irrelevant information in generating entity representations. Specifically, we devise multi-modal variational encoders to generate modal-specific entity representations as probability distributions. Then, we propose four modal-specific information bottleneck regularizers, limiting the misleading clues in refining modal-specific entity representations. Finally, we propose a modal-hybrid information contrastive regularizer to integrate all the refined modal-specific representations, enhancing the entity similarity between MMKGs to achieve MMEA. We conduct extensive experiments on two cross-KG and three bilingual MMEA datasets. Experimental results demonstrate that our model consistently outperforms previous state-of-the-art methods, and also shows promising and robust performance in low-resource and high-noise data scenarios. | 翻訳日:2024-07-30 18:51:52 公開日:2024-07-27 |
# GP-VLS:手術のための汎用視覚言語モデル
GP-VLS: A general-purpose vision language model for surgery ( http://arxiv.org/abs/2407.19305v1 ) ライセンス: Link先を確認 | Samuel Schmidgall, Joseph Cho, Cyril Zakka, William Hiesinger, | (参考訳) 手術には包括的医療知識、視覚的評価スキル、手続き的専門知識が必要である。
最近の外科的AIモデルは、タスク固有の問題を解決することに重点を置いているが、手術シーンを理解し、自然言語を介して対話できる汎用システムが必要である。
本稿では,医用および外科用知識と視覚的シーン理解を統合した汎用視覚言語モデルGP-VLSを紹介する。
汎用的な手術モデルを総合的に評価するために,医学的および外科的知識ベンチマークおよび外科的視覚言語質問に対する評価を行うSurgiQualを提案する。
GP-VLSを訓練するために, 位相認識やツール識別といったタスクに対して, 医療知識, 外科用教科書, 視覚言語対にまたがる6つの新しいデータセットを開発した。
GP-VLSは外科的視覚言語タスクにおける既存のオープンソースモデルやクローズドソースモデルよりも有意に優れており,SurgiQualベンチマークの精度は8~21%向上している。
GP-VLSは、オープンソースの代替技術と比較して、医学的および外科的知識テストに強い性能を示す。
GP-VLSは、幅広いタスクやシナリオで外科医をサポートするAIアシスタントを開発するための、オープンソース基盤を提供する。
Surgery requires comprehensive medical knowledge, visual assessment skills, and procedural expertise. While recent surgical AI models have focused on solving task-specific problems, there is a need for general-purpose systems that can understand surgical scenes and interact through natural language. This paper introduces GP-VLS, a general-purpose vision language model for surgery that integrates medical and surgical knowledge with visual scene understanding. For comprehensively evaluating general-purpose surgical models, we propose SurgiQual, which evaluates across medical and surgical knowledge benchmarks as well as surgical vision-language questions. To train GP-VLS, we develop six new datasets spanning medical knowledge, surgical textbooks, and vision-language pairs for tasks like phase recognition and tool identification. We show that GP-VLS significantly outperforms existing open- and closed-source models on surgical vision-language tasks, with 8-21% improvements in accuracy across SurgiQual benchmarks. GP-VLS also demonstrates strong performance on medical and surgical knowledge tests compared to open-source alternatives. Overall, GP-VLS provides an open-source foundation for developing AI assistants to support surgeons across a wide range of tasks and scenarios. | 翻訳日:2024-07-30 18:51:52 公開日:2024-07-27 |
# ファウショットセグメンテーションのための対称性付き共同学習支援システム
Symmetrical Joint Learning Support-query Prototypes for Few-shot Segmentation ( http://arxiv.org/abs/2407.19306v1 ) ライセンス: Link先を確認 | Qun Li, Baoquan Sun, Fu Xiao, Yonggang Qi, Bir Bhanu, | (参考訳) 本研究では,Few-Shot Segmentation (FSS) の新たなフレームワークであるSym-Netを提案する。
Sym-Netは、クエリとサポートプロトタイプの両方に対して、バランスのとれた対称的な学習アプローチを活用し、学習プロセスが他方よりも1つのセット(サポートまたはクエリ)を好まないようにしている。
Sym-Netの主なモジュールの1つは、ビジュアルテキストアライメントに基づくプロトタイプアグリゲーションモジュールである。これは、クエリ誘導されたプロトタイプの改良であるだけでなく、サポートとクエリサンプルの両方から共同で学習することで、クラス内の不一致を扱うのに有益なモデルとなり、新しい、目に見えないクラスにより良い一般化を可能にする。
具体的には、パラメータフリーの先行マスク生成モジュールは、異なるサイズのスライディングウィンドウと自己アクティベーションカーネルを用いてクエリオブジェクトのローカル領域とグローバル領域の両方を正確にローカライズし、不正なバックグラウンドマッチングを抑えるように設計されている。
さらに,プロトタイプ学習における空間プーリングによる情報損失に対処するため,トップダウンのハイパー相関モジュールを統合して,サポート画像とクエリ画像のマルチスケール空間関係をキャプチャする。
このアプローチは、共同最適化された3重項採掘戦略を実装することで、さらに協調的に最適化される。
実験の結果,提案したSym-Netは最先端のモデルよりも優れており,FSSに対して協調学習によるサポートクエリのプロトタイプは,限られた注釈付きデータによるセグメンテーション性能の向上に有望な方向を提供することを示した。
We propose Sym-Net, a novel framework for Few-Shot Segmentation (FSS) that addresses the critical issue of intra-class variation by jointly learning both query and support prototypes in a symmetrical manner. Unlike previous methods that generate query prototypes solely by matching query features to support prototypes, which is a form of bias learning towards the few-shot support samples, Sym-Net leverages a balanced symmetrical learning approach for both query and support prototypes, ensuring that the learning process does not favor one set (support or query) over the other. One of main modules of Sym-Net is the visual-text alignment-based prototype aggregation module, which is not just query-guided prototype refinement, it is a jointly learning from both support and query samples, which makes the model beneficial for handling intra-class discrepancies and allows it to generalize better to new, unseen classes. Specifically, a parameter-free prior mask generation module is designed to accurately localize both local and global regions of the query object by using sliding windows of different sizes and a self-activation kernel to suppress incorrect background matches. Additionally, to address the information loss caused by spatial pooling during prototype learning, a top-down hyper-correlation module is integrated to capture multi-scale spatial relationships between support and query images. This approach is further jointly optimized by implementing a co-optimized hard triplet mining strategy. Experimental results show that the proposed Sym-Net outperforms state-of-the-art models, which demonstrates that jointly learning support-query prototypes in a symmetrical manner for FSS offers a promising direction to enhance segmentation performance with limited annotated data. | 翻訳日:2024-07-30 18:51:52 公開日:2024-07-27 |
# 包括的帰属:特徴検出器を用いた忠実に説明可能な視覚モデル
Comprehensive Attribution: Inherently Explainable Vision Model with Feature Detector ( http://arxiv.org/abs/2407.19308v1 ) ライセンス: Link先を確認 | Xianren Zhang, Dongwon Lee, Suhang Wang, | (参考訳) 深層視覚モデルの人気が急速に高まるにつれて、モデル予測の説明に重点が置かれている。
本手法は, 予測に大きく寄与する画像の重要領域を特定することにより, モデル行動の理解を深めることを目的としている。
これは、セレクタ(重要な特徴を特定するために属性マップを生成する)と予測器(識別された特徴を用いた予測を行う)を協調的に訓練することで達成される。
多くの進歩にもかかわらず、既存の手法では識別的特徴が隠蔽される不完全性問題や、非最適化セレクタが最初にノイズを選択したインターロック問題に悩まされ、予測者がこのノイズに適合しサイクルを持続する。
これらの課題に対処するため,マスクアウト領域における識別的特徴の存在を回避し,特徴選択の包括性を向上する新たな目的を導入する。
マスクアウト領域の識別特徴を検出するために、事前訓練された検出器を導入する。
セレクタが識別的特徴ではなくノイズを選択すると、検出器はセレクタをペナルティ化して連動状況を観察し破ることができる。
大規模な実験により,本モデルは通常のブラックボックスモデルよりも精度の高い精度で正確な予測を行い,高い特徴カバレッジ,局所化能力,忠実度,堅牢性を備えた属性マップを生成することがわかった。
私たちのコードは、 \href{https://github.com/Zood123/COMET}{https://github.com/Zood123/COMET}で利用可能です。
As deep vision models' popularity rapidly increases, there is a growing emphasis on explanations for model predictions. The inherently explainable attribution method aims to enhance the understanding of model behavior by identifying the important regions in images that significantly contribute to predictions. It is achieved by cooperatively training a selector (generating an attribution map to identify important features) and a predictor (making predictions using the identified features). Despite many advancements, existing methods suffer from the incompleteness problem, where discriminative features are masked out, and the interlocking problem, where the non-optimized selector initially selects noise, causing the predictor to fit on this noise and perpetuate the cycle. To address these problems, we introduce a new objective that discourages the presence of discriminative features in the masked-out regions thus enhancing the comprehensiveness of feature selection. A pre-trained detector is introduced to detect discriminative features in the masked-out region. If the selector selects noise instead of discriminative features, the detector can observe and break the interlocking situation by penalizing the selector. Extensive experiments show that our model makes accurate predictions with higher accuracy than the regular black-box model, and produces attribution maps with high feature coverage, localization ability, fidelity and robustness. Our code will be available at \href{https://github.com/Zood123/COMET}{https://github.com/Zood123/COMET}. | 翻訳日:2024-07-30 18:51:52 公開日:2024-07-27 |
# ヒト皮膚セグメンテーションのための畳み込みニューラルネットワーク
Ensembling convolutional neural networks for human skin segmentation ( http://arxiv.org/abs/2407.19310v1 ) ライセンス: Link先を確認 | Patryk Kuban, Michal Kawulok, | (参考訳) デジタル画像における人間の皮膚領域の検出とセグメンテーションは、コンピュータビジョンの重要課題であり、多くの実用的な応用で有用であることが長年にわたって提案されてきた様々なアプローチである。
最初の方法はピクセル単位の皮膚色モデリングに基づいており、後に文脈に基づく分析によって拡張され、最近深層畳み込みニューラルネットワークを用いて抽出されたテクスチャ的特徴と幾何学的特徴を含むようになった。
また, カラー情報を用いることなく, グレースケール画像から皮膚領域を分離できることが実証された。
しかし,これら2つの情報源を組み合わす可能性については,これまで検討されておらず,本稿で報告した貢献と,この研究ギャップに対処する。
本稿では,異なる特徴に着目したデータセットを用いて畳み込みネットワークをトレーニングし,最終的な区分けマップを作成するために訓練された他の畳み込みネットワークを用いて,個々の結果を効果的に組み合わせたアンサンブルを作成することを提案する。
実験結果から,提案手法は基本分類器よりも優れており,投票方式に基づくアンサンブルも優れていることが明らかとなった。
この研究は、人間の皮膚を検出するという問題を超えて、セマンティックセグメンテーションシステムの性能を向上させる新しいアンサンブルベースの技術の開発に役立つと期待している。
Detecting and segmenting human skin regions in digital images is an intensively explored topic of computer vision with a variety of approaches proposed over the years that have been found useful in numerous practical applications. The first methods were based on pixel-wise skin color modeling and they were later enhanced with context-based analysis to include the textural and geometrical features, recently extracted using deep convolutional neural networks. It has been also demonstrated that skin regions can be segmented from grayscale images without using color information at all. However, the possibility to combine these two sources of information has not been explored so far and we address this research gap with the contribution reported in this paper. We propose to train a convolutional network using the datasets focused on different features to create an ensemble whose individual outcomes are effectively combined using yet another convolutional network trained to produce the final segmentation map. The experimental results clearly indicate that the proposed approach outperforms the basic classifiers, as well as an ensemble based on the voting scheme. We expect that this study will help in developing new ensemble-based techniques that will improve the performance of semantic segmentation systems, reaching beyond the problem of detecting human skin. | 翻訳日:2024-07-30 18:51:52 公開日:2024-07-27 |
# データアドレスグラフドメイン適応の修正は可能か?
Can Modifying Data Address Graph Domain Adaptation? ( http://arxiv.org/abs/2407.19311v1 ) ライセンス: Link先を確認 | Renhong Huang, Jiarong Xu, Xin Jiang, Ruichuan An, Yang Yang, | (参考訳) グラフニューラルネットワーク(GNN)は多くのグラフ解析タスクにおいて顕著な成功を収めている。
しかし、それらの効果は、分散シフトによって現実のシナリオでしばしば損なわれ、環境やドメインの変化にまたがる知識伝達の能力を制限する。
最近、この問題を解決するためにUnsupervised Graph Domain Adaptation (UGDA)が導入されている。
UGDAはラベル付きソースグラフからラベルなしターゲットグラフへの知識伝達を容易にすることを目的としている。
現在のUGDAの取り組みは、ドメイン不変学習戦略の採用やモデルアーキテクチャの設計など、主にモデル中心の手法に焦点を当てている。
しかし,本研究は,これらのモデル中心の手法に固有の限界を明らかにするとともに,データ中心の手法でソースグラフの修正が可能であり,有意な可能性を証明している。
この洞察は、データ中心の観点からUGDAを探求する動機となります。
UGDAの理論的一般化を再考することにより、UGDAの2つのデータ中心原理、すなわちアライメント原理と再スケーリング原理を同定する。
これらの原理により、我々は、小さいが転送可能なグラフを生成する新しいUGDA法であるGraphAlignを提案する。
古典的な経験的リスク最小化(ERM)を備えた新しいグラフ上で、GNNのみをトレーニングすることにより、GraphAlignは、ターゲットグラフ上での例外的なパフォーマンスを実現する。
様々な転送シナリオ下での大規模な実験では、GraphAlignが平均2.16%のベースラインを上回り、生成されたグラフのトレーニングはオリジナルのトレーニンググラフの0.25~1%と小さい。
Graph neural networks (GNNs) have demonstrated remarkable success in numerous graph analytical tasks. Yet, their effectiveness is often compromised in real-world scenarios due to distribution shifts, limiting their capacity for knowledge transfer across changing environments or domains. Recently, Unsupervised Graph Domain Adaptation (UGDA) has been introduced to resolve this issue. UGDA aims to facilitate knowledge transfer from a labeled source graph to an unlabeled target graph. Current UGDA efforts primarily focus on model-centric methods, such as employing domain invariant learning strategies and designing model architectures. However, our critical examination reveals the limitations inherent to these model-centric methods, while a data-centric method allowed to modify the source graph provably demonstrates considerable potential. This insight motivates us to explore UGDA from a data-centric perspective. By revisiting the theoretical generalization bound for UGDA, we identify two data-centric principles for UGDA: alignment principle and rescaling principle. Guided by these principles, we propose GraphAlign, a novel UGDA method that generates a small yet transferable graph. By exclusively training a GNN on this new graph with classic Empirical Risk Minimization (ERM), GraphAlign attains exceptional performance on the target graph. Extensive experiments under various transfer scenarios demonstrate the GraphAlign outperforms the best baselines by an average of 2.16%, training on the generated graph as small as 0.25~1% of the original training graph. | 翻訳日:2024-07-30 18:51:52 公開日:2024-07-27 |
# ボルン・オッペンハイマーの枠組みを持たない振動エネルギーの位相空間ビュー
A phase-space view of vibrational energies without the Born-Oppenheimer framework ( http://arxiv.org/abs/2407.19313v1 ) ライセンス: Link先を確認 | Xuezhi Bian, Cameron Khan, Titouan Duston, Jonathan Rawlinson, Robert G. Littlejohn, Joseph E. Subotnik, | (参考訳) 量子化学の標準マントラに従い、ボルン=オッペンハイマー(BO)ハミルトンの$\hat H_{\rm BO}(\bm R)$がポテンシャルエネルギー表面を構築する最適手段ではないことを示す。
より優れたアプローチは、位相空間の電子ハミルトニアン $\hat H_{\rm PS}(\bm R,\bm P)$ を対角化することであり、これは核位置 $\bm R$ と核運動量 $\bm P$ の両方でパラメータ化される。
このような非摂動位相空間の電子ハミルトニアンの基礎は部分ウィグナー変換を用いて厳密にでき、この方法は半古典的計算のBOと全く同じコスト(量子核計算のコストはわずかに増加する)を持つ。
2つの重粒子と1つの光粒子を持つ3粒子系の場合、数値的な結果は、相空間の電子ハミルトニアンが有意義な電子モータ(BO理論によって完全に無視される)を生成するだけでなく、はるかに優れた振動エネルギーを生み出すことを示している。
したがって、高レベルの結果や、縮退とスピン自由度を持つシステムの場合、将来の電子構造と量子化学パッケージは、核の位置だけでなく、そのモーメントも入力として取る必要があると予測される。
We show that following the standard mantra of quantum chemistry and diagonalizing the Born-Oppenheimer (BO) Hamiltonian $\hat H_{\rm BO}(\bm R)$ is not the optimal means to construct potential energy surfaces. A better approach is to diagonalize a phase-space electronic Hamiltonian, $\hat H_{\rm PS}(\bm R,\bm P)$, which is parameterized by both nuclear position $\bm R$ and nuclear momentum $\bm P$. The foundation of such a non-perturbative phase-space electronic Hamiltonian can be made rigorous using a partial Wigner transform and the method has exactly the same cost as BO for a semiclassical calculation (and only a slight increase in cost for a quantum nuclear calculation). For a three-particle system, with two heavy particles and one light particle, numerical results show that a phase space electronic Hamiltonian produces not only meaningful electronic momenta (which are completely ignored by BO theory) but also far better vibrational energies. As such, for high level results and/or systems with degeneracies and spin degrees of freedom, we anticipate that future electronic structure and quantum chemistry packages will need to take as input not just the positions of the nuclei but also their momenta. | 翻訳日:2024-07-30 18:51:52 公開日:2024-07-27 |
# AResNet-ViT: 超音波画像における良性および悪性乳腺分類のためのハイブリッドCNN変換器ネットワーク
AResNet-ViT: A Hybrid CNN-Transformer Network for Benign and Malignant Breast Nodule Classification in Ultrasound Images ( http://arxiv.org/abs/2407.19316v1 ) ライセンス: Link先を確認 | Xin Zhao, Qianqian Zhu, Jialing Wu, | (参考訳) CNNとTransformerを統合した深層学習ネットワークは, 超音波画像における良性および悪性乳腺病変の分類において, 病変と周囲組織との類似性, 部分良性および悪性結節の出現の重複, 分類の難しさに対処する。
このネットワークは、局所的特徴抽出のためのデュアルブランチアーキテクチャを採用し、局所的特徴抽出におけるCNNの利点と、乳腺結節に対するネットワークの機能抽出能力を高めるために、グローバルな特徴抽出能力のViTをフル活用する。
局所的特徴抽出部は、複数の注意誘導モジュールを持つ残留ネットワークを使用し、乳腺結節の局所的詳細およびテクスチャ的特徴を効果的に捉え、結節内の微妙な変化に対する感受性を高め、良性および悪性の正確な分類を助ける。
大域的特徴抽出部は多頭部自己注意型ViTネットワークを利用して, 周囲の組織との全体形状, 境界, 関係を把握し, 結節および大域的画像の特徴の理解とモデリングを向上させる。
超音波乳房結節データセットを用いた実験結果から,CNNとTransformerネットワークの融合により分類モデルの性能が向上し,良悪性乳房分類のための強力な解法が得られた。
To address the challenges of similarity between lesions and surrounding tissues, overlapping appearances of partially benign and malignant nodules, and difficulty in classification, a deep learning network that integrates CNN and Transformer is proposed for the classification of benign and malignant breast lesions in ultrasound images. This network adopts a dual-branch architecture for local-global feature extraction, making full use of the advantages of CNN in extracting local features and the ability of ViT to extract global features to enhance the network's feature extraction capabilities for breast nodules. The local feature extraction branch employs a residual network with multiple attention-guided modules, which can effectively capture the local details and texture features of breast nodules, enhance sensitivity to subtle changes within the nodules, and thus can aid in accurate classification of their benign and malignancy. The global feature extraction branch utilizes the multi-head self-attention ViT network, which can capture the overall shape, boundary, and relationship with surrounding tissues, and thereby enhancing the understanding and modeling of both nodule and global image features. Experimental results on a public ultrasound breast nodule data set show that the proposed method is better than other comparison networks, This indicates that the fusion of CNN and Transformer networks can effectively improve the performance of the classification model and provide a powerful solution for the benign-malignant classification of ultrasound breast. | 翻訳日:2024-07-30 18:51:52 公開日:2024-07-27 |
# 最新のWebおよびモバイルアプリケーションにおけるアプリケーション状態管理(ASM)の概要
Application State Management (ASM) in the Modern Web and Mobile Applications: A Comprehensive Review ( http://arxiv.org/abs/2407.19318v1 ) ライセンス: Link先を確認 | Anujkumarsinh Donvir, Apeksha Jain, Pradeep Kumar Saraswathi, | (参考訳) Webおよびモバイルアプリケーションの急速な進化には、一貫性、パフォーマンス、ユーザフレンドリ性を保証するために、アプリケーションの状態を管理するための堅牢なメカニズムが必要である。
この総合的なレビューでは、ローカルステートマネジメント、ステートマネジメントライブラリ、サーバーサイドステートマネジメントに分類される、最も効果的なアプリケーションステートマネジメント(ASM)技術について検討する。
人気のあるフロントエンドフレームワークを分析することで、研究はローカルな状態管理メカニズムに発展する。
また、フロントエンド管理ライブラリの状態を評価し、その実装、利点、制限を強調している。
サーバ側状態管理技術,特にキャッシングは,データ検索効率の向上に果たす役割について論じる。
本稿では,理論知識と実用アプリケーションとのギャップを埋めることを目的とした,スケーラブルでレスポンシブなアプリケーションを構築するための実用的な洞察を提供する。
本研究の批判的分析と勧告は、ASMにおける将来の研究開発を導くことを目的としており、現代のアプリケーションアーキテクチャの進歩に寄与している。
The rapid evolution of web and mobile applications has necessitated robust mechanisms for managing application state to ensure consistency, performance, and user-friendliness. This comprehensive review examines the most effective Application State Management (ASM) techniques, categorized into Local State Management, State Management Libraries, and Server-Side State Management. By analyzing popular front end frameworks the study delves into local state management mechanisms. It also evaluates the state of front end management libraries, highlighting their implementations, benefits, and limitations. Server-side state management techniques, particularly caching, are discussed for their roles in enhancing data retrieval efficiency. This paper offers actionable insights for developers to build scalable, responsive applications, aiming to bridge the gap between theoretical knowledge and practical application. This study's critical analysis and recommendations aim to guide future research and development in ASM, contributing to the advancement of modern application architecture. | 翻訳日:2024-07-30 18:51:52 公開日:2024-07-27 |
# WindsorML -- 自動車空力用高忠実計算流体力学データセット
WindsorML -- High-Fidelity Computational Fluid Dynamics Dataset For Automotive Aerodynamics ( http://arxiv.org/abs/2407.19320v1 ) ライセンス: Link先を確認 | Neil Ashton, Jordan B. Angel, Aditya S. Ghate, Gaetan K. W. Kenway, Man Long Wong, Cetin Kiris, Astrid Walle, Danielle C. Maddix, Gary Page, | (参考訳) 本稿では,ウィンザー本体の355の幾何学的変種を含む機械学習のためのオープンソースの高忠実度データセットを提案する。
計算流体力学(CFD)シミュレーションは,280万セル以上を用いたカルテシアン没入バウンダリ法を用いて,GPUネイティブな壁面モデル大渦シミュレーション(WMLES)を用いて実行し,最大精度を確保した。
このデータセットには、路面電車で観測されたものを代表する幅広いフロー特性を示す幾何学的変種が含まれている。
データセット自体は、幾何学と力とモーメント係数だけでなく、3Dの時間平均ボリュームと境界データを含んでいる。
本稿では,基盤となるCFD手法の妥当性と,データセットの内容と構造について述べる。
著者らにとってこれは、許容オープンソースライセンス(CC-BY-SA)を持つWindsorボディのための、最初の大規模で高忠実なCFDデータセットである。
This paper presents a new open-source high-fidelity dataset for Machine Learning (ML) containing 355 geometric variants of the Windsor body, to help the development and testing of ML surrogate models for external automotive aerodynamics. Each Computational Fluid Dynamics (CFD) simulation was run with a GPU-native high-fidelity Wall-Modeled Large-Eddy Simulations (WMLES) using a Cartesian immersed-boundary method using more than 280M cells to ensure the greatest possible accuracy. The dataset contains geometry variants that exhibits a wide range of flow characteristics that are representative of those observed on road-cars. The dataset itself contains the 3D time-averaged volume & boundary data as well as the geometry and force & moment coefficients. This paper discusses the validation of the underlying CFD methods as well as contents and structure of the dataset. To the authors knowledge, this represents the first, large-scale high-fidelity CFD dataset for the Windsor body with a permissive open-source license (CC-BY-SA). | 翻訳日:2024-07-30 18:51:52 公開日:2024-07-27 |
# MSP-MVS: 誘導型マルチビューステレオ以前の多粒度セグメンテーション
MSP-MVS: Multi-granularity Segmentation Prior Guided Multi-View Stereo ( http://arxiv.org/abs/2407.19323v1 ) ライセンス: Link先を確認 | Zhenlong Yuan, Cong Liu, Fei Shen, Zhaoxin Li, Tianlu Mao, Zhaoqi Wang, | (参考訳) MVSにおけるテクスチャレス領域の再構築は、固定パッチ内での信頼性の高いピクセル対応が欠如しているため、課題となる。
特定の方法は受容場を拡張するためにパッチ変形を用いるが、それらのパッチは誤って深度不連続な領域を計算するために深度エッジをスキップし、あいまいさを引き起こす。
その結果,Multi-granularity Segmentation Prior Multi-View Stereo (MSP-MVS)を導入した。
具体的には、まず、均一領域におけるパッチ変形を抑制するために、多重粒度深度エッジを統合することで、多重粒度セグメンテーションを提案する。
さらに,同種領域の適切なカバレッジを確保するために,より均一に分散されたアンカーを用いた変形パッチを提供するアンカー分布について述べる。
さらに、スパース代表候補を持つより大きなパッチを表すために、反復的な局所探索最適化を導入し、各パッチの表現能力を大幅に向上させる。
ETH3D と Tanks & Temples ベンチマークの最先端結果から,提案手法の有効性とロバストな一般化能力が示された。
Reconstructing textureless areas in MVS poses challenges due to the absence of reliable pixel correspondences within fixed patch. Although certain methods employ patch deformation to expand the receptive field, their patches mistakenly skip depth edges to calculate areas with depth discontinuity, thereby causing ambiguity. Consequently, we introduce Multi-granularity Segmentation Prior Multi-View Stereo (MSP-MVS). Specifically, we first propose multi-granularity segmentation prior by integrating multi-granularity depth edges to restrict patch deformation within homogeneous areas. Moreover, we present anchor equidistribution that bring deformed patches with more uniformly distributed anchors to ensure an adequate coverage of their own homogeneous areas. Furthermore, we introduce iterative local search optimization to represent larger patch with sparse representative candidates, significantly boosting the expressive capacity for each patch. The state-of-the-art results on ETH3D and Tanks & Temples benchmarks demonstrate the effectiveness and robust generalization ability of our proposed method. | 翻訳日:2024-07-30 18:51:52 公開日:2024-07-27 |
# 深層学習に基づく犯罪予測モデル:実験と分析
Deep Learning Based Crime Prediction Models: Experiments and Analysis ( http://arxiv.org/abs/2407.19324v1 ) ライセンス: Link先を確認 | Rittik Basak Utsha, Muhtasim Noor Alif, Yeasir Rayhan, Tanzima Hashem, Mohammad Eunus Ali, | (参考訳) 犯罪予測は、都市住民の安全を確保することの重要性から、広く研究されている研究課題である。
近年,統計的・古典的な機械学習に基づく犯罪予測手法から始められた研究は,犯罪予測に深層学習に基づくモデルを活用することに重点を置いている。
ディープラーニングベースの犯罪予測モデルは、複雑なアーキテクチャを使用して犯罪データの潜伏した特徴を捉え、統計的および古典的な機械学習ベースの犯罪予測方法より優れている。
しかし、異なる実生活シナリオにおける異なるモデルの適用性に関する既存の研究において、これらすべてのアプローチを統一された環境で比較する縦断的研究は存在しないため、大きな研究ギャップがある。
本稿では,最先端の深層学習に基づく犯罪予測モデルについて,総合的な実験的評価を行う。
我々の評価は、これらのモデルの長所と短所についていくつかの重要な洞察を与え、異なるアプリケーションシナリオに対して最も適切なモデルを選択することができます。
この結果に基づき,今後の深層学習に基づく犯罪予測モデルを構築しながら考慮すべき設計プラクティスをさらに推奨する。
Crime prediction is a widely studied research problem due to its importance in ensuring safety of city dwellers. Starting from statistical and classical machine learning based crime prediction methods, in recent years researchers have focused on exploiting deep learning based models for crime prediction. Deep learning based crime prediction models use complex architectures to capture the latent features in the crime data, and outperform the statistical and classical machine learning based crime prediction methods. However, there is a significant research gap in existing research on the applicability of different models in different real-life scenarios as no longitudinal study exists comparing all these approaches in a unified setting. In this paper, we conduct a comprehensive experimental evaluation of all major state-of-the-art deep learning based crime prediction models. Our evaluation provides several key insights on the pros and cons of these models, which enables us to select the most suitable models for different application scenarios. Based on the findings, we further recommend certain design practices that should be taken into account while building future deep learning based crime prediction models. | 翻訳日:2024-07-30 18:51:52 公開日:2024-07-27 |
# 言語モデルには言語習得の臨界期間があるか?
Do Language Models Have a Critical Period for Language Acquisition? ( http://arxiv.org/abs/2407.19325v1 ) ライセンス: Link先を確認 | Ionut Constantinescu, Tiago Pimentel, Ryan Cotterell, Alex Warstadt, | (参考訳) 第二言語 (L2) の習得は幼少期以降に難しくなり、この時代以降(以前ではないが)第1言語 (L1) への露出を緩和することは、通常、L1 の習熟度を著しく損なうことはない。
これらのCP効果が自然に決定された脳の成熟によるものなのか、または経験によって自然に誘発される神経接続の安定化であるのかは不明である。
本研究では、言語モデル(LM)を用いて、これらの現象が人間特有のものであるか、あるいはより広範な言語学習者によって共有されているかをテストする。
各種実験条件下での言語ペアの訓練により曝露年齢が変化し,自然成熟期と直接類似しないLMは,L1とL2を連続的に訓練してもCP効果は示さないことがわかった。
本結果は,CP効果が統計的学習者の学習の必然的な結果であり,CP効果の自然メカニズムと矛盾するものである。
我々は, 可塑性の成熟度低下をシミュレートするために, トレーニングを通じてレギュレータ部分ウェイを導入することにより, CPをリバースエンジニアリングできることを示す。
以上の結果から,L1学習自体がCPを誘導するには不十分である可能性が示唆され,言語モデルをより認知的確固たるものにするためには,さらなるエンジニアリングが必要である。
Humans appear to have a critical period (CP) for language acquisition: Second language (L2) acquisition becomes harder after early childhood, and ceasing exposure to a first language (L1) after this period (but not before) typically does not lead to substantial loss of L1 proficiency. It is unknown whether these CP effects result from innately determined brain maturation or as a stabilization of neural connections naturally induced by experience. In this study, we use language models (LMs) to test the extent to which these phenomena are peculiar to humans, or shared by a broader class of language learners. We vary the age of exposure by training LMs on language pairs in various experimental conditions, and find that LMs, which lack any direct analog to innate maturational stages, do not show CP effects when trained sequentially on L1 and L2. Our results contradict the claim that CP effects are an inevitable result of learning in statistical learners, and they are consistent with an innate mechanism for CP effects. We show that we can reverse-engineer the CP by introducing a regularizer partway through training to simulate a maturational decrease in plasticity. All in all, our results suggest that L1 learning on its own may not be enough to induce a CP, and additional engineering is necessary to make language models more cognitively plausible. | 翻訳日:2024-07-30 18:41:57 公開日:2024-07-27 |
# 塑性を考慮した非弾性構成型ニューラルネットワークの拡張
Accounting for plasticity: An extension of inelastic Constitutive Artificial Neural Networks ( http://arxiv.org/abs/2407.19326v1 ) ライセンス: Link先を確認 | Birte Boes, Jaan-Willem Simon, Hagen Holthusen, | (参考訳) 構成型ニューラルネットワーク(CANN)のクラスは、構成型モデリングの分野におけるニューラルネットワークの新しいアプローチを表している。
これまでのところ、CANNは弾性および非弾性物質の挙動を予測する強力なツールであることが証明されている。
しかし、可塑性を捉えるための非弾性構成型人工ニューラルネットワーク(iCANN)の仕様については議論が続いている。
塑性の非弾性現象に対するiCANNの拡張と応用について述べる。
これには、弾性および塑性ヘルムホルツ自由エネルギーの定式化、非弾性流則、可塑性の開始を定義する収率条件が含まれる。
そこで我々は,4つのフィードフォワードネットワークとリカレントニューラルネットワークを併用して学習し,第2のPiola-Kirchhoffストレス測定をトレーニングに用いた。
提示された定式化は、連想的および非連想的可塑性の両方をキャプチャする。
さらに、プラスチックのヘルムホルツ自由エネルギーを導入することにより、キネマティック硬化効果を含む。
これにより、幅広い種類の材料に応用範囲を広げる。
提案するフレームワークの能力は,von-Mises型完全可塑性モデル,テンション圧縮非対称性,キネマティック硬化モデルを用いて,人工的に生成したデータを用いて実証される。
負荷ケースの増加に対して,極めて正確な合意が得られながら,1つの負荷ケースでのトレーニングにすでに満足な結果が得られた。
さらに, X10CrMoVNb9-1鋼の試験データを用いて, 特定iCANNの性能を検証した。
一軸張力と循環荷重の両方でトレーニングが行われ、予測結果が対向集合上で検証される。
この結果は、自律的に発見された物質モデルが基礎となる実験データを記述し、予測できることを示している。
The class of Constitutive Artificial Neural Networks (CANNs) represents a new approach of neural networks in the field of constitutive modeling. So far, CANNs have proven to be a powerful tool in predicting elastic and inelastic material behavior. However, the specification of inelastic constitutive artificial neural networks (iCANNs) to capture plasticity remains to be discussed. We present the extension and application of an iCANN to the inelastic phenomena of plasticity. This includes the prediction of a formulation for the elastic and plastic Helmholtz free energies, the inelastic flow rule, and the yield condition that defines the onset of plasticity. Thus, we learn four feed-forward networks in combination with a recurrent neural network and use the second Piola-Kirchhoff stress measure for training. The presented formulation captures both, associative and non-associative plasticity. In addition, the formulation includes kinematic hardening effects by introducing the plastic Helmholtz free energy. This opens the range of application to a wider class of materials. The capabilities of the presented framework are demonstrated by training on artificially generated data of models for perfect plasticity of von-Mises type, tension-compression asymmetry, and kinematic hardening. We observe already satisfactory results for training on one load case only while extremely precise agreement is found for an increase in load cases. In addition, the performance of the specified iCANN was validated using experimental data of X10CrMoVNb9-1 steel. Training has been performed on both, uniaxial tension and cyclic loading, separately and the predicted results are then validated on the opposing set. The results underline that the autonomously discovered material model is capable to describe and predict the underlying experimental data. | 翻訳日:2024-07-30 18:41:57 公開日:2024-07-27 |
# DeepLabV3++を用いた大腸内視鏡像のポリプセグメンテーション
Polyp segmentation in colonoscopy images using DeepLabV3++ ( http://arxiv.org/abs/2407.19327v1 ) ライセンス: Link先を確認 | Al Mohimanul Islam, Sadia Shakiba Bhuiyan, Mysun Mashira, Md. Rayhan Ahmed, Salekul Islam, Swakkhar Shatabda, | (参考訳) 大腸内視鏡像におけるポリープの分離は,大腸癌の早期発見と診断に不可欠である。
注意に基づくバリエーションやUNetのバリエーション、トランスフォーマーから派生したネットワークといった、事前のディープラーニングに基づくモデルは、複雑な特徴や複雑なポリプ形状を捉えることに顕著な成功を収めている。
本研究では,DeepLabv3+アーキテクチャの拡張版であるDeepLabv3++モデルを紹介した。
大腸内視鏡画像におけるポリープセグメンテーションの精度と堅牢性を改善するために設計された。
提案モデルでは,MSPPブロック内に多様な分離可能な畳み込み層とアテンション機構を組み込んで,マルチスケールおよび指向性の特徴を捉える能力を向上させる。
さらに、再設計されたデコーダは、抽出した特徴をエンコーダからより意味のあるセグメンテーションマップに変換する。
CVC-ColonDB, CVC-ClinicDB, Kvasir-SEGの3つの公開データセットを用いて, Dice係数スコアが96.20%, 96.54%, 96.08%であった。
実験により、DeepLabV3++はポリプセグメンテーションタスクにおいて、最先端のモデルよりも優れていることが示された。
さらに、ベースラインのDeepLabV3+モデルと比較して、私たちのDeepLabV3++はMSPPモジュールと再設計されたデコーダアーキテクチャを備えており、小、中、大ポリプにわたるセグメンテーションエラー(例:偽陽性/負)を大幅に削減しています。
このポリプデライン化の改善は、大腸内視鏡の正確な臨床的意思決定に不可欠である。
Segmenting polyps in colonoscopy images is essential for the early identification and diagnosis of colorectal cancer, a significant cause of worldwide cancer deaths. Prior deep learning based models such as Attention based variation, UNet variations and Transformer-derived networks have had notable success in capturing intricate features and complex polyp shapes. In this study, we have introduced the DeepLabv3++ model which is an enhanced version of the DeepLabv3+ architecture. It is designed to improve the precision and robustness of polyp segmentation in colonoscopy images. We have utilized The proposed model incorporates diverse separable convolutional layers and attention mechanisms within the MSPP block, enhancing its capacity to capture multi-scale and directional features. Additionally, the redesigned decoder further transforms the extracted features from the encoder into a more meaningful segmentation map. Our model was evaluated on three public datasets (CVC-ColonDB, CVC-ClinicDB, Kvasir-SEG) achieving Dice coefficient scores of 96.20%, 96.54%, and 96.08%, respectively. The experimental analysis shows that DeepLabV3++ outperforms several state-of-the-art models in polyp segmentation tasks. Furthermore, compared to the baseline DeepLabV3+ model, our DeepLabV3++ with its MSPP module and redesigned decoder architecture, significantly reduced segmentation errors (e.g., false positives/negatives) across small, medium, and large polyps. This improvement in polyp delineation is crucial for accurate clinical decision-making in colonoscopy. | 翻訳日:2024-07-30 18:41:57 公開日:2024-07-27 |
# 個人化によるフェデレーション学習におけるグループフェアネスの強化
Enhancing Group Fairness in Federated Learning through Personalization ( http://arxiv.org/abs/2407.19331v1 ) ライセンス: Link先を確認 | Yifan Yang, Ali Payani, Parinaz Naghizadeh, | (参考訳) パーソナライズド・フェデレーション・ラーニング(FL)アルゴリズムは、クライアントごとにカスタマイズされたモデルを協調的にトレーニングし、クライアントのローカルデータ(例えば、類似したクライアントをクラスタリングしたり、ローカルで微調整したモデルによって)で学習したモデルの精度を高める。
本稿では,このようなパーソナライズ手法が学習モデルのグループフェアネスに与える影響について検討し,パーソナライズが意図しないメリットとして改善(局所フェアネス)につながることを示す。
まず,2種類のパーソナライズされたFLアルゴリズム(クラスタリングと微調整)をベースラインのFedAvgアルゴリズムと比較し,パーソナライズされたFLを用いたフェアネス改善の背景にある理由を解明し,分析的支援を行う。
そこで本研究では,Fair-FCA(Fairness-Aware Federated Clustering Algorithm)を提案する。
数値実験により,Fair-FCAはクライアントレベルでの精度と公平性のバランスをとることができることを示した。
Personalized Federated Learning (FL) algorithms collaboratively train customized models for each client, enhancing the accuracy of the learned models on the client's local data (e.g., by clustering similar clients, or by fine-tuning models locally). In this paper, we investigate the impact of such personalization techniques on the group fairness of the learned models, and show that personalization can also lead to improved (local) fairness as an unintended benefit. We begin by illustrating these benefits of personalization through numerical experiments comparing two classes of personalized FL algorithms (clustering and fine-tuning) against a baseline FedAvg algorithm, elaborating on the reasons behind improved fairness using personalized FL, and then providing analytical support. Motivated by these, we further propose a new, Fairness-aware Federated Clustering Algorithm, Fair-FCA, in which clients can be clustered to obtain a (tuneable) fairness-accuracy tradeoff. Through numerical experiments, we demonstrate the ability of Fair-FCA to strike a balance between accuracy and fairness at the client level. | 翻訳日:2024-07-30 18:41:57 公開日:2024-07-27 |
# 感性エンコーディングと自己認識型LSTMを用いた半教師付きフェイクニュース検出
A Semi-supervised Fake News Detection using Sentiment Encoding and LSTM with Self-Attention ( http://arxiv.org/abs/2407.19332v1 ) ライセンス: Link先を確認 | Pouya Shaeri, Ali Katanforoush, | (参考訳) マイクロブログとサイバースペースのソーシャルネットワークは、ニュースを受信し共有する主要な通信媒体である。
しかし、副作用として、ネットワークは個人や社会に害を与える偽のニュースを拡散することができる。
フェイクニュースを検出するためにいくつかの方法が開発されているが、大多数はアプリケーションレベルの精度を達成するために、手動でラベル付けされた大量のデータを必要とする。
厳格なプライバシーポリシーのため、要求されるデータはアクセスできないか、特定のトピックに制限されることが多い。
一方、ソーシャルメディア上では非常に多種多様で、ラベルのないデータが豊富にあることから、いくつかのラベル付きデータによって、フェイクニュースを検出する問題は、半教師付き学習によって解決される可能性が示唆されている。
本稿では,感情分析を最先端の事前学習モデルによって獲得する半教師付き自己学習手法を提案する。
学習モデルは半教師付き方式で訓練され、LSTMに自己注意層を組み込む。
我々は,2万件のニュースコンテンツをデータセットにベンチマークし,そのフィードバックとともに,フェイクニュース検出における競合手法と比較して精度,リコール,測定性能が向上したことを示す。
Micro-blogs and cyber-space social networks are the main communication mediums to receive and share news nowadays. As a side effect, however, the networks can disseminate fake news that harms individuals and the society. Several methods have been developed to detect fake news, but the majority require large sets of manually labeled data to attain the application-level accuracy. Due to the strict privacy policies, the required data are often inaccessible or limited to some specific topics. On the other side, quite diverse and abundant unlabeled data on social media suggests that with a few labeled data, the problem of detecting fake news could be tackled via semi-supervised learning. Here, we propose a semi-supervised self-learning method in which a sentiment analysis is acquired by some state-of-the-art pretrained models. Our learning model is trained in a semi-supervised fashion and incorporates LSTM with self-attention layers. We benchmark our model on a dataset with 20,000 news content along with their feedback, which shows better performance in precision, recall, and measures compared to competitive methods in fake news detection. | 翻訳日:2024-07-30 18:41:57 公開日:2024-07-27 |
# 知識グラフ表現学習による意味コミュニケーション
Semantic Communication Enhanced by Knowledge Graph Representation Learning ( http://arxiv.org/abs/2407.19338v1 ) ライセンス: Link先を確認 | Nour Hello, Paolo Di Lorenzo, Emilio Calvanese Strinati, | (参考訳) 本稿では,意味的コミュニケーションの新たなパラダイムにおいて,グラフに抽出された意味的知識の表現と処理の利点について検討する。
提案手法は,知能エージェント間で処理および交換を行う知識のコンパクト表現を実現するために,大規模言語モデル(LLM)の最近の進歩を取り入れた意味的・実践的側面を活用する。
これは、LLMとグラフニューラルネットワーク(GNN)のカスケードをセマンティックエンコーダとして使用することで実現される。
提案したセマンティックエンコーダによって生成された埋め込みベクトルは、三重項の形式で情報を表す:ノード(意味概念エンティティ)、エッジ(概念間の関係)、ノード。
したがって、意味情報は意味概念抽象の空間における要素間の関係の表現と関連づけられる。
本稿では,グラフ埋め込みに要素をリンクする関係を組み込むことにより,通信における高い圧縮率を実現する可能性を検討する。
本稿では,無線チャネルを通じてノード埋め込みと等価な意味記号を送信し,受信側で完全な知識グラフを推測する。
数値シミュレーションは知識グラフを利用して情報を意味的に圧縮し伝達する効果を示す。
This paper investigates the advantages of representing and processing semantic knowledge extracted into graphs within the emerging paradigm of semantic communications. The proposed approach leverages semantic and pragmatic aspects, incorporating recent advances on large language models (LLMs) to achieve compact representations of knowledge to be processed and exchanged between intelligent agents. This is accomplished by using the cascade of LLMs and graph neural networks (GNNs) as semantic encoders, where information to be shared is selected to be meaningful at the receiver. The embedding vectors produced by the proposed semantic encoder represent information in the form of triplets: nodes (semantic concepts entities), edges(relations between concepts), nodes. Thus, semantic information is associated with the representation of relationships among elements in the space of semantic concept abstractions. In this paper, we investigate the potential of achieving high compression rates in communication by incorporating relations that link elements within graph embeddings. We propose sending semantic symbols solely equivalent to node embeddings through the wireless channel and inferring the complete knowledge graph at the receiver. Numerical simulations illustrate the effectiveness of leveraging knowledge graphs to semantically compress and transmit information. | 翻訳日:2024-07-30 18:41:57 公開日:2024-07-27 |
# 大規模言語モデルを自動抑うつ分類のための3モードアーキテクチャに統合する
Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification ( http://arxiv.org/abs/2407.19340v1 ) ライセンス: Link先を確認 | Santosh V. Patapati, | (参考訳) メジャー・うつ病(Major Depressive Disorder、MDD)は、世界中の3億人に影響を及ぼす広汎な精神疾患である。
本研究は, 臨床面接記録からのうつ病のバイナリ分類のための, BiLSTM に基づくトリモーダルモデルレベルの融合アーキテクチャを提案する。
提案アーキテクチャでは、Mel Frequency Cepstral Coefficients, Facial Action Unitsを組み込み、2ショット学習に基づくGPT-4モデルを用いてテキストデータを処理する。
これは、このタスクのために、大規模な言語モデルをマルチモーダルアーキテクチャに組み込む最初の作業である。
DAIC-WOZ AVEC 2016 Challenge cross-validation splitとLeave-One-Subject-Out cross-validation splitは、すべてのベースラインモデルと複数の最先端モデルを上回っている。
Leave-One-Subject-Outテストでは91.01%の精度、F1スコア85.95%の精度、80%の精度、92.86%のリコールを達成した。
Major Depressive Disorder (MDD) is a pervasive mental health condition that affects 300 million people worldwide. This work presents a novel, BiLSTM-based tri-modal model-level fusion architecture for the binary classification of depression from clinical interview recordings. The proposed architecture incorporates Mel Frequency Cepstral Coefficients, Facial Action Units, and uses a two-shot learning based GPT-4 model to process text data. This is the first work to incorporate large language models into a multi-modal architecture for this task. It achieves impressive results on the DAIC-WOZ AVEC 2016 Challenge cross-validation split and Leave-One-Subject-Out cross-validation split, surpassing all baseline models and multiple state-of-the-art models. In Leave-One-Subject-Out testing, it achieves an accuracy of 91.01%, an F1-Score of 85.95%, a precision of 80%, and a recall of 92.86%. | 翻訳日:2024-07-30 18:41:57 公開日:2024-07-27 |
# 循環的畳み込みによるパラメータ効率の良いファインチューニング
Parameter-Efficient Fine-Tuning via Circular Convolution ( http://arxiv.org/abs/2407.19342v1 ) ライセンス: Link先を確認 | Aochuan Chen, Ziqi Gao, Zijing Liu, Yu Li, Jia Li, | (参考訳) Low-Rank Adaptation (LoRA) は、低ランク行列 $\mathbf{A}$ と $\mathbf{B}$ を利用して、重量変化を表す (\textit{i.e.,} $\Delta \mathbf{W} = \mathbf{B} \mathbf{A}$)。
この方法は、トレーニング可能なパラメータを減らし、活性化とともに$\mathbf{A}$と$\mathbf{B}$を順次乗算することで、完全なデルタ行列に関連する重いメモリ消費を緩和する。
その成功にもかかわらず、本質的な低ランク特性は性能を制限する可能性がある。
この問題に対処するためにいくつかの変種が提案されているが、彼らはしばしばLoRAによってもたらされた重要な計算とメモリ効率を見落としている。
本稿では,高性能化とともに高階適応を実現するだけでなく,計算能力とメモリ利用の両面で優れる,Shaunderline{C}ir\underline{c}ular \underline{C}onvolution \underline{A}daptation (C$^3$A)を提案する。
大規模な実験により、C$^3$A はLoRAとその変種を様々な微調整タスクで一貫して上回ることを示した。
Low-Rank Adaptation (LoRA) has gained popularity for fine-tuning large foundation models, leveraging low-rank matrices $\mathbf{A}$ and $\mathbf{B}$ to represent weight changes (\textit{i.e.,} $\Delta \mathbf{W} = \mathbf{B} \mathbf{A}$). This method reduces trainable parameters and mitigates heavy memory consumption associated with full delta matrices by sequentially multiplying $\mathbf{A}$ and $\mathbf{B}$ with the activation. Despite its success, the intrinsic low-rank characteristic may limit its performance. Although several variants have been proposed to address this issue, they often overlook the crucial computational and memory efficiency brought by LoRA. In this paper, we propose \underline{C}ir\underline{c}ular \underline{C}onvolution \underline{A}daptation (C$^3$A), which not only achieves high-rank adaptation with enhanced performance but also excels in both computational power and memory utilization. Extensive experiments demonstrate that C$^3$A consistently outperforms LoRA and its variants across various fine-tuning tasks. | 翻訳日:2024-07-30 18:41:57 公開日:2024-07-27 |
# 推論時間選択バイアス
Inference-Time Selective Debiasing ( http://arxiv.org/abs/2407.19345v1 ) ライセンス: Link先を確認 | Gleb Kuzmin, Nemeesh Yadav, Ivan Smirnov, Timothy Baldwin, Artem Shelmanov, | (参考訳) モデルの再トレーニングが禁じられている状況において、予測性能と公平性の観点からモデル全体の品質を高めることを目的とした、予測時安全機構である選択的脱バイアスを提案する。
この方法は選択予測にインスパイアされ、低い品質と見なされる予測は推論時に破棄される。
このアプローチでは、潜在的なバイアスのあるモデル予測を特定し、それらを捨てる代わりに、後処理のデバイアス法であるLEACEを使ってそれらをデバイアスします。
問題のある予測を選択するために,従来のUQ法よりも優れた結果が得られるKL分散に基づくバイアス定量化手法を提案する。
テキスト分類データセットを用いた実験では、選択的デバイアスは、後処理方法とトレーニングと前処理のデバイアス技術の間のパフォーマンスギャップを埋めるのに役立つことが示されている。
We propose selective debiasing -- an inference-time safety mechanism that aims to increase the overall quality of models in terms of prediction performance and fairness in the situation when re-training a model is prohibitive. The method is inspired by selective prediction, where some predictions that are considered low quality are discarded at inference time. In our approach, we identify the potentially biased model predictions and, instead of discarding them, we debias them using LEACE -- a post-processing debiasing method. To select problematic predictions, we propose a bias quantification approach based on KL divergence, which achieves better results than standard UQ methods. Experiments with text classification datasets demonstrate that selective debiasing helps to close the performance gap between post-processing methods and at-training and pre-processing debiasing techniques. | 翻訳日:2024-07-30 18:41:57 公開日:2024-07-27 |
# ファインタニングとアライメントによるインコンテクスト学習の課題としての多項回帰
Polynomial Regression as a Task for Understanding In-context Learning Through Finetuning and Alignment ( http://arxiv.org/abs/2407.19346v1 ) ライセンス: Link先を確認 | Max Wilcoxson, Morten Svendgård, Ria Doshi, Dylan Davis, Reya Vir, Anant Sahai, | (参考訳) 単純な関数クラスは、大きな言語モデルに使用されるトランスフォーマーベースのアーキテクチャにおいて、コンテキスト学習をよりよく理解するために、おもちゃの問題として現れてきた。
しかし、以前提案された線形回帰や多層パーセプトロンのような単純な関数クラスは、コンテキスト内学習が可能なモデル内でのプロンプトやアライメントのようなことを探索するために必要な構造を欠いている。
本稿では,一変量多項式回帰をプロンプトとアライメントを研究するのに十分なほどにリッチな関数クラスとして提案する。
Simple function classes have emerged as toy problems to better understand in-context-learning in transformer-based architectures used for large language models. But previously proposed simple function classes like linear regression or multi-layer-perceptrons lack the structure required to explore things like prompting and alignment within models capable of in-context-learning. We propose univariate polynomial regression as a function class that is just rich enough to study prompting and alignment, while allowing us to visualize and understand what is going on clearly. | 翻訳日:2024-07-30 18:41:57 公開日:2024-07-27 |
# 離散化フォン・ノイマン測度プロトコルと事前学習された行列積状態の統合
Integrating discretized von Neumann measurement Protocols with pre-trained matrix product states ( http://arxiv.org/abs/2407.19348v1 ) ライセンス: Link先を確認 | Younes Javanmard, | (参考訳) 本稿では、テンソルネットワークと密度行列再正規化グループ(DMRG)技術を組み合わせて、複雑な多体系のシミュレーションと基底状態の探索を行う量子アルゴリズムを提案する。
このアルゴリズムはフォン・ノイマンの測度処方(英語版)に基づいており、量子位相推定の概念構築ブロックとして機能している。
本稿では,このアルゴリズムの実装とシミュレーションについて述べる。このアルゴリズムは,必要資源の推定や,ハミルトン分布を表すために行列積演算子(MPO)の使用を含む。
量子スピン系と電子構造問題のシミュレーションにおけるアルゴリズムの潜在的な応用について述べる。
We present a quantum algorithm for simulating complex many-body systems and finding their ground states, combining the use of tensor networks and density matrix renormalization group (DMRG) techniques. The algorithm is based on von Neumann's measurement prescription, which serves as a conceptual building block for quantum phase estimation. We describe the implementation and simulation of the algorithm, including the estimation of resources required and the use of matrix product operators (MPOs) to represent the Hamiltonian. We highlight the potential applications of the algorithm in simulating quantum spin systems and electronic structure problems. | 翻訳日:2024-07-30 18:41:57 公開日:2024-07-27 |
# T細胞受容体特異性の予測
Predicting T-Cell Receptor Specificity ( http://arxiv.org/abs/2407.19349v1 ) ライセンス: Link先を確認 | Tengyao Tu, Wei Zeng, Kun Zhao, Zhenyu Zhang, | (参考訳) TCRの特異性の研究は、免疫療法の発展に寄与し、パーソナライズされたがん免疫療法の新しい機会と戦略を提供する。
そこで我々は,Random Forestアルゴリズムに基づく抗原セレクタとTCR分類器からなるTCR生成特異性検出フレームワークを構築し,TCRとターゲット抗原を効率的にスクリーニングし,TCR特異性予測を実現することを目的とした。
さらに,kフォールド検証法を用いて,モデルの性能を通常のディープラーニング法と比較した。
その結果、ランダムフォレストアルゴリズムに基づくモデルに分類器を追加することは極めて効果的であることが証明され、我々のモデルは一般的に通常の深層学習法よりも優れていた。
さらに、モデル実装中に見つかったモデルの欠点と課題に対して、実現可能な最適化提案を行った。
Researching the specificity of TCR contributes to the development of immunotherapy and provides new opportunities and strategies for personalized cancer immunotherapy. Therefore, we established a TCR generative specificity detection framework consisting of an antigen selector and a TCR classifier based on the Random Forest algorithm, aiming to efficiently screen out TCRs and target antigens and achieve TCR specificity prediction. Furthermore, we used the k-fold validation method to compare the performance of our model with ordinary deep learning methods. The result proves that adding a classifier to the model based on the random forest algorithm is very effective, and our model generally outperforms ordinary deep learning methods. Moreover, we put forward feasible optimization suggestions for the shortcomings and challenges of our model found during model implementation. | 翻訳日:2024-07-30 18:41:57 公開日:2024-07-27 |
# AccessShare: 盲人とのデータアクセスと共有を共同設計する
AccessShare: Co-designing Data Access and Sharing with Blind People ( http://arxiv.org/abs/2407.19351v1 ) ライセンス: Link先を確認 | Rie Kamikubo, Farnaz Zamiri Zeraati, Kyungjun Lee, Hernisa Kacorri, | (参考訳) 盲人はしばしば、将来のアクセシビリティとインクルージョンを期待して、AIイノベーションのためのデータセットに画像データをコントリビュートするために呼ばれる。
しかし、投稿された画像の視覚検査はアクセスできない。
現在までに、盲人コミュニティにアクセスできるデータ検査と制御のメカニズムが欠如しています。
このギャップに対処するため、私たちは、スマートグラスを着用し、自宅にAIを注入したアプリケーションを使用して画像データを収集するシナリオに、10人の盲目の参加者を巻き込みます。
我々はまた、デザインプローブ、AccessShareと呼ばれる新しいデータアクセスインターフェースを設計し、参加者の同意、データ検査、制御に関するニーズ、好み、アイデアを議論する共同設計研究を行う。
本研究は,データスチュワードとブラインドデータコントリビュータ間のコミュニケーションを促進する上で,対話型インフォームドコンセンサスと,AccessShareなどのデータインスペクションシステムの相補的役割が与える影響を明らかにするものである。
我々は、AIにおける包括的で責任あるデータプラクティスを促進するために、重要な洞察が将来のインフォームドコンセントとデータコントロールをガイドする方法について論じる。
Blind people are often called to contribute image data to datasets for AI innovation with the hope for future accessibility and inclusion. Yet, the visual inspection of the contributed images is inaccessible. To this day, we lack mechanisms for data inspection and control that are accessible to the blind community. To address this gap, we engage 10 blind participants in a scenario where they wear smartglasses and collect image data using an AI-infused application in their homes. We also engineer a design probe, a novel data access interface called AccessShare, and conduct a co-design study to discuss participants' needs, preferences, and ideas on consent, data inspection, and control. Our findings reveal the impact of interactive informed consent and the complementary role of data inspection systems such as AccessShare in facilitating communication between data stewards and blind data contributors. We discuss how key insights can guide future informed consent and data control to promote inclusive and responsible data practices in AI. | 翻訳日:2024-07-30 18:41:57 公開日:2024-07-27 |
# 半古典部分空間、非同期法等
Semi-Classical Subspaces, The No Synchronization Law, and More ( http://arxiv.org/abs/2407.18201v2 ) ライセンス: Link先を確認 | Samuel Epstein, | (参考訳) 本稿では,アルゴリズム情報理論と物理,すなわち量子力学,熱力学,ブラックホールの交わりについて考察する。
量子世界と古典的領域の間の障壁を特徴づける定理について議論する。
半古典的部分空間」の概念が導入された。
No Synchronization Law (No Synchronization Law) の詳細は、時間とともに進化する分離された物理的システムは、シンクしている熱力学的アルゴリズムのエントロピーを持つことができない、と述べている。
我々は、ブラックホールのコルモゴロフ複雑性に関する今後の研究について考察する。
This paper looks at the intersection of algorithmic information theory and physics, namely quantum mechanics, thermodynamics, and black holes. We discuss theorems which characterize the barrier between the quantum world and the classical realm. The notion of a "semi-classical subspace" is introduced. The No Synchronization Law is detailed, which says separate and isolated physical systems evolving over time cannot have thermodynamic algorithmic entropies that are in synch. We look at future work involving the Kolmogorov complexity of black holes. | 翻訳日:2024-07-30 12:35:35 公開日:2024-07-27 |