このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240707となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 視覚拡散モデルにおける再現性:調査と展望
Replication in Visual Diffusion Models: A Survey and Outlook ( http://arxiv.org/abs/2408.00001v1 ) ライセンス: Link先を確認 | Wenhao Wang, Yifan Sun, Zongxin Yang, Zhengdong Hu, Zhentao Tan, Yi Yang, | (参考訳) ビジュアル拡散モデルはクリエイティブAIの分野に革命をもたらし、高品質で多様なコンテンツを生み出している。
しかし、必然的にトレーニング画像や動画を記憶し、推論中にその概念、内容、スタイルを複製する。
この現象は、生成された出力内のプライバシ、セキュリティ、および著作権に関する重大な懸念を引き起こす。
本研究では,既存の研究を体系的に分類し,その現象を顕在化し,理解し,緩和することにより,視覚拡散モデルにおける再現の包括的レビューを行う。
特に、公開は、主にレプリケーションインスタンスを検出するために使用されるメソッドを指す。
理解には、この現象に寄与するメカニズムや要因を分析することが含まれる。
緩和は複製を減らしたり排除したりする戦略の開発に焦点を当てる。
これらの側面を超えて、現実世界の影響に焦点を当てた論文もレビューする。
例えば、医療の文脈では、複製は患者のデータに関するプライバシー上の懸念のために極めて心配である。
最後に、レプリケーションの検出とベンチマークの難しさなど、現在進行中の課題について議論を行い、より堅牢な緩和技術の開発を含む今後の方向性を概説する。
多様な研究から洞察を合成することにより,AI技術と社会的善との交点を深く理解することを目的とした。
私たちはこのプロジェクトをhttps://github.com/WangWenhao0716/Awesome-Diffusion-Replicationでリリースします。
Visual diffusion models have revolutionized the field of creative AI, producing high-quality and diverse content. However, they inevitably memorize training images or videos, subsequently replicating their concepts, content, or styles during inference. This phenomenon raises significant concerns about privacy, security, and copyright within generated outputs. In this survey, we provide the first comprehensive review of replication in visual diffusion models, marking a novel contribution to the field by systematically categorizing the existing studies into unveiling, understanding, and mitigating this phenomenon. Specifically, unveiling mainly refers to the methods used to detect replication instances. Understanding involves analyzing the underlying mechanisms and factors that contribute to this phenomenon. Mitigation focuses on developing strategies to reduce or eliminate replication. Beyond these aspects, we also review papers focusing on its real-world influence. For instance, in the context of healthcare, replication is critically worrying due to privacy concerns related to patient data. Finally, the paper concludes with a discussion of the ongoing challenges, such as the difficulty in detecting and benchmarking replication, and outlines future directions including the development of more robust mitigation techniques. By synthesizing insights from diverse studies, this paper aims to equip researchers and practitioners with a deeper understanding at the intersection between AI technology and social good. We release this project at https://github.com/WangWenhao0716/Awesome-Diffusion-Replication. | 翻訳日:2024-08-19 05:35:40 公開日:2024-07-07 |
# バイオロメトリによる従来と違うオーサリングの実践の検出と世界研究指標への影響調査,2019-2023
Using Bibliometrics to Detect Unconventional Authorship Practices and Examine Their Impact on Global Research Metrics, 2019-2023 ( http://arxiv.org/abs/2407.18331v1 ) ライセンス: Link先を確認 | Lokman I. Meho, Elie A. Akl, | (参考訳) 2019年から2023年にかけて、世界平均の15倍以上の研究成果が増加し、著者数も大幅に変化した(例えば、最初の著者数が減少し、超多作作家が増加し、多作作家が増加し、出版率当たりの著者数が増加した)。
本研究は, 書誌的手法を用いて, 出版の指標をインフレーションするために, 贈与, 名誉, 販売された著作物など, 伝統的でない著作物への依存を示唆するパターンを検出した。
この研究は、大学、政策立案者、資金調達機関、ランキング機関、認定機関、学術出版社、研究者による改革の必要性を強調し、学術的完全性を維持し、グローバルなランキングシステムの信頼性を確保する。
Between 2019 and 2023, sixteen universities increased their research output by over fifteen times the global average, alongside significant changes in authorship dynamics (e.g., decreased first authorship, rise in hyperprolific authors, increased multi-affiliations, and increased authors per publication rate). Using bibliometric methods, this study detected patterns suggesting a reliance on unconventional authorship practices, such as gift, honorary, and sold authorship, to inflate publication metrics. The study underscores the need for reforms by universities, policymakers, funding agencies, ranking agencies, accreditation bodies, scholarly publishers, and researchers to maintain academic integrity and ensure the reliability of global ranking systems. | 翻訳日:2024-08-05 01:25:56 公開日:2024-07-07 |
# 生体可塑性制約のないスパイキングニューラルネットワークにおける励起・抑制エネルギの時空間構造
Spatio-temporal Structure of Excitation and Inhibition Emerges in Spiking Neural Networks with and without Biologically Plausible Constraints ( http://arxiv.org/abs/2407.18917v1 ) ライセンス: Link先を確認 | Balázs Mészáros, James Knight, Thomas Nowotny, | (参考訳) 本稿では、Dilated Convolution with Learnable Spacings (DCLS)を用いて、学習可能なシナプス遅延を組み込んだスパイキングニューラルネットワーク(SNN)モデルを提案する。
我々は、このモデルをRaw Heidelberg Digitsキーワードスポッティングベンチマークで、代理勾配を持つBackpropagation Through Timeを用いて訓練する。
ネットワークにおけるシナプス相互作用の時空間構造を解析したところ、トレーニングの励振と抑制は空間と時間の両方でグループ化されることがわかった。
そこで我々は,DEP Rを接続除去用として,RigLを接続再導入用として併用し,ネットワークがトレーニングを通して最適な接続性を維持するダイナミック・プルーニング・ストラテジーを実装した。
さらに、私たちはDaleの原則を取り入れ、各ニューロンに排他的または抑制的であることを強制し、私たちのモデルを生物学的ニューラルネットワークに近づけました。
訓練後, 刺激と抑制の時空間パターンが, より生物学的に妥当なモデルにも現れることがわかった。
本研究は,時間的データ処理のための効率的なSNNモデルを開発するために,学習可能な遅延,動的刈り込み,生物学的制約を統合する可能性を示す。
さらに,本研究の結果は,SNNにおける時空間の時空間的ダイナミクスの理解を深めるとともに,トレーニングから生じる時空間的特徴がプルーニングおよびリライトプロセスの両方に対して堅牢であること,ニューロモルフィックコンピューティングアプリケーションにおける今後の研究の基盤となることを示唆している。
We present a Spiking Neural Network (SNN) model that incorporates learnable synaptic delays using Dilated Convolution with Learnable Spacings (DCLS). We train this model on the Raw Heidelberg Digits keyword spotting benchmark using Backpropagation Through Time with surrogate gradients. Analysing the spatio-temporal structure of synaptic interactions in the network we observe that after training excitation and inhibition are grouped together both in space and time. To further enhance the efficiency and biological realism of our model, we implemented a dynamic pruning strategy that combines DEEP R for connection removal and RigL for connection reintroduction, ensuring that the network maintains optimal connectivity throughout training. Additionally, we incorporated Dale's Principle, enforcing each neuron to be exclusively excitatory or inhibitory -- aligning our model closer to biological neural networks. We observed that, after training, the spatio-temporal patterns of excitation and inhibition appeared in the more biologically plausible model as well. Our research demonstrates the potential of integrating learnable delays, dynamic pruning, and biological constraints to develop efficient SNN models for temporal data processing. Furthermore, our results enhance the understanding of spatio-temporal dynamics in SNNs -- suggesting that the spatio-temporal features which emerge from training are robust to both pruning and rewiring processes -- providing a solid foundation for future work in neuromorphic computing applications. | 翻訳日:2024-08-05 01:25:56 公開日:2024-07-07 |
# 機械学習の量子ダイナミクス
Quantum Dynamics of Machine Learning ( http://arxiv.org/abs/2407.19890v1 ) ライセンス: Link先を確認 | Peng Wang, Maimaitiniyazi Maimaitiabudula, | (参考訳) 機械学習の量子力学方程式(QDE)は、シュリンガー方程式とポテンシャルエネルギー等価関係に基づいて得られる。
ウィック回転により、量子力学と熱力学の関係も確立される。
この方程式は、機械学習の反復過程を、明確な数学的構造を持つ時間依存偏微分方程式に再構成し、量子および数学的理論を通じて機械学習の反復を研究する理論的枠組みを提供する。
本枠組みでは, 基本反復過程, 拡散モデル, ソフトマックス関数およびシグモイド関数について検討し, 提案した量子力学方程式を検証した。
このアプローチは、機械学習の厳格な理論基盤を提供するだけでなく、量子コンピュータ上での機械学習アルゴリズムの実装をサポートすることを約束している。
The quantum dynamic equation (QDE) of machine learning is obtained based on Schr\"odinger equation and potential energy equivalence relationship. Through Wick rotation, the relationship between quantum dynamics and thermodynamics is also established in this paper. This equation reformulates the iterative process of machine learning into a time-dependent partial differential equation with a clear mathematical structure, offering a theoretical framework for investigating machine learning iterations through quantum and mathematical theories. Within this framework, the fundamental iterative process, the diffusion model, and the Softmax and Sigmoid functions are examined, validating the proposed quantum dynamics equations. This approach not only presents a rigorous theoretical foundation for machine learning but also holds promise for supporting the implementation of machine learning algorithms on quantum computers. | 翻訳日:2024-08-05 00:56:24 公開日:2024-07-07 |
# 視覚・聴覚障害者に対するモース符号付き音声認識
Morse Code-Enabled Speech Recognition for Individuals with Visual and Hearing Impairments ( http://arxiv.org/abs/2407.14525v1 ) ライセンス: Link先を確認 | Ritabrata Roy Choudhury, | (参考訳) 提案モデルは,聴覚,音声,認知障害者のための音声認識技術を開発することを目的としている。
音声認識の分野で利用できるすべての技術は、聴覚、音声、認知障害のある人々のためのコミュニケーションのためのインターフェースを持っていない。
提案したモデルは、ユーザから音声を送信し、音声認識層に送信し、テキストに変換し、そのテキストをモールスコード変換層に送信し、対応する音声のモールスコードを出力として与える。
モース符号変換はプロセスであるため、モデルの精度は音声認識に完全に依存する。
モデルは、異なるパラメータを持つ録音されたオーディオファイルでテストされる。
提案されたモデルのWERと精度はそれぞれ10.18%と89.82%と決定される。
The proposed model aims to develop a speech recognition technology for hearing, speech, or cognitively disabled people. All the available technology in the field of speech recognition doesn't come with an interface for communication for people with hearing, speech, or cognitive disabilities. The proposed model proposes the speech from the user, is transmitted to the speech recognition layer where it is converted into text and then that text is then transmitted to the morse code conversion layer where the morse code of the corresponding speech is given as the output. The accuracy of the model is completely dependent on speech recognition, as the morse code conversion is a process. The model is tested with recorded audio files with different parameters. The proposed model's WER and accuracy are both determined to be 10.18% and 89.82%, respectively. | 翻訳日:2024-07-28 18:39:09 公開日:2024-07-07 |
# エッジグラフインテリジェンス:グラフインテリジェンスでエッジネットワークを相互に強化
Edge Graph Intelligence: Reciprocally Empowering Edge Networks with Graph Intelligence ( http://arxiv.org/abs/2407.15320v1 ) ライセンス: Link先を確認 | Liekang Zeng, Shengyuan Ye, Xu Chen, Xiaoxi Zhang, Ju Ren, Jian Tang, Yang Yang, Xuemin, Shen, | (参考訳) 近年、ネットワークエッジに接続するコンピューティング施設が成長し、さまざまなインテリジェントサービスをサポートするための基盤としてエッジコンピューティングネットワークを育んでいる。
一方、人工知能フロンティアは、グラフドメインに機械学習を外挿し、グラフ構造における巨大なデータから学習する前例のない能力を解放するグラフインテリジェンス(GI)を推進した。
グラフとネットワークの固有の関係を考えると、グラフ表現学習とエッジネットワーク、すなわちエッジGIまたはEDGの学際性は、それらの間の新たな相互作用を明らかにしている。
この繊細なクローズドループによって駆動されるEGIは、エッジコンピューティングパワーの可能性を完全に解き放つための有望なソリューションとして広く認識され、注目を集めている。
それでも、EGIの研究はまだ初期段階にあり、最近の進歩を共有するための専用会場として、コミュニケーションコミュニティとAIコミュニティの両方で需要が急増している。
この目的のために、本稿では、EGIの概念を推進し、その範囲と基本原則を探求し、この新興分野に関する最近の研究成果に関する総合的な調査を行い、その紹介と議論を行う。
1)エッジコンピューティングとグラフ表現学習の基礎
2)グラフインテリジェンスとエッジネットワークの閉ループを中心とした新興技術
3)今後のECGの課題と研究の機会。
コミュニケーション,ネットワーク,グラフ学習領域間のギャップを埋めることで,この調査は注目度を高め,有意義な議論を奨励し,EGIにおけるさらなる研究思想を刺激する可能性があると信じている。
Recent years have witnessed a thriving growth of computing facilities connected at the network edge, cultivating edge computing networks as a fundamental infrastructure for supporting miscellaneous intelligent services. Meanwhile, Artificial Intelligence frontiers have extrapolated Machine Learning to the graph domain and promoted Graph Intelligence (GI), which unlocks unprecedented ability in learning from massive data in graph structures. Given the inherent relation between graphs and networks, the interdiscipline of graph representation learning and edge networks, i.e., Edge GI or EGI, has revealed a novel interplay between them -- GI models principally open a new door for modeling, understanding, and optimizing edge networks, and conversely, edge networks serve as physical support for training, deploying, and accelerating GI models. Driven by this delicate closed-loop, EGI can be widely recognized as a promising solution to fully unleash the potential of edge computing power and is garnering significant attention. Nevertheless, research on EGI yet remains nascent, and there is a soaring demand within both the communications and AI communities for a dedicated venue to share recent advancements. To this end, this paper promotes the concept of EGI, explores its scope and core principles, and conducts a comprehensive survey concerning recent research efforts on this emerging field and specifically, introduces and discusses: 1) fundamentals of edge computing and graph representation learning, 2) emerging techniques centering on the closed loop between graph intelligence and edge networks, and 3) open challenges and research opportunities of future EGI. By bridging the gap across communication, networking, and graph learning areas, we believe that this survey can garner increased attention, foster meaningful discussions, and inspire further research ideas in EGI. | 翻訳日:2024-07-28 18:29:13 公開日:2024-07-07 |
# ヒト発声におけるバイオマーカーの検討
Survey on biomarkers in human vocalizations ( http://arxiv.org/abs/2407.17505v1 ) ライセンス: Link先を確認 | Aki Härmä, Bert den Brinker, Ulf Grossekathofer, Okke Ouweltjes, Srikanth Nallanthighal, Sidharth Abrol, Vibhu Sharma, | (参考訳) 近年,話者の健康感を高めるために音声を使用する技術が増えてきている。
本研究は, 技術の一般的な分類法と今後の進歩と課題について概説する。
声道バイオマーカーは、しばしば別のセンサーの信号を近似したり、基礎となる精神的、認知的、生理的状態を特定する二次的な尺度である。
彼らの測定にはノイズ源として考えられる障害や不確実性が含まれており、バイオマーカーはその決定に関わる様々なノイズ源に関して粗い資格を有する。
提案されたバイオマーカーでは、エラーレベルが高いように見えるが、エラーが低く、したがって医療応用の候補になる可能性が高くなる、声のよいバイオマーカーが存在する。
Recent years has witnessed an increase in technologies that use speech for the sensing of the health of the talker. This survey paper proposes a general taxonomy of the technologies and a broad overview of current progress and challenges. Vocal biomarkers are often secondary measures that are approximating a signal of another sensor or identifying an underlying mental, cognitive, or physiological state. Their measurement involve disturbances and uncertainties that may be considered as noise sources and the biomarkers are coarsely qualified in terms of the various sources of noise involved in their determination. While in some proposed biomarkers the error levels seem high, there are vocal biomarkers where the errors are expected to be low and thus are more likely to qualify as candidates for adoption in healthcare applications. | 翻訳日:2024-07-28 17:59:54 公開日:2024-07-07 |
# 予測型ビジネスプロセス管理におけるAIと機械学習の貢献(プロセスの強化とプロセス改善のアプローチ)
A Review of AI and Machine Learning Contribution in Predictive Business Process Management (Process Enhancement and Process Improvement Approaches) ( http://arxiv.org/abs/2407.11043v1 ) ライセンス: Link先を確認 | Mostafa Abbasi, Rahnuma Islam Nishat, Corey Bond, John Brandon Graham-Knight, Patricia Lasserre, Yves Lucet, Homayoun Najjaran, | (参考訳) 目的- ビジネスプロセスの重要性は、学術と産業の密接な連携を育んでいる。
さらに、ビジネスの状況は継続的な変革を目撃し、技術的進歩と密接に絡み合っている。
私たちの主な目標は、人工知能(AI)と機械学習(ML)に関する最新の開発に関する研究者とプロセスアナリストの洞察を提供することで、組織におけるプロセスの最適化と、この分野における研究ギャップと今後の方向性の特定です。
本稿では,ビジネスプロセス管理(BPM)におけるAI/MLの統合を検討するため,学術文献の体系的なレビューを行う。
我々は、文献をBPMライフサイクルに従って分類し、書誌的かつ客観的な方法論を用いて関連論文を分析します。
発見- ビジネスプロセス管理とプロセスマップにおいて、AI/MLはプロセスメトリクスの運用データを使用して大幅に改善しました。
これらの開発には、(1)プロセス情報の分析を重視し、プロセスモデルに記述を追加するプロセス強化と、(2)分析から派生した洞察に基づくプロセスの再設計に焦点を当てたプロセス改善の2つの段階が含まれる。
研究の限界/影響-プロセス関連の課題に対処するための様々なアプローチの概要を提供するのに役立ちながら、各手法の詳細な技術的詳細を深く掘り下げることはできない。
この研究は2010年から2024年にかけて行われた最近の論文に焦点を当てている。
本稿では,プロセス管理ライフサイクル全体にわたってAI/ML技術の統合を徹底的に検討することにより,先駆的なアプローチを採用する。
さらに、画期的な研究を示し、AI/ML対応の統合ツールを導入し、将来の研究の洞察をさらに強化する。
Purpose- The significance of business processes has fostered a close collaboration between academia and industry. Moreover, the business landscape has witnessed continuous transformation, closely intertwined with technological advancements. Our main goal is to offer researchers and process analysts insights into the latest developments concerning Artificial Intelligence (AI) and Machine Learning (ML) to optimize their processes in an organization and identify research gaps and future directions in the field. Design/methodology/approach- In this study, we perform a systematic review of academic literature to investigate the integration of AI/ML in business process management (BPM). We categorize the literature according to the BPM life-cycle and employ bibliometric and objective-oriented methodology, to analyze related papers. Findings- In business process management and process map, AI/ML has made significant improvements using operational data on process metrics. These developments involve two distinct stages: (1) process enhancement, which emphasizes analyzing process information and adding descriptions to process models, and (2) process improvement, which focuses on redesigning processes based on insights derived from analysis. Research limitations/implications- While this review paper serves to provide an overview of different approaches for addressing process-related challenges, it does not delve deeply into the intricacies of fine-grained technical details of each method. This work focuses on recent papers conducted between 2010 and 2024. Originality/value- This paper adopts a pioneering approach by conducting an extensive examination of the integration of AI/ML techniques across the entire process management lifecycle. Additionally, it presents groundbreaking research and introduces AI/ML-enabled integrated tools, further enhancing the insights for future research. | 翻訳日:2024-07-22 12:09:54 公開日:2024-07-07 |
# 新しい難読化マルウェアの検出:軽量で解釈可能な機械学習アプローチ
Detecting new obfuscated malware variants: A lightweight and interpretable machine learning approach ( http://arxiv.org/abs/2407.07918v1 ) ライセンス: Link先を確認 | Oladipo A. Madamidola, Felix Ngobigha, Adnane Ez-zizi, | (参考訳) 機械学習はマルウェア検出システムの開発に成功し、精度を重視し、計算オーバーヘッドの低減とモデルの解釈可能性の向上に注意を向けている。
機械学習ベースのモデルは、トレーニングデータに存在しない全く新しい種類のマルウェアをどの程度検出できるか?
本研究では、高度に正確で、軽量で、解釈可能なだけでなく、新たなタイプのマルウェア攻撃に適応できる、難読化マルウェアを検出する機械学習ベースのシステムを提案する。
本システムでは,1つのマルウェアサブタイプ,すなわちSpywareファミリーのTransponderでのみ訓練されているにもかかわらず,15種類のマルウェアサブタイプを検出することができる。
このシステムは、CIC-MalMem-2022データセットとは異なるマルウェアサブタイプで、15の異なるランダムな森林ベースのモデルをトレーニングした後に開発された。
これらのモデルは、未確認のマルウェアサブタイプを含む全種類のマルウェアサブタイプに対して評価された。
システムの合理化された性質を維持するため、トレーニングは最も重要な5つの特徴に制限され、解釈可能性も向上した。
トランスポンダー中心のモデルは99.8%を超え、平均処理速度はファイルあたり5.7マイクロ秒であった。
また,Shapley加法によりモデル予測の解釈が容易になることを示す。
本研究は,単一または少数の慎重に選択されたマルウェアサブタイプに対してのみモデルをトレーニングし,未確認のサブタイプを検出することによって,難読化マルウェア検出の可能性を開拓し,マルウェア検出手法の進歩に寄与する。
Machine learning has been successfully applied in developing malware detection systems, with a primary focus on accuracy, and increasing attention to reducing computational overhead and improving model interpretability. However, an important question remains underexplored: How well can machine learning-based models detect entirely new forms of malware not present in the training data? In this study, we present a machine learning-based system for detecting obfuscated malware that is not only highly accurate, lightweight and interpretable, but also capable of successfully adapting to new types of malware attacks. Our system is capable of detecting 15 malware subtypes despite being exclusively trained on one malware subtype, namely the Transponder from the Spyware family. This system was built after training 15 distinct random forest-based models, each on a different malware subtype from the CIC-MalMem-2022 dataset. These models were evaluated against the entire range of malware subtypes, including all unseen malware subtypes. To maintain the system's streamlined nature, training was confined to the top five most important features, which also enhanced interpretability. The Transponder-focused model exhibited high accuracy, exceeding 99.8%, with an average processing speed of 5.7 microseconds per file. We also illustrate how the Shapley additive explanations technique can facilitate the interpretation of the model predictions. Our research contributes to advancing malware detection methodologies, pioneering the feasibility of detecting obfuscated malware by exclusively training a model on a single or a few carefully selected malware subtypes and applying it to detect unseen subtypes. | 翻訳日:2024-07-12 21:58:43 公開日:2024-07-07 |
# 安定したデータ駆動気候モデリングのための非局所力学学習の重要性について:1次元重力波-QBOテストベッド
On the importance of learning non-local dynamics for stable data-driven climate modeling: A 1D gravity wave-QBO testbed ( http://arxiv.org/abs/2407.05224v1 ) ライセンス: Link先を確認 | Hamid A. Pahlavan, Pedram Hassanzadeh, M. Joan Alexander, | (参考訳) 機械学習(ML)技術、特にニューラルネットワーク(NN)は、気候モデリングのための学習サブグリッドスケール(SGS)パラメータ化において有望であることを示している。
しかし、特に教師付きアルゴリズムで学習したデータ駆動パラメータ化の大きな問題は、大規模プロセスの数値解法と統合する際の不安定性である。
現在の治療法は、しばしばアドホックであり、理論的な基礎を欠いている。
ここでは、ML理論と気候物理を組み合わせて、NNベースのパラメータ化における不安定性の源となる問題に対処する。
本研究では,重力波をパラメータ化した準双年振動(QBO)の1次元モデルを用いて,空間非局所力学の学習の重要性を示す。
通常のオフラインメトリクスは非局所力学学習の欠点を識別することができないが、NNが入力の領域である受容場(RF)が、不安定なa-prioriの出力を予測できることを示す。
風面からGW強制を正確に予測すると考えられるNNベースのパラメータ化(\mathbf{R^2 \approx 0.99}$)は、RFが小さすぎて非局所的ダイナミクスを捕捉できない場合、不安定なシミュレーションを引き起こす。
いくつかのアーキテクチャ、例えばフーリエニューラル作用素は本質的に大きなRFを持つ。
また、非局所的ダイナミクスの学習は、粒子風場全体のデータ駆動時空間エミュレータの安定性と精度に不可欠であることを示す。
気候システムにおける非局所力学の多様性を考えると、あらゆるNNアーキテクチャで計算できる実効的なRFの利用は多くのアプリケーションにとって重要であると期待する。
この研究は、気象・気候モデルのためのデータ駆動アルゴリズムを設計・分析するために、ML理論と物理を統合する必要性を強調している。
Machine learning (ML) techniques, especially neural networks (NNs), have shown promise in learning subgrid-scale (SGS) parameterizations for climate modeling. However, a major problem with data-driven parameterizations, particularly those learned with supervised algorithms, is instability when integrated with numerical solvers of large-scale processes. Current remedies are often ad-hoc and lack a theoretical foundation. Here, we combine ML theory and climate physics to address a source of instability in NN-based parameterization. We demonstrate the importance of learning spatially non-local dynamics using a 1D model of the quasi-biennial oscillation (QBO) with gravity wave (GW) parameterization as a testbed. While common offline metrics fail to identify shortcomings in learning non-local dynamics, we show that the receptive field (RF)-the region of the input an NN uses to predict an output-can identify instability a-priori. We find that NN-based parameterizations that seem to accurately predict GW forcings from wind profiles ($\mathbf{R^2 \approx 0.99}$) cause unstable simulations when RF is too small to capture the non-local dynamics, while NNs of the same size but large-enough RF are stable. Some architectures, e.g., Fourier neural operators, have inherently large RF. We also demonstrate that learning non-local dynamics can be crucial for the stability and accuracy of a data-driven spatiotemporal emulator of the entire zonal wind field. Given the ubiquity of non-local dynamics in the climate system, we expect the use of effective RF, which can be computed for any NN architecture, to be important for many applications. This work highlights the need to integrate ML theory with physics for designing/analyzing data-driven algorithms for weather/climate modeling. | 翻訳日:2024-07-10 22:32:40 公開日:2024-07-07 |
# 超伝導体-強磁性体ヘテロ構造における複合集合モードの超伝導伝播
Superluminal Propagation of Composite Collective Modes in Superconductor-Ferromagnet Heterostructures ( http://arxiv.org/abs/2407.05457v1 ) ライセンス: Link先を確認 | Pascal Derendorf, Anatoly F. Volkov, Ilya M. Eremin, | (参考訳) 超伝導体/強磁性体/超伝導体ジョセフソン接合は、超伝導と磁性の微妙な相互作用を研究するためのパラダイムシステムである。
ここでは、非磁化体$H_{dem}$と以前は無視されていた強磁性体$H_{an}$の異方性に起因する磁場との相互作用を考慮し、そのようなヘテロ構造における集合モード(CM)を分析する。
その結果、合成集合モードのスペクトル $\omega(k)$ は、$H_{dem}<H_{an}$ と $H_{dem}>H_{an}$ の場合、質的に異なる形式を持つことがわかった。
第一の場合、従属$\omega(k)$は以前の研究と同様の形式を持つが、第二の場合、スペクトルは完全に異なるように見える。
特に、強磁性体における中等方性あるいは弱い異方性に対して、集合モードの群速度は群速度が無限で超光度である屈折点を示す。
さらに、この点は集合モードに対する純粋に実かつ複素共役な解を分離し、また例外点である。
CMsスペクトルの違いをFiske実験により明らかにする。
という。
磁場と電圧の存在下でのI-V$特性を測定。
Superconductor/ferromagnet/superconductor Josephson junctions are paradigmatic systems for studying the delicate interplay of superconductivity and magnetism via proximity effects as well as their composite excitations. Here, we analyse the collective modes (CM) in such a heterostructure by taking into account the interplay between the de-magnetisation field $H_{dem}$ and the field caused by the anisotropy of the ferromagnet $H_{an}$, which was previously neglected. It turns out that the spectrum of composite collective modes, $\omega(k)$, has a qualitatively different form in the case of $H_{dem}<H_{an}$ and of $H_{dem}>H_{an}$. In the first case, the dependence $\omega(k)$ has the same form as in previous studies, whereas in the second case, the spectrum looks completely different. In particular, for moderate or weak anisotropy in ferromagnet the group velocity of collective modes demonstrates inflection point where the group velocity become infinite and is superluminal. Furthermore, this point separates purely real and complex-conjugate solutions for the collective modes and is also {\it exception point}. We show that the difference of the CMs spectra can be revealed by Fiske experiment, i.\,e.\,by measuring the $I-V$ characteristics in the presence of magnetic field and voltage. | 翻訳日:2024-07-10 22:32:40 公開日:2024-07-07 |
# 参照翻訳機を用いた文脈における単語類似性の予測
Predicting Word Similarity in Context with Referential Translation Machines ( http://arxiv.org/abs/2407.06230v1 ) ライセンス: Link先を確認 | Ergun Biçici, | (参考訳) 本研究では,2つの単語間の類似度を,文脈と類似度間の距離を機械翻訳性能予測(MTPP)とすることで識別する。
我々は参照翻訳機械(RTM)を使用し、トレーニングとテストセットと積み重ね機械学習モデルの共通表現を可能にする。
RTMは、グレードドドワード類似性(GWSC)タスクの上位結果を達成することができる。
We identify the similarity between two words in English by casting the task as machine translation performance prediction (MTPP) between the words given the context and the distance between their similarities. We use referential translation machines (RTMs), which allows a common representation for training and test sets and stacked machine learning models. RTMs can achieve the top results in Graded Word Similarity in Context (GWSC) task. | 翻訳日:2024-07-10 22:22:56 公開日:2024-07-07 |
# 倫理に基づく監査によるAIガバナンスの運用--産業ケーススタディ
Operationalising AI governance through ethics-based auditing: An industry case study ( http://arxiv.org/abs/2407.06232v1 ) ライセンス: Link先を確認 | Jakob Mokander, Luciano Floridi, | (参考訳) 倫理に基づく監査(EBA、Ethics Based auditing)とは、過去の行動や現在の行動が道徳的原則や規範との整合性について評価される、構造化されたプロセスである。
近年、EBAはAI倫理における原則と実践のギャップを埋めるガバナンスメカニズムとして多くの注目を集めている。
しかし、EBAの重要な側面(例えば、異なる監査手順の実現可能性や有効性)は、まだ実証研究によって裏付けられていない。
本稿では,縦断的産業ケーススタディから洞察を得ることによって,この知識ギャップに対処する。
12カ月以上にわたり、我々は、倫理ベースのAI監査の準備と実施のために、バイオ医薬品会社であるAstraZenecaの内部活動を観察し、分析した。
EBAに関するこれまでの文献は、評価指標や可視化技術の提案に重点を置いているが、この発見は、EBAが古典的なガバナンス課題を反映する上で、大きな多国籍組織が直面する主な困難を示唆している。
これには、分散化された組織全体の調和した標準の確保、監査の範囲の縮小、内部コミュニケーションと変更管理の推進、実際の成果の測定などが含まれる。
本稿で紹介するケーススタディは,ERAの手順を統合化して実現可能かつ効果的にする必要があるという,組織的状況の詳細な説明を提供することによって,既存の文献に寄与する。
Ethics based auditing (EBA) is a structured process whereby an entitys past or present behaviour is assessed for consistency with moral principles or norms. Recently, EBA has attracted much attention as a governance mechanism that may bridge the gap between principles and practice in AI ethics. However, important aspects of EBA (such as the feasibility and effectiveness of different auditing procedures) have yet to be substantiated by empirical research. In this article, we address this knowledge gap by providing insights from a longitudinal industry case study. Over 12 months, we observed and analysed the internal activities of AstraZeneca, a biopharmaceutical company, as it prepared for and underwent an ethics-based AI audit. While previous literature concerning EBA has focused on proposing evaluation metrics or visualisation techniques, our findings suggest that the main difficulties large multinational organisations face when conducting EBA mirror classical governance challenges. These include ensuring harmonised standards across decentralised organisations, demarcating the scope of the audit, driving internal communication and change management, and measuring actual outcomes. The case study presented in this article contributes to the existing literature by providing a detailed description of the organisational context in which EBA procedures must be integrated to be feasible and effective. | 翻訳日:2024-07-10 22:22:56 公開日:2024-07-07 |
# AIと社会理論
AI and Social Theory ( http://arxiv.org/abs/2407.06233v1 ) ライセンス: Link先を確認 | Jakob Mokander, Ralph Schroeder, | (参考訳) 本稿では,AI駆動型社会理論のプログラムをスケッチする。
この文脈で人工知能(AI)が意味するものを定義することから始めます。
そして、AIベースのモデルがデジタルデータの可用性を増大させ、予測力に基づいて異なる社会的理論の有効性をテストするためのモデルを構築します。
そのために、Randall Collinsと彼の状態分解モデルを使って、AIベースのモデルは、すでにさまざまなソースからの知識を合成し、世界を推論し、さまざまな問題で知られていることを体系的な方法で適用することができることを実証しています。
しかし、AIによって駆動される社会理論は、実用的、技術的、認識論的に制限される範囲に留まっていることもわかっています。
最も重要なのは、既存のAIシステムには、累積的、全体的、オープンエンド、目的のある方法で社会理論を前進させるために必要な3つの必須機能がないことだ。
これらは(1)意味論、すなわち、機械操作可能な知識を表現するために言語概念を開発・運用する能力、(2)伝達可能性、すなわち、ある文脈で学んだものを別の文脈に転送する能力、(3)生成性、すなわち、概念やモデル上で独立して作成・改善する能力である。
ここで確認されたギャップが更なる研究によって解決されるならば、将来、社会理論における最も高度なプログラムがAI駆動の累積的な進歩によって導かれるべきではない理由はない、と我々は主張する。
In this paper, we sketch a programme for AI driven social theory. We begin by defining what we mean by artificial intelligence (AI) in this context. We then lay out our model for how AI based models can draw on the growing availability of digital data to help test the validity of different social theories based on their predictive power. In doing so, we use the work of Randall Collins and his state breakdown model to exemplify that, already today, AI based models can help synthesize knowledge from a variety of sources, reason about the world, and apply what is known across a wide range of problems in a systematic way. However, we also find that AI driven social theory remains subject to a range of practical, technical, and epistemological limitations. Most critically, existing AI systems lack three essential capabilities needed to advance social theory in ways that are cumulative, holistic, open-ended, and purposeful. These are (1) semanticization, i.e., the ability to develop and operationalize verbal concepts to represent machine-manipulable knowledge, (2) transferability, i.e., the ability to transfer what has been learned in one context to another, and (3) generativity, i.e., the ability to independently create and improve on concepts and models. We argue that if the gaps identified here are addressed by further research, there is no reason why, in the future, the most advanced programme in social theory should not be led by AI-driven cumulative advances. | 翻訳日:2024-07-10 22:22:56 公開日:2024-07-07 |
# 2022年の米国アルゴリズムアカウンタビリティ法対EU人工知能法:彼らはお互いに何を学ぶことができるのか?
The US Algorithmic Accountability Act of 2022 vs. The EU Artificial Intelligence Act: What can they learn from each other? ( http://arxiv.org/abs/2407.06234v1 ) ライセンス: Link先を確認 | Jakob Mokander, Prathm Juneja, David Watson, Luciano Floridi, | (参考訳) 全体としては、2022年アルゴリズム会計法(US AAA)は、自動決定システムの利点とリスクのバランスをとるための実践的なアプローチである。
しかし、改善の余地はまだあります。
この注釈は、米国が欧州人工知能法(EU AIA)に通知し、学習する方法を強調している。
On the whole, the U.S. Algorithmic Accountability Act of 2022 (US AAA) is a pragmatic approach to balancing the benefits and risks of automated decision systems. Yet there is still room for improvement. This commentary highlights how the US AAA can both inform and learn from the European Artificial Intelligence Act (EU AIA). | 翻訳日:2024-07-10 22:22:56 公開日:2024-07-07 |
# AIの監査 - 法的、倫理的、技術的アプローチ
Auditing of AI: Legal, Ethical and Technical Approaches ( http://arxiv.org/abs/2407.06235v1 ) ライセンス: Link先を確認 | Jakob Mokander, | (参考訳) AI監査は、研究と実践の急速に成長している分野である。
このレビュー記事は、AIの監査に関するデジタル・ソサエティのトピック・コレクションの編集を兼ねている。
レビューから3つの重要なポイントが浮かび上がっている。
第一に、現代のAIシステムの監査の試みは、財務会計、安全工学、社会科学といった分野における監査の歴史的構造から学ぶべきことがたくさんある。
第2に、政策立案者と技術提供者は、AIガバナンスメカニズムとしての監査を促進することに関心を持っている。
これにより、学術研究者は、異なるAI監査手順の実現可能性と有効性を研究することで、重要な役割を果たすことができる。
第3に、AI監査は本質的には多分野にわたる事業であり、コンピュータ科学者や技術者、社会科学者、哲学者、法学者、産業実践家らによって多大な貢献がなされている。
このような視点の多様性を反映して、AI監査に対する異なるアプローチには、さまざまな余裕と制約がある。
具体的には、AIシステムの特性と能力に重点を置く技術指向監査と、技術提供者によるガバナンス構造と品質管理システムに重点を置くプロセス指向監査とを区別することができる。
この記事では、AIガバナンスメカニズムとしての監査の進化の次のステップとして、これらの利用可能な(および補完的な)アプローチを、AIシステムの設計と使用方法だけでなく、時間とともに適用された設定におけるユーザ、社会、自然環境にどのように影響するかを監査するための構造化および全体的手順に相互接続するべきである、と結論付けます。
AI auditing is a rapidly growing field of research and practice. This review article, which doubles as an editorial to Digital Societys topical collection on Auditing of AI, provides an overview of previous work in the field. Three key points emerge from the review. First, contemporary attempts to audit AI systems have much to learn from how audits have historically been structured and conducted in areas like financial accounting, safety engineering and the social sciences. Second, both policymakers and technology providers have an interest in promoting auditing as an AI governance mechanism. Academic researchers can thus fill an important role by studying the feasibility and effectiveness of different AI auditing procedures. Third, AI auditing is an inherently multidisciplinary undertaking, to which substantial contributions have been made by computer scientists and engineers as well as social scientists, philosophers, legal scholars and industry practitioners. Reflecting this diversity of perspectives, different approaches to AI auditing have different affordances and constraints. Specifically, a distinction can be made between technology-oriented audits, which focus on the properties and capabilities of AI systems, and process oriented audits, which focus on technology providers governance structures and quality management systems. The next step in the evolution of auditing as an AI governance mechanism, this article concludes, should be the interlinking of these available (and complementary) approaches into structured and holistic procedures to audit not only how AI systems are designed and used but also how they impact users, societies and the natural environment in applied settings over time. | 翻訳日:2024-07-10 22:22:56 公開日:2024-07-07 |
# MILPにおける擬似コストの計算
Discounted Pseudocosts in MILP ( http://arxiv.org/abs/2407.06237v1 ) ライセンス: Link先を確認 | Krunal Kishor Patel, | (参考訳) 本稿では、強化学習における全報酬の割引にインスパイアされた割引擬似コストの概念を紹介し、混合整数線形プログラミング(MILP)におけるそれらの応用について検討する。
従来の疑似コストは、分岐とバウンドプロセスの間の変動境界変化による目的関数の変化を推定する。
強化学習の概念を統合することで,前向きの視点を疑似コスト推定に取り入れた新しいアプローチを提案する。
ディスカウントされた偽費用の背景にあるモチベーションについて述べるとともに,MILP問題空間における一段階の探索の後,枝分かれに対する期待される報酬をどう表現するかについて議論する。
MIPLIB 2017ベンチマークインスタンスの初期実験では、ディスカウントされた擬似コストの可能性を実証し、分岐戦略を強化し、MILP問題に挑戦するソリューションプロセスを加速した。
In this article, we introduce the concept of discounted pseudocosts, inspired by discounted total reward in reinforcement learning, and explore their application in mixed-integer linear programming (MILP). Traditional pseudocosts estimate changes in the objective function due to variable bound changes during the branch-and-bound process. By integrating reinforcement learning concepts, we propose a novel approach incorporating a forward-looking perspective into pseudocost estimation. We present the motivation behind discounted pseudocosts and discuss how they represent the anticipated reward for branching after one level of exploration in the MILP problem space. Initial experiments on MIPLIB 2017 benchmark instances demonstrate the potential of discounted pseudocosts to enhance branching strategies and accelerate the solution process for challenging MILP problems. | 翻訳日:2024-07-10 22:22:56 公開日:2024-07-07 |
# FedCG:フェデレーション学習におけるプライバシ保護と競争性能維持のための条件付きGAN
FedCG: Leverage Conditional GAN for Protecting Privacy and Maintaining Competitive Performance in Federated Learning ( http://arxiv.org/abs/2111.08211v3 ) ライセンス: Link先を確認 | Yuezhou Wu, Yan Kang, Jiahuan Luo, Yuanqin He, Qiang Yang, | (参考訳) フェデレートラーニング(FL)は、クライアントがプライベートデータを共有せずに、協調して機械学習モデルを構築することを可能にすることで、データのプライバシを保護することを目的としている。
近年の研究では、FL中に交換された情報が勾配に基づくプライバシ攻撃の対象であることが示されており、その結果、そのような攻撃を防ぐために様々なプライバシ保護手法が採用されている。
しかしながら、これらの防御手法は、計算と通信のオーバヘッドの桁数(例えば、同型暗号)を導入するか、予測精度(例えば、差分プライバシー)において、かなりのモデル性能の損失をもたらすかのいずれかである。
本研究では,条件付き生成対向ネットワークを利用して,競争モデルの性能を維持しつつ,高レベルのプライバシ保護を実現する新しいフェデレーション学習手法である$\textsc{FedCG}$を提案する。
$\textsc{FedCG}$は、各クライアントのローカルネットワークをプライベートな抽出子とパブリックな分類子に分解し、プライバシを保護するために抽出子をローカルに保持する。
抽出子を公開する代わりに、$\textsc{FedCG}$はクライアントのジェネレータをサーバと共有し、クライアントの共有知識を集約し、各クライアントのローカルネットワークのパフォーマンスを向上させる。
広範な実験により、$\textsc{FedCG}$はFLベースラインと比較して競争力のあるモデル性能を達成できることが示され、プライバシー分析により、$\textsc{FedCG}$は高いレベルのプライバシ保護能力を持つことが示された。
コードはhttps://github.com/yankang18/FedCGで入手できる。
Federated learning (FL) aims to protect data privacy by enabling clients to build machine learning models collaboratively without sharing their private data. Recent works demonstrate that information exchanged during FL is subject to gradient-based privacy attacks, and consequently, a variety of privacy-preserving methods have been adopted to thwart such attacks. However, these defensive methods either introduce orders of magnitude more computational and communication overheads (e.g., with homomorphic encryption) or incur substantial model performance losses in terms of prediction accuracy (e.g., with differential privacy). In this work, we propose $\textsc{FedCG}$, a novel federated learning method that leverages conditional generative adversarial networks to achieve high-level privacy protection while still maintaining competitive model performance. $\textsc{FedCG}$ decomposes each client's local network into a private extractor and a public classifier and keeps the extractor local to protect privacy. Instead of exposing extractors, $\textsc{FedCG}$ shares clients' generators with the server for aggregating clients' shared knowledge, aiming to enhance the performance of each client's local networks. Extensive experiments demonstrate that $\textsc{FedCG}$ can achieve competitive model performance compared with FL baselines, and privacy analysis shows that $\textsc{FedCG}$ has a high-level privacy-preserving capability. Code is available at https://github.com/yankang18/FedCG | 翻訳日:2024-07-10 06:02:09 公開日:2024-07-07 |
# Res2NetFuse:赤外線と可視画像のための新しいRes2Netベースの融合法
Res2NetFuse: A Novel Res2Net-based Fusion Method for Infrared and Visible Images ( http://arxiv.org/abs/2112.14540v4 ) ライセンス: Link先を確認 | Xu Song, Yongbiao Xiao, Hui Li, Xiao-Jun Wu, Jun Sun, Vasile Palade, | (参考訳) 可視光と赤外線画像の融合は、監視、リモートセンシング、医療画像などの様々な用途において重要な役割を担っているため、画像の分野で大きな注目を集めている。
そこで本稿では,Res2Netアーキテクチャを用いた新たな融合フレームワークを提案する。
第1部はRes2Netをベースとしたエンコーダであり,第2部は融合層を包含し,第3部はデコーダを構成する。
Res2Netに基づくエンコーダを用いて、入力画像からマルチスケール特徴を抽出する。
同時に、単一イメージを入力として、Res2Netベースのエンコーダに適した先駆的なトレーニング戦略を導入する。
さらに、注意モデルに基づく新しい戦略で融合プロセスを強化し、融合画像のデコーダによる正確な再構成を確実にする。
実験結果は, 厳密な主観的, 客観的な評価により, 従来の手法を超越した非並列核融合性能を示すものである。
The fusion of visible light and infrared images has garnered significant attention in the field of imaging due to its pivotal role in various applications, including surveillance, remote sensing, and medical imaging. Therefore, this paper introduces a novel fusion framework using Res2Net architecture, capturing features across diverse receptive fields and scales for effective extraction of global and local features. Our methodology is structured into three fundamental components: the first part involves the Res2Net-based encoder, followed by the second part, which encompasses the fusion layer, and finally, the third part, which comprises the decoder. The encoder based on Res2Net is utilized for extracting multi-scale features from the input image. Simultaneously, with a single image as input, we introduce a pioneering training strategy tailored for a Res2Net-based encoder. We further enhance the fusion process with a novel strategy based on the attention model, ensuring precise reconstruction by the decoder for the fused image. Experimental results unequivocally showcase our method's unparalleled fusion performance, surpassing existing techniques, as evidenced by rigorous subjective and objective evaluations. | 翻訳日:2024-07-10 06:02:09 公開日:2024-07-07 |
# D2-LRR : 医用画像融合のための二重分解型MDLatLRRアプローチ
D2-LRR: A Dual-Decomposed MDLatLRR Approach for Medical Image Fusion ( http://arxiv.org/abs/2206.15179v4 ) ライセンス: Link先を確認 | Xu Song, Tianyu Shen, Hui Li, Xiao-Jun Wu, | (参考訳) 画像融合タスクでは、理想的な画像分解法により性能が向上する。
MDLatLRRはこの点で素晴らしい仕事をしていますが、改善の余地はまだあります。
MDLatLRRは、遅延低ランク表現(LatLRR)を介して入力画像から抽出された詳細部分(局所特徴)のみに焦点を当てているため、LatLRRによって抽出された基本部分(主特徴)は十分に活用されていない。
そこで本稿では,LatLRRから抽出した画像の特徴を効果的に解析し,利用するための多層分解手法であるMDLatLRR(D2-LRR)を提案する。
具体的には、色画像をYUV色空間とグレースケール画像に変換し、そのYチャネルとグレースケール画像をLatLRRの訓練パラメータに入力し、4ラウンドの分解と基本部分を含む詳細部分を得る。
その後、基本部分を平均戦略で融合し、詳細部分をカーネルノルム演算で融合する。
融合画像は最終的にRGB画像に変換され、最終的な融合出力となる。
医用画像融合タスクにD2-LRRを適用した。
詳細部分は核ノーム操作で融合し、基本部分は平均的な戦略で融合する。
既存手法との比較分析により,本手法は主観評価と主観評価の両方において最先端核融合性能が得られることが示された。
In image fusion tasks, an ideal image decomposition method can bring better performance. MDLatLRR has done a great job in this aspect, but there is still exist some space for improvement. Considering that MDLatLRR focuses solely on the detailed parts (salient features) extracted from input images via latent low-rank representation (LatLRR), the basic parts (principal features) extracted by LatLRR are not fully utilized. Therefore, we introduced an enhanced multi-level decomposition method named dual-decomposed MDLatLRR (D2-LRR) which effectively analyzes and utilizes all image features extracted through LatLRR. Specifically, color images are converted into YUV color space and grayscale images, and the Y-channel and grayscale images are input into the trained parameters of LatLRR to obtain the detailed parts containing four rounds of decomposition and the basic parts. Subsequently, the basic parts are fused using an average strategy, while the detail part is fused using kernel norm operation. The fused image is ultimately transformed back into an RGB image, resulting in the final fusion output. We apply D2-LRR to medical image fusion tasks. The detailed parts are fused employing a nuclear-norm operation, while the basic parts are fused using an average strategy. Comparative analyses among existing methods showcase that our proposed approach attains cutting-edge fusion performance in both objective and subjective assessments. | 翻訳日:2024-07-10 06:02:09 公開日:2024-07-07 |
# ユニット・コミット・エコノミクスの改善に向けて--再生可能エネルギー・リザーブ・予測のためのアドオン・タイラー (特集 ユニット・コミット・エコノミクス)
Towards Improving Unit Commitment Economics: An Add-On Tailor for Renewable Energy and Reserve Predictions ( http://arxiv.org/abs/2208.13065v4 ) ライセンス: Link先を確認 | Xianbang Chen, Yikui Liu, Lei Wu, | (参考訳) 一般的に、日頭単位コミットメント(UC)は、予測を最適化するプロセスで行われ、再生可能エネルギー源(RES)の可用性とシステム予備要件の予測から始まり、その予測に基づいて、UCモデルを最適化して経済活動計画を決定する。
実際、プロセス内の予測は生です。
言い換えれば、もしこの予測が、レゾリューションとリザーブ要件の実現に対する経済活動計画の策定を支援するようにさらに調整されているなら、UC経済は大きな利益をもたらすだろう。
そこで本稿では,予測列最適化プロセスのアドオンとして展開されたUCのRES保存予測のコスト指向の調整手法を提案する。
RES-and-Reserveテーラーは、2レベル混合整数プログラミングモデルの解法により訓練される:上層は、誘導操作コストに基づいてテーラーを訓練し、下層は、調整された予測を付与し、システム操作プロセスを模倣し、誘導動作コストを上層にフィードバックし、最後に、上層は、フィードバックコストに応じてトレーニング品質を評価する。
このトレーニングを通じて、小売業者は生の予測をコスト指向の予測にカスタマイズすることを学ぶ。
さらに、このテーラーを既存の予測最適化プロセスにアドオンとして組み込むことで、UC経済を改善できる。
最後に、提案手法は、従来の二項緩和、ニューラルネットワークベース、確率的、ロバストな手法と比較される。
Generally, day-ahead unit commitment (UC) is conducted in a predict-then-optimize process: it starts by predicting the renewable energy source (RES) availability and system reserve requirements; given the predictions, the UC model is then optimized to determine the economic operation plans. In fact, predictions within the process are raw. In other words, if the predictions are further tailored to assist UC in making the economic operation plans against realizations of the RES and reserve requirements, UC economics will benefit significantly. To this end, this paper presents a cost-oriented tailor of RES-and-reserve predictions for UC, deployed as an add-on to the predict-then-optimize process. The RES-and-reserve tailor is trained by solving a bi-level mixed-integer programming model: the upper level trains the tailor based on its induced operating cost; the lower level, given tailored predictions, mimics the system operation process and feeds the induced operating cost back to the upper level; finally, the upper level evaluates the training quality according to the fed-back cost. Through this training, the tailor learns to customize the raw predictions into cost-oriented predictions. Moreover, the tailor can be embedded into the existing predict-then-optimize process as an add-on, improving the UC economics. Lastly, the presented method is compared to traditional, binary-relaxation, neural network-based, stochastic, and robust methods. | 翻訳日:2024-07-10 05:52:24 公開日:2024-07-07 |
# 情報FOMO:情報の欠落に対する不健康な恐れ : より健康なモデルのための誤解を招くデータを削除する方法
Information FOMO: The unhealthy fear of missing out on information. A method for removing misleading data for healthier models ( http://arxiv.org/abs/2208.13080v3 ) ライセンス: Link先を確認 | Ethan Pickering, Themistoklis P. Sapsis, | (参考訳) ミスリーディングや不要なデータは、マシンラーニング(ML)モデルの健全性や正確性に大きく影響します。
本稿では,データセット内の重要な情報を識別するベイズ連続選択法について述べるが,その一方で,選択したサロゲートモデルに不必要な複雑さをもたらすデータを無視している。
提案手法は,サンプル単位の誤差収束を改善し,より多くのデータがサロゲートモデルの性能や不安定性を悪化させるインスタンスを除去する。
これらの不安定性は、基礎となるマップの複雑さの結果であり、極端な事象や重い尾と結びついている。
このアプローチには2つの重要な特徴があります。
まず、選択アルゴリズムは選択したモデルとデータを動的に結合する。
データは、他のデータと厳密に比較されるのではなく、選択したモデルを改善するというメリットに基づいて選択される。
第二に、このメソッドの自然な収束は、データをトレーニング、テスト、検証セットに分割する必要性を取り除く。
その代わりに、選択基準は本質的に、モデルのグローバル統計を通じてテストと検証の誤差を評価する。
これにより、重要な情報がテストや検証に費やされることがなくなる。
この手法はガウス過程回帰モデルとディープニューラルネットワークサロゲートモデルの両方を用いて適用される。
Misleading or unnecessary data can have out-sized impacts on the health or accuracy of Machine Learning (ML) models. We present a Bayesian sequential selection method, akin to Bayesian experimental design, that identifies critically important information within a dataset, while ignoring data that is either misleading or brings unnecessary complexity to the surrogate model of choice. Our method improves sample-wise error convergence and eliminates instances where more data leads to worse performance and instabilities of the surrogate model, often termed sample-wise ``double descent''. We find these instabilities are a result of the complexity of the underlying map and linked to extreme events and heavy tails. Our approach has two key features. First, the selection algorithm dynamically couples the chosen model and data. Data is chosen based on its merits towards improving the selected model, rather than being compared strictly against other data. Second, a natural convergence of the method removes the need for dividing the data into training, testing, and validation sets. Instead, the selection metric inherently assesses testing and validation error through global statistics of the model. This ensures that key information is never wasted in testing or validation. The method is applied using both Gaussian process regression and deep neural network surrogate models. | 翻訳日:2024-07-10 05:52:24 公開日:2024-07-07 |
# 様々な拡張を持つ量子プッシュダウンシステムについて
On Quantum Pushdown Systems with Various Extensions ( http://arxiv.org/abs/2209.10517v8 ) ライセンス: Link先を確認 | Tianrong Lin, | (参考訳) 本稿では、確率的プッシュダウン系とマルコフ連鎖の量子アナログを定義し、また、この論文で定義される量子マルコフ連鎖の分岐時間特性を記述するために、確率的ツリー論理の量子アナログを定義する必要があるかどうかを考察する。
モデルチェック問題について検討し,計算木論理 (PCTL) に対する状態のない量子プッシュダウンシステム (qBPA) のモデルチェックが概ね決定不可能であることを示す。
我々は、初めて {\em probabilistic $\omega$-pushdownautoon} の概念を定義し、$\omega$-PCTL (Chatterjee et al in \cite{CSH08} で定義される) に対する {\em stateless probabilistic $\omega$-pushdown system ($\omega$-PCTL") のモデルチェック問題について研究し、$\omega$-PCTL に対するモデルチェックが一般的には決定不可能であることを示す。
我々のアプローチは間接的に$\omega$-PCTLを符号化する公式を構築することである。
In this paper, we define the quantum analogues of the {\em probabilistic pushdown systems} and {\em Markov chains}, and further investigate whether it is necessary to define a quantum analogue of {\em probabilistic computational tree logic} to describe the branching-time properties of the {\em quantum Markov chain} defined in this paper. We study its model-checking question and show that the model-checking of {\em stateless quantum pushdown systems (qBPA)} against {\em probabilistic computational tree logic (PCTL)} is generally undecidable, with the immediate corollaries summarized. We define the notion of {\em probabilistic $\omega$-pushdown automaton} for the first time and study the model-checking question of {\em stateless probabilistic $\omega$-pushdown system ($\omega$-pBPA)} against $\omega$-PCTL (defined by Chatterjee et al. in \cite{CSH08}) and show that the model-checking of {\em stateless probabilistic $\omega$-pushdown systems ($\omega$-pBPA)} against $\omega$-PCTL is generally undecidable, with immediate consequences summarized. Our approach is to construct formulas of $\omega$-PCTL encoding the {\em Post Correspondence Problem} indirectly. | 翻訳日:2024-07-10 05:52:24 公開日:2024-07-07 |
# 科学研究のための人工知能:認証研究教育フレームワーク
Artificial Intelligence for Scientific Research: Authentic Research Education Framework ( http://arxiv.org/abs/2210.08966v5 ) ライセンス: Link先を確認 | Sergey V Samsonau, Aziza Kurbonova, Lu Jiang, Hazem Lashen, Jiamu Bai, Theresa Merchant, Ruoxi Wang, Laiba Mehnaz, Zecheng Wang, Ishita Patil, | (参考訳) 本稿では,様々な学校において,共通の障壁に対処して,真正的研究の方法論を広く採用するための枠組みを報告する。
本稿では,自然科学の研究者にとって有用な人工知能(AI)ソリューションを,補完的スキルを持つ学生チームが開発するプログラムの実装に,指導原則を適用した。
これを達成するために、私たちは、彼らのニーズを明らかにして特定する研究所と協力して、学生チームはコンサルティングのようなアレンジメントを使用して、ユニークな問題に対するAIソリューションの発見、設計、開発に取り組んでいます。
これまでのところ、われわれのグループはニューヨーク大学(NYU)で7学期連続で活動しており、1年生から修士候補まで100人以上の学生を雇い、20以上のプロジェクトや協力者と協力してきた。
学生にとっての教育的利益を生み出す一方で、我々のアプローチは、特定のニーズに対して機械学習の有用性を評価する機会を得る科学者に直接利益をもたらす。
We report a framework that enables the wide adoption of authentic research educational methodology at various schools by addressing common barriers. The guiding principles we present were applied to implement a program in which teams of students with complementary skills develop useful artificial intelligence (AI) solutions for researchers in natural sciences. To accomplish this, we work with research laboratories that reveal/specify their needs, and then our student teams work on the discovery, design, and development of an AI solution for unique problems using a consulting-like arrangement. To date, our group has been operating at New York University (NYU) for seven consecutive semesters, has engaged more than a hundred students, ranging from first-year college students to master's candidates, and has worked with more than twenty projects and collaborators. While creating education benefits for students, our approach also directly benefits scientists, who get an opportunity to evaluate the usefulness of machine learning for their specific needs. | 翻訳日:2024-07-10 05:52:24 公開日:2024-07-07 |
# 因果的抽象化:機械的解釈可能性の理論的基礎
Causal Abstraction: A Theoretical Foundation for Mechanistic Interpretability ( http://arxiv.org/abs/2301.04709v2 ) ライセンス: Link先を確認 | Atticus Geiger, Duligur Ibeling, Amir Zur, Maheep Chaudhary, Sonakshi Chauhan, Jing Huang, Aryaman Arora, Zhengxuan Wu, Noah Goodman, Christopher Potts, Thomas Icard, | (参考訳) 因果的抽象化は、既知のが不透明なブラックボックスAIモデルの低レベル詳細を忠実に単純化する無知なアルゴリズムを提供する分野である、機械論的解釈可能性の理論的基盤を提供する。
本研究の貢献は,(1) 機構置換(ハードとソフトの介入)から任意の機構変換(例えば,古い機構から新しい機構への機能)への因果的抽象化理論の一般化,(2) モジュラー特徴,ポリセマンティックニューロン,次数的忠実性のコア概念の柔軟かつ正確な形式化,(3) 因果的抽象の共通言語,すなわち活性化と経路パッチング,因果的仲介分析,因果的追跡,因果的追跡,回路解析,概念消去,バイナリマスク,分散アライメント,アクティベーションステアリングといった機械的解釈可能性方法論の統一,である。
Causal abstraction provides a theoretical foundation for mechanistic interpretability, the field concerned with providing intelligible algorithms that are faithful simplifications of the known, but opaque low-level details of black box AI models. Our contributions are (1) generalizing the theory of causal abstraction from mechanism replacement (i.e., hard and soft interventions) to arbitrary mechanism transformation (i.e., functionals from old mechanisms to new mechanisms), (2) providing a flexible, yet precise formalization for the core concepts of modular features, polysemantic neurons, and graded faithfulness, and (3) unifying a variety of mechanistic interpretability methodologies in the common language of causal abstraction, namely activation and path patching, causal mediation analysis, causal scrubbing, causal tracing, circuit analysis, concept erasure, sparse autoencoders, differential binary masking, distributed alignment search, and activation steering. | 翻訳日:2024-07-10 05:52:24 公開日:2024-07-07 |
# SplitOut:outlier DetectionによるSplit Learningにおけるアウトオブボックストレーニングハイジャック検出
SplitOut: Out-of-the-Box Training-Hijacking Detection in Split Learning via Outlier Detection ( http://arxiv.org/abs/2302.08618v3 ) ライセンス: Link先を確認 | Ege Erdogan, Unat Teksen, Mehmet Salih Celiktenyildiz, Alptekin Kupcu, A. Ercument Cicek, | (参考訳) 分割学習は、ニューラルネットワークを分割して、クライアント(データ保持者)が最初のレイヤを計算し、中間出力を中央の計算量の多いサーバと共有するようにすることで、ディープニューラルネットワークの効率的でプライバシーに配慮したトレーニングを可能にする。
このパラダイムは、サーバがクライアントモデルが何を学習するかを完全にコントロールできる新しい攻撃媒体を導入し、クライアントのプライベートデータを推測し、クライアントモデルにバックドアを実装するために既に利用されています。
これまでの研究では、クライアントがこのようなトレーニングハイジャック攻撃を検知できることが示されているが、提案手法はヒューリスティックスに依存し、多くのハイパーパラメータのチューニングが必要であり、クライアントの能力を十分に活用していない。
本研究では、クライアントの計算能力に関する控えめな仮定を与えられた場合、ほぼゼロの偽陽性率で既存のトレーニング・ハイジャック攻撃を検出するために、アウト・オブ・ザ・ボックス・アウトレイラ検出法が利用できることを示す。
我々は、異なるタスクに関する実験を通じて、我々のアプローチの単純さによって、以前の検出方法と比較してより実用的で信頼性の高い代替手段になる、と結論付けている。
Split learning enables efficient and privacy-aware training of a deep neural network by splitting a neural network so that the clients (data holders) compute the first layers and only share the intermediate output with the central compute-heavy server. This paradigm introduces a new attack medium in which the server has full control over what the client models learn, which has already been exploited to infer the private data of clients and to implement backdoors in the client models. Although previous work has shown that clients can successfully detect such training-hijacking attacks, the proposed methods rely on heuristics, require tuning of many hyperparameters, and do not fully utilize the clients' capabilities. In this work, we show that given modest assumptions regarding the clients' compute capabilities, an out-of-the-box outlier detection method can be used to detect existing training-hijacking attacks with almost-zero false positive rates. We conclude through experiments on different tasks that the simplicity of our approach we name \textit{SplitOut} makes it a more viable and reliable alternative compared to the earlier detection methods. | 翻訳日:2024-07-10 05:42:28 公開日:2024-07-07 |
# アクティブラーニングとベイズ最適化:ゴールで学ぶための統一的な視点
Active Learning and Bayesian Optimization: a Unified Perspective to Learn with a Goal ( http://arxiv.org/abs/2303.01560v4 ) ライセンス: Link先を確認 | Francesco Di Fiore, Michela Nardelli, Laura Mainini, | (参考訳) 科学と工学の応用は通常、最適な設計ソリューションと関心システムの状態を特定するための高価な最適化問題と関連付けられている。
ベイズ最適化と能動的学習計算サロゲートモデルに対し,効率的な適応サンプリング手法を用いて,与えられた最適化目標に向けて,この探索タスクを支援し,高速化する。
これら2つの手法は、最適化変数の未知の組み合わせに対する目的関数を評価するという設定された目標に対して、有効性を定量化する特定の入力/学習基準によって駆動される。
この2つの分野は、過去数十年で急速に人気が高まってきたが、その双対性とシナジーは、現在まで比較的ほとんど注目されていない。
本稿では,共通原理による共生適応サンプリング手法としてベイズ最適化とアクティブラーニングの相乗効果を論じ,定式化する。
特に,この統一的な視点を,ベイズ入力基準とアクティブラーニング基準のアナロジーの形式化を通じて実証する。
そこで本研究では,適応サンプリング,アクティブラーニング,ベイズ最適化の膨大なファミリー間の類似点と相違点を明らかにするために,適応サンプリング手法の一般的な分類を提案する。
そこで、このシナジーはベイズ入力基準をアクティブな学習基準にマッピングし、単一の情報ソースと複数の忠実度の両方から情報を得た検索に対して形式化される。
さらに,実世界の応用を特徴付ける数学的特性に対する利点や限界を明らかにするために,様々なベンチマーク問題に対するベイズ的スキームの性能を調査する学習基準を適用するためのガイドラインを提供する。
Science and Engineering applications are typically associated with expensive optimization problems to identify optimal design solutions and states of the system of interest. Bayesian optimization and active learning compute surrogate models through efficient adaptive sampling schemes to assist and accelerate this search task toward a given optimization goal. Both those methodologies are driven by specific infill/learning criteria which quantify the utility with respect to the set goal of evaluating the objective function for unknown combinations of optimization variables. While the two fields have seen an exponential growth in popularity in the past decades, their dualism and synergy have received relatively little attention to date. This paper discusses and formalizes the synergy between Bayesian optimization and active learning as symbiotic adaptive sampling methodologies driven by common principles. In particular, we demonstrate this unified perspective through the formalization of the analogy between the Bayesian infill criteria and active learning criteria as driving principles of both the goal-driven procedures. To support our original perspective, we propose a general classification of adaptive sampling techniques to highlight similarities and differences between the vast families of adaptive sampling, active learning, and Bayesian optimization. Accordingly, the synergy is demonstrated mapping the Bayesian infill criteria with the active learning criteria, and is formalized for searches informed by both a single information source and multiple levels of fidelity. In addition, we provide guidelines to apply those learning criteria investigating the performance of different Bayesian schemes for a variety of benchmark problems to highlight benefits and limitations over mathematical properties that characterize real-world applications. | 翻訳日:2024-07-10 05:42:28 公開日:2024-07-07 |
# MenuCraft: 大規模言語モデルを用いた対話型メニューシステム設計
MenuCraft: Interactive Menu System Design with Large Language Models ( http://arxiv.org/abs/2303.04496v3 ) ライセンス: Link先を確認 | Amir Hossein Kargaran, Nafiseh Nikeghbal, Abbas Heydarnoori, Hinrich Schütze, | (参考訳) ユーザインタフェースのためのメニューシステム設計は多くの設計オプションと様々なヒューマンファクターを含む課題である。
例えば、デザイナが考慮すべき重要な要素の1つは、メニューコマンドの意味的および体系的な関係である。
しかし、利用可能なリソースが限られているため、これらの関係を捉えることは困難である。
大規模な言語モデルは、事前学習した知識を使ってメニューシステムの設計と精巧化に役立てることができる。
本稿では,メニューデザインのためのAI支援デザイナであるMenuCraftを提案する。
MenuCraftはインタラクティブな言語ベースのメニューデザインツールで、メニューデザインプロセスをシンプルにし、デザインオプションを簡単にカスタマイズできる。
MenuCraftは、コンテキスト内での学習を可能にするダイアログを通じて、さまざまなインタラクションをサポートする。
Menu system design for user interfaces is a challenging task involving many design options and various human factors. For example, one crucial factor that designers need to consider is the semantic and systematic relation of menu commands. However, capturing these relations can be challenging due to limited available resources. Large language models can be helpful in this regard, using their pre-training knowledge to design and refine menu systems. In this paper, we propose MenuCraft, an AI-assisted designer for menu design that enables collaboration between the designer and a dialogue system to design menus. MenuCraft offers an interactive language-based menu design tool that simplifies the menu design process and enables easy customization of design options. MenuCraft supports a variety of interactions through dialog that allows performing in-context learning. | 翻訳日:2024-07-10 05:42:28 公開日:2024-07-07 |
# 実画像からの移動部品の能動粗大化
Active Coarse-to-Fine Segmentation of Moveable Parts from Real Images ( http://arxiv.org/abs/2303.11530v3 ) ライセンス: Link先を確認 | Ruiqi Wang, Akshay Gadi Patil, Fenggen Yu, Hao Zhang, | (参考訳) 実屋内シーンのRGB画像から移動可能な部分の高精度なインスタンスセグメンテーションのための,最初のアクティブラーニング(AL)モデルを提案する。
具体的には、手作業の最小化を図りながら、人間による完全検証されたセグメンテーション結果を得ることが目的である。
この目的のために、能動セグメンテーションを監督するためにマスク付きアテンション機構を利用するトランスフォーマーを用いる。
移動可能な部品に合わせたネットワークを強化するために,まずオブジェクト認識型マスキングとポーズ認識型アプローチを導入し,問題の階層的性質と移動可能な部品とオブジェクトのポーズとインタラクションの方向の相関性を活用する。
実画像2000枚にALモデルを適用した場合,画像の11.45%を手動でアノテートするだけで,セマンティックラベルによる完全に検証可能な部分分割が得られる。
これは、最も優れた非ALモデルが同じセグメンテーション精度を達成するのに必要な手作業よりも大幅に(60%)の時間を節約することを意味する。
最終的に、2,550個の実画像に注釈付き可動部品を付与し、最適な代替品よりも優れた品質と多様性を示す。
We introduce the first active learning (AL) model for high-accuracy instance segmentation of moveable parts from RGB images of real indoor scenes. Specifically, our goal is to obtain fully validated segmentation results by humans while minimizing manual effort. To this end, we employ a transformer that utilizes a masked-attention mechanism to supervise the active segmentation. To enhance the network tailored to moveable parts, we introduce a coarse-to-fine AL approach which first uses an object-aware masked attention and then a pose-aware one, leveraging the hierarchical nature of the problem and a correlation between moveable parts and object poses and interaction directions. When applying our AL model to 2,000 real images, we obtain fully validated moveable part segmentations with semantic labels, by only needing to manually annotate 11.45% of the images. This translates to significant (60%) time saving over manual effort required by the best non-AL model to attain the same segmentation accuracy. At last, we contribute a dataset of 2,550 real images with annotated moveable parts, demonstrating its superior quality and diversity over the best alternatives. | 翻訳日:2024-07-10 05:42:28 公開日:2024-07-07 |
# Chain-of-Thought予測制御
Chain-of-Thought Predictive Control ( http://arxiv.org/abs/2304.00776v2 ) ライセンス: Link先を確認 | Zhiwei Jia, Vineet Thumuluri, Fangchen Liu, Linghao Chen, Zhiao Huang, Hao Su, | (参考訳) 複雑な低レベル制御(コンタクトリッチなオブジェクト操作など)のための実証から、一般化可能なポリシー学習を研究する。
準最適デモを利用した新しい階層型模倣学習法を提案する。
まず、デモの多段階のサブスキル分解を教師なしで効率的に発見する観察空間に依存しない手法を提案する。
サブスキルレベルのデモセグメントに一時的に閉じて機能的に類似したアクションをグループ化することで、セグメント境界での観察はタスクの計画ステップの連鎖を構成します。
次に,サブスキルレベルのガイダンスとしてCoTの予測を効果的に学習するTransformerベースの設計を提案する。
我々は、学習可能なプロンプトトークンとハイブリッドマスキング戦略を用いて、テスト時に動的に更新されたガイダンスと、一般化可能なポリシー学習のための軌跡の特徴表現を改善するためのアクションとサブスキルの予測を結合する。
提案手法であるChain-of-Thought Predictive Control (CoTPC) は、最適化されたデモによる操作タスクに挑戦する上で、既存の強力なベースラインを一貫して上回っている。
We study generalizable policy learning from demonstrations for complex low-level control (e.g., contact-rich object manipulations). We propose a novel hierarchical imitation learning method that utilizes sub-optimal demos. Firstly, we propose an observation space-agnostic approach that efficiently discovers the multi-step subskill decomposition of the demos in an unsupervised manner. By grouping temporarily close and functionally similar actions into subskill-level demo segments, the observations at the segment boundaries constitute a chain of planning steps for the task, which we refer to as the chain-of-thought (CoT). Next, we propose a Transformer-based design that effectively learns to predict the CoT as the subskill-level guidance. We couple action and subskill predictions via learnable prompt tokens and a hybrid masking strategy, which enable dynamically updated guidance at test time and improve feature representation of the trajectory for generalizable policy learning. Our method, Chain-of-Thought Predictive Control (CoTPC), consistently surpasses existing strong baselines on challenging manipulation tasks with sub-optimal demos. | 翻訳日:2024-07-10 05:42:28 公開日:2024-07-07 |
# BugNIST - ドメインシフトによるオブジェクト検出のための大規模ボリュームデータセット
BugNIST -- a Large Volumetric Dataset for Object Detection under Domain Shift ( http://arxiv.org/abs/2304.01838v3 ) ライセンス: Link先を確認 | Patrick Møller Jensen, Vedrana Andersen Dahl, Carsten Gundlach, Rebecca Engberg, Hans Martin Kjer, Anders Bjorholm Dahl, | (参考訳) ドメインシフトはディープラーニングアルゴリズムの性能に大きく影響する。
アノテーション付きトレーニングデータは、ディープラーニングに基づくオブジェクト検出に不可欠である。
しかし、密集したオブジェクトに注釈を付けるのに時間がかかり、コストがかかる。
代わりに、個別にスキャンされたオブジェクトのトレーニングモデルを提案し、トレーニングデータと検出データのドメインシフトを引き起こします。
この課題に対処するために,12種類のバグタイプ9154マイクロCTボリュームと,密充填されたバグミックス388ボリュームからなるBugNISTデータセットを紹介した。
このデータセットは、ソースとターゲットドメインで同じ外観のオブジェクトを持つのが特徴で、ドメインシフトのための他のベンチマークデータセットでは珍しい。
トレーニングでは、クラスによってラベル付けされた個々のバグボリュームが使用され、テストではセンターポイントアノテーションとバグタイプラベルが混在している。
データセットとともに,3次元物体検出法の分野を前進させることを目的として,ベースライン検出解析を行う。
Domain shift significantly influences the performance of deep learning algorithms, particularly for object detection within volumetric 3D images. Annotated training data is essential for deep learning-based object detection. However, annotating densely packed objects is time-consuming and costly. Instead, we suggest training models on individually scanned objects, causing a domain shift between training and detection data. To address this challenge, we introduce the BugNIST dataset, comprising 9154 micro-CT volumes of 12 bug types and 388 volumes of tightly packed bug mixtures. This dataset is characterized by having objects with the same appearance in the source and target domains, which is uncommon for other benchmark datasets for domain shift. During training, individual bug volumes labeled by class are utilized, while testing employs mixtures with center point annotations and bug type labels. Together with the dataset, we provide a baseline detection analysis, with the aim of advancing the field of 3D object detection methods. | 翻訳日:2024-07-10 03:48:51 公開日:2024-07-07 |
# 医用画像の拡散モデルに留意すること --脳MRIおよび胸部X線画像の記憶におけるGANとの比較
Beware of diffusion models for synthesizing medical images -- A comparison with GANs in terms of memorizing brain MRI and chest x-ray images ( http://arxiv.org/abs/2305.07644v3 ) ライセンス: Link先を確認 | Muhammad Usman Akbar, Wuhao Wang, Anders Eklund, | (参考訳) 拡散モデルは当初テキスト・画像生成のために開発され、現在では高品質な合成画像の生成に利用されている。
GANが先行する拡散モデルでは,様々な評価指標を用いて顕著な結果が得られた。
しかし、FIDやISなどの一般的なメトリクスは、拡散モデルが単にトレーニングイメージを再現しているかどうかを決定するには適していない。
ここでは,BRATS20,BRATS21および胸部X線肺炎データセットを用いてStyleGANおよび拡散モデルを用いて,脳MRIと胸部X線画像の合成を行い,合成画像と全トレーニング画像との相関を計測する。
以上の結果から,拡散モデルでは,特に3次元ボリュームの2次元スライスを用いた場合,StyleGANと比較してトレーニング画像を記憶する傾向が示唆された。
研究者たちは、医療画像に拡散モデル(およびある程度のGAN)を使用する場合、最終目標は合成画像を共有することである。
Diffusion models were initially developed for text-to-image generation and are now being utilized to generate high quality synthetic images. Preceded by GANs, diffusion models have shown impressive results using various evaluation metrics. However, commonly used metrics such as FID and IS are not suitable for determining whether diffusion models are simply reproducing the training images. Here we train StyleGAN and a diffusion model, using BRATS20, BRATS21 and a chest x-ray pneumonia dataset, to synthesize brain MRI and chest x-ray images, and measure the correlation between the synthetic images and all training images. Our results show that diffusion models are more likely to memorize the training images, compared to StyleGAN, especially for small datasets and when using 2D slices from 3D volumes. Researchers should be careful when using diffusion models (and to some extent GANs) for medical imaging, if the final goal is to share the synthetic images. | 翻訳日:2024-07-10 03:48:51 公開日:2024-07-07 |
# マヨラナ熱電と冷凍
Majorana Thermoelectrics and Refrigeration ( http://arxiv.org/abs/2305.12462v2 ) ライセンス: Link先を確認 | Sachiraj Mishra, Ritesh Das, Colin Benjamin, | (参考訳) 2端子量子スピンハル熱エンジンとマヨナバウンド状態(MBS)を組み込んだ冷凍機を熱電性能の最適性として解析した。
MBSの発生は競争力を高めるだけでなく、現代のナノスケールの量子熱エンジンや量子冷蔵庫の性能も向上する。
このMBS量子熱エンジンと量子冷蔵庫の最適性能は、Aharonov-Bohmフラックスによりさらに向上することができる。
A two-terminal quantum spin-Hall heat engine and refrigerator with embedded Majorana bound states (MBS) are analyzed for optimality in thermoelectric performance. The occurrence of MBS can enhance the performance to rival, as well as outperform, some modern nanoscale quantum heat engines and quantum refrigerators. The optimal performance of this MBS quantum heat engine and quantum refrigerator can be further enhanced by an Aharonov-Bohm flux. | 翻訳日:2024-07-10 03:48:51 公開日:2024-07-07 |
# 新規ビュー合成と特徴分散による領域適応フルフェイス・ゲイズ推定
Domain-Adaptive Full-Face Gaze Estimation via Novel-View-Synthesis and Feature Disentanglement ( http://arxiv.org/abs/2305.16140v2 ) ライセンス: Link先を確認 | Jiawei Qin, Takuru Shimoyama, Xucong Zhang, Yusuke Sugano, | (参考訳) 近年のディープニューラルネットワークの発展に伴い、外見に基づく視線推定は、同じドメイン内でのトレーニングとテストにおいて大きく成功している。
ドメイン内タスクと比較して、異なるドメインの分散は、ドメイン間のパフォーマンスを著しく低下させ、現実のアプリケーションにおける視線推定のデプロイを妨げます。
これらの要因のうち、頭部ポーズと視線の範囲は、視線推定の最終性能において重要な役割を担っていると考えられているが、大量のデータ収集は高価である。
本研究では、教師なし領域適応のためのトレーニングデータ合成と視線推定モデルからなる効果的なモデルトレーニングパイプラインを提案する。
提案したデータ合成は、単一画像の3D再構成を利用して、3次元の顔形状データセットを必要とせずに、ソース領域から頭部ポーズの範囲を広げる。
合成画像と実画像の間に必然的なギャップを埋めるために,合成顔データに適した教師なし領域適応法を提案する。
本稿では、視線関連特徴を分離し、背景アグリゲーション整合性損失を導入し、合成音源領域の特性を生かしたディエンタングリングオートエンコーダネットワークを提案する。
総合的な実験を通して、我々の合成トレーニングデータのみを用いたモデルが、大きなラベル範囲で拡張された実データと相容れない性能を持つことを示す。
提案手法により,複数の対象領域の性能が向上する。
コードとデータはhttps://github.com/ut-vision/AdaptiveGaze.comで入手できる。
Along with the recent development of deep neural networks, appearance-based gaze estimation has succeeded considerably when training and testing within the same domain. Compared to the within-domain task, the variance of different domains makes the cross-domain performance drop severely, preventing gaze estimation deployment in real-world applications. Among all the factors, ranges of head pose and gaze are believed to play significant roles in the final performance of gaze estimation, while collecting large ranges of data is expensive. This work proposes an effective model training pipeline consisting of a training data synthesis and a gaze estimation model for unsupervised domain adaptation. The proposed data synthesis leverages the single-image 3D reconstruction to expand the range of the head poses from the source domain without requiring a 3D facial shape dataset. To bridge the inevitable gap between synthetic and real images, we further propose an unsupervised domain adaptation method suitable for synthetic full-face data. We propose a disentangling autoencoder network to separate gaze-related features and introduce background augmentation consistency loss to utilize the characteristics of the synthetic source domain. Through comprehensive experiments, it shows that the model using only our synthetic training data can perform comparably to real data extended with a large label range. Our proposed domain adaptation approach further improves the performance on multiple target domains. The code and data will be available at https://github.com/ut-vision/AdaptiveGaze. | 翻訳日:2024-07-10 03:48:51 公開日:2024-07-07 |
# 深部確率力学
Deep Stochastic Mechanics ( http://arxiv.org/abs/2305.19685v5 ) ライセンス: Link先を確認 | Elena Orlova, Aleksei Ustimenko, Ruoxi Jiang, Peter Y. Lu, Rebecca Willett, | (参考訳) 本稿では,確率力学と生成拡散モデルにインスパイアされた時間発展型シュリンガー方程式の数値シミュレーションのための,新しいディープラーニングに基づく手法を提案する。
問題次元で指数関数的にスケールする計算複雑性を示す既存の手法とは異なり、マルコフ拡散からサンプリングすることで波動関数の潜在低次元構造に適応することができる。
潜在次元によっては、我々の手法はより高次元の計算複雑性がはるかに低いかもしれない。
さらに、確率量子力学の新しい方程式を提案し、次元数に関して2次計算複雑性をもたらす。
数値シミュレーションにより、我々の理論的な知見を検証し、量子力学に使用される他のディープラーニングベースのアプローチと比較して、我々の手法の顕著な利点を示す。
This paper introduces a novel deep-learning-based approach for numerical simulation of a time-evolving Schr\"odinger equation inspired by stochastic mechanics and generative diffusion models. Unlike existing approaches, which exhibit computational complexity that scales exponentially in the problem dimension, our method allows us to adapt to the latent low-dimensional structure of the wave function by sampling from the Markovian diffusion. Depending on the latent dimension, our method may have far lower computational complexity in higher dimensions. Moreover, we propose novel equations for stochastic quantum mechanics, resulting in quadratic computational complexity with respect to the number of dimensions. Numerical simulations verify our theoretical findings and show a significant advantage of our method compared to other deep-learning-based approaches used for quantum mechanics. | 翻訳日:2024-07-10 03:48:51 公開日:2024-07-07 |
# 量子機械学習の影
Shadows of quantum machine learning ( http://arxiv.org/abs/2306.00061v2 ) ライセンス: Link先を確認 | Sofiene Jerbi, Casper Gyurik, Simon C. Marshall, Riccardo Molteni, Vedran Dunjko, | (参考訳) 量子機械学習はしばしば、量子コンピュータが計算上の優位性をもたらす最も有望な実用的な応用の1つとして強調される。
しかし、実際に量子機械学習モデルが広く使われることの大きな障害は、トレーニングされたとしても、新しいデータで評価するためには、量子コンピュータへのアクセスが必要であることである。
この問題を解決するために、トレーニング中にのみ量子リソースを必要とする量子モデルの新しいクラスを導入し、トレーニングされたモデルの展開は古典的である。
具体的には、私たちのモデルのトレーニングフェーズは、古典的なデプロイメントを可能にする"シャドウモデル"の生成で終わります。
私たちはそれを証明します。
一 この種類のモデルは、古典的に展開された量子機械学習において普遍的であること。
二)「完全量子」モデルに比べて学習能力に制限があるが、それでも
三 完全に古典的な学習者に対して証明可能な学習の優位性を達成し、複雑性理論における広く信じられている仮定に焦点をあてる。
これらの結果は、量子機械学習が学習の利点を、トレーニング期間中にのみ量子コンピュータが使用される、より広い範囲のシナリオで説明できるという説得力のある証拠を提供する。
本手法は,古典的な展開を可能にすることにより,様々な実践的文脈における量子機械学習モデルの実装を容易にする。
Quantum machine learning is often highlighted as one of the most promising practical applications for which quantum computers could provide a computational advantage. However, a major obstacle to the widespread use of quantum machine learning models in practice is that these models, even once trained, still require access to a quantum computer in order to be evaluated on new data. To solve this issue, we introduce a new class of quantum models where quantum resources are only required during training, while the deployment of the trained model is classical. Specifically, the training phase of our models ends with the generation of a 'shadow model' from which the classical deployment becomes possible. We prove that: i) this class of models is universal for classically-deployed quantum machine learning; ii) it does have restricted learning capacities compared to 'fully quantum' models, but nonetheless iii) it achieves a provable learning advantage over fully classical learners, contingent on widely-believed assumptions in complexity theory. These results provide compelling evidence that quantum machine learning can confer learning advantages across a substantially broader range of scenarios, where quantum computers are exclusively employed during the training phase. By enabling classical deployment, our approach facilitates the implementation of quantum machine learning models in various practical contexts. | 翻訳日:2024-07-10 03:48:51 公開日:2024-07-07 |
# 高忠実度データからサブグリッドスケールクロージャの閉形式方程式を学習する:約束と挑戦
Learning Closed-form Equations for Subgrid-scale Closures from High-fidelity Data: Promises and Challenges ( http://arxiv.org/abs/2306.05014v3 ) ライセンス: Link先を確認 | Karan Jakhar, Yifei Guan, Rambod Mojgani, Ashesh Chattopadhyay, Pedram Hassanzadeh, | (参考訳) 地球系における複雑な過程のサブグリッドスケール(SGS)閉包/パラメータ化に対する解釈可能な閉形式方程式の発見への関心が高まっている。
本稿では,2次元乱流とレイリー・ブエナード対流(RBC)のフィルタ直接数値シミュレーションから,拡張ライブラリを用いた共通方程式探索手法を適用した。
一般的なフィルタ(例えばガウス、ボックス)をまたいで、運動量や熱流束に対して同じ形の閉包をしっかりと発見する。
これらの閉包はフィルター変数の勾配の非線形結合に依存し、流体・流れの性質とは独立な定数はフィルタタイプ/サイズにのみ依存する。
これらの閉包は非線形勾配モデル(NGM)であり、テイラー級数を用いて解析的に導出可能であることを示す。
実際、一般的な(物理自由な)方程式探索アルゴリズムでは、多くの共通系や物理系において、発見された閉包はテイラー級数の先頭項と一致する(カットオフフィルタを使用する場合を除いて)。
これまでの研究では、真とNGM予測フラックス(相関$0.95$)の間に大きな類似性があるにもかかわらず、NGM閉包を伴う大渦シミュレーションは不安定であることがわかった。
2Dでは、NGMは分解されたスケールとサブグリッドスケールの間の運動エネルギー移動をゼロにし、拡散と後方散乱の両方を欠いている。
RBCでは、ポテンシャルエネルギーの後方散乱は予測できない。
さらに,SGSフラックスは,発見のための「真実」と推定されるデータから診断され,フィルタリング手順に依存し,ユニークではないことを示す。
そこで本研究では, 物理情報処理ライブラリ, 損失関数, メトリクスの利用に関するいくつかのアイデアを提案する。
これらの知見は,任意のマルチスケールシステムのクロージャモデリングに関係している。
There is growing interest in discovering interpretable, closed-form equations for subgrid-scale (SGS) closures/parameterizations of complex processes in Earth systems. Here, we apply a common equation-discovery technique with expansive libraries to learn closures from filtered direct numerical simulations of 2D turbulence and Rayleigh-B\'enard convection (RBC). Across common filters (e.g., Gaussian, box), we robustly discover closures of the same form for momentum and heat fluxes. These closures depend on nonlinear combinations of gradients of filtered variables, with constants that are independent of the fluid/flow properties and only depend on filter type/size. We show that these closures are the nonlinear gradient model (NGM), which is derivable analytically using Taylor-series. Indeed, we suggest that with common (physics-free) equation-discovery algorithms, for many common systems/physics, discovered closures are consistent with the leading term of the Taylor-series (except when cutoff filters are used). Like previous studies, we find that large-eddy simulations with NGM closures are unstable, despite significant similarities between the true and NGM-predicted fluxes (correlations $> 0.95$). We identify two shortcomings as reasons for these instabilities: in 2D, NGM produces zero kinetic energy transfer between resolved and subgrid scales, lacking both diffusion and backscattering. In RBC, potential energy backscattering is poorly predicted. Moreover, we show that SGS fluxes diagnosed from data, presumed the ''truth'' for discovery, depend on filtering procedures and are not unique. Accordingly, to learn accurate, stable closures in future work, we propose several ideas around using physics-informed libraries, loss functions, and metrics. These findings are relevant to closure modeling of any multi-scale system. | 翻訳日:2024-07-10 03:48:51 公開日:2024-07-07 |
# 医用画像分析のためのフェデレートラーニング
Federated Learning for Medical Image Analysis: A Survey ( http://arxiv.org/abs/2306.05980v4 ) ライセンス: Link先を確認 | Hao Guan, Pew-Thian Yap, Andrea Bozoki, Mingxia Liu, | (参考訳) 医療画像における機械学習は、しばしば基本的なジレンマに直面している。
最近の多くの研究は、統計力を改善するために、異なる取得サイトやセンターからプールされたマルチドメインデータを使うことを示唆している。
しかし、プライバシ保護の理由から、さまざまなサイトの医療画像を簡単に共有できないため、モデルトレーニングのための大規模なデータセットを構築することはできない。
有望なソリューションとして、クロスサイトデータを共有することなく、さまざまなサイトからのデータに基づいて機械学習モデルの協調トレーニングを可能にするフェデレーション学習が近年注目を集めている。
本稿では,医用画像解析におけるフェデレーション学習手法の最近の展開を包括的に調査する。
本稿では,医用画像におけるプライバシ保護と協調学習問題に対するフェデレーション学習の背景知識について紹介する。
次に、医用画像解析のための連合学習手法の最近の進歩を概観する。
具体的には、クライアントエンド、サーバエンド、通信技術を含む、連合学習システムの3つの重要な側面に基づいて、既存の手法を分類する。
各カテゴリにおいて、医用画像解析における特定の研究課題に応じて既存の連合学習手法を要約し、異なるアプローチのモチベーションに関する洞察を提供する。
さらに,既存の医用画像データセットとソフトウェアプラットフォームについて,現在のフェデレート学習研究のためのレビューを行う。
また,医用画像解析のための典型的なフェデレーション学習手法を実証的に評価する実験を行った。
この調査は、この有望な研究分野における現在の研究状況、課題、および潜在的研究機会の理解を深める助けとなる。
Machine learning in medical imaging often faces a fundamental dilemma, namely, the small sample size problem. Many recent studies suggest using multi-domain data pooled from different acquisition sites/centers to improve statistical power. However, medical images from different sites cannot be easily shared to build large datasets for model training due to privacy protection reasons. As a promising solution, federated learning, which enables collaborative training of machine learning models based on data from different sites without cross-site data sharing, has attracted considerable attention recently. In this paper, we conduct a comprehensive survey of the recent development of federated learning methods in medical image analysis. In this survey, we first introduce the background knowledge of federated learning for dealing with privacy protection and collaborative learning issues in medical imaging. We then present a comprehensive review of recent advances in federated learning methods for medical image analysis. Specifically, existing methods are categorized based on three critical aspects of a federated learning system, including client end, server end, and communication techniques. In each category, we summarize the existing federated learning methods according to specific research problems in medical image analysis and also provide insights into the motivations of different approaches. In addition, we provide a review of existing benchmark medical imaging datasets and software platforms for current federated learning research. We also conduct an experimental study to empirically evaluate typical federated learning methods for medical image analysis. This survey can help to better understand the current research status, challenges, and potential research opportunities in this promising research field. | 翻訳日:2024-07-10 03:48:51 公開日:2024-07-07 |
# Mini-Giants: "small"言語モデルとオープンソースWin-Win
Mini-Giants: "Small" Language Models and Open Source Win-Win ( http://arxiv.org/abs/2307.08189v2 ) ライセンス: Link先を確認 | Zhengping Zhou, Lezhi Li, Xinxi Chen, Andy Li, | (参考訳) ChatGPTは驚くべきものです。
しかし、そのような巨大モデルの訓練・改良は違法に高価である。
幸いなことに、小さな言語モデルは繁栄し、ますます有能になってきています。
これを「ミニジェント」と呼ぶ。
KaggleやMini-giantsのようなオープンソースコミュニティは、技術的、倫理的、社会的に、多くの点で勝利するだろう、と私たちは主張しています。
本稿では,小言語モデルの実現方法,小言語モデルの比較研究,評価手法の簡単な議論,実世界では小言語モデルが最も必要とされるアプリケーションシナリオについて議論し,議論と展望をまとめる。
ChatGPT is phenomenal. However, it is prohibitively expensive to train and refine such giant models. Fortunately, small language models are flourishing and becoming more and more competent. We call them "mini-giants". We argue that open source community like Kaggle and mini-giants will win-win in many ways, technically, ethically and socially. In this article, we present a brief yet rich background, discuss how to attain small language models, present a comparative study of small language models and a brief discussion of evaluation methods, discuss the application scenarios where small language models are most needed in the real world, and conclude with discussion and outlook. | 翻訳日:2024-07-10 03:38:37 公開日:2024-07-07 |
# 自己学習による物体検出器の教師なし事前訓練
Aligned Unsupervised Pretraining of Object Detectors with Self-training ( http://arxiv.org/abs/2307.15697v2 ) ライセンス: Link先を確認 | Ioannis Maniadis Metaxas, Adrian Bulat, Ioannis Patras, Brais Martinez, Georgios Tzimiropoulos, | (参考訳) 対象検出器の非教師なし事前訓練は、教師付き微調整段階における性能の向上とより高速な収束をもたらすため、近年、対象検出器訓練の重要な要素となっている。
しかし、既存の教師なし事前訓練法は通常、検出器の訓練に使用される提案を定義するために、低レベルの情報に依存している。
さらに、これらの提案に対するクラスラベルがない場合には、高レベルのセマンティクスを追加するために補助的な損失が使用される。
その結果、複雑なパイプラインと、事前トレーニングと下流タスクの間のタスクギャップが発生します。
この問題を緩和し,3つの単純かつ重要な要素からなる枠組みを提案する。
(i)ハイレベルなセマンティクスをエンコードするよりリッチな初期提案。
(ii)標準オブジェクト検出トレーニングパイプラインを使用した事前トレーニングを可能にするクラスタリングによるクラス擬似ラベル化。
三 自己学習により、対象の提案を反復的に改善し、充実させること。
事前トレーニングと下流タスクが整列されると、さらなるベルやホイッスルのない単純な検出パイプラインが事前トレーニングに直接使用でき、実際に、検出アーキテクチャとデータセット間で、フルデータとローデータの両方で、最先端のパフォーマンスが大幅に向上する。
さらに,我々の事前学習戦略は,スクラッチ(背骨を含む)からの事前学習も可能であり,COCOのような複雑な画像に取り組んでおり,対象検出を直接プリテキストタスクとする教師なし表現学習の道を開いた。
The unsupervised pretraining of object detectors has recently become a key component of object detector training, as it leads to improved performance and faster convergence during the supervised fine-tuning stage. Existing unsupervised pretraining methods, however, typically rely on low-level information to define proposals that are used to train the detector. Furthermore, in the absence of class labels for these proposals, an auxiliary loss is used to add high-level semantics. This results in complex pipelines and a task gap between the pretraining and the downstream task. We propose a framework that mitigates this issue and consists of three simple yet key ingredients: (i) richer initial proposals that do encode high-level semantics, (ii) class pseudo-labeling through clustering, that enables pretraining using a standard object detection training pipeline, (iii) self-training to iteratively improve and enrich the object proposals. Once the pretraining and downstream tasks are aligned, a simple detection pipeline without further bells and whistles can be directly used for pretraining and, in fact, results in state-of-the-art performance on both the full and low data regimes, across detector architectures and datasets, by significant margins. We further show that our pretraining strategy is also capable of pretraining from scratch (including the backbone) and works on complex images like COCO, paving the path for unsupervised representation learning using object detection directly as a pretext task. | 翻訳日:2024-07-10 03:38:37 公開日:2024-07-07 |
# ストレス・ストレス関連精神疾患の検出・予測・モニタリングのための機械学習・ディープラーニング・データ前処理技術:スコーピングレビュー
Machine Learning, Deep Learning and Data Preprocessing Techniques for Detection, Prediction, and Monitoring of Stress and Stress-related Mental Disorders: A Scoping Review ( http://arxiv.org/abs/2308.04616v2 ) ライセンス: Link先を確認 | Moein Razavi, Samira Ziyadidegan, Reza Jahromi, Saber Kazeminasab, Vahid Janfaza, Ahmadreza Mahmoudzadeh, Elaheh Baharlouei, Farzan Sasangohar, | (参考訳) 背景: 精神ストレスとその関連精神障害(MD)は公衆衛生上の重要な問題である。
機械学習(ML)の出現により、これらの問題を理解し、対処するための計算技術を活用する可能性がある。
本研究は,精神ストレスとMDの検出,予測,分析を強化するため,この領域で現在使用されているML方法論を解明することを目的とする。
目的:本稿は,精神ストレスとMDの検出,予測,分析に使用されるML方法論のスコープを検討することを目的としている。
方法: PRISMA-ScRガイドラインによる厳密なスコーピングレビュープロセスを利用することで,ストレスやストレス関連MDの文脈で使用される最新のMLアルゴリズム,前処理技術,データタイプを掘り下げる。
結果と考察: 計98冊の査読付き出版物について検討した。
その結果、Support Vector Machine(SVM)、Neural Network(NN)、Random Forest(RF)モデルでは、MLアルゴリズムの精度と堅牢性が一貫して向上していることがわかった。
心拍数測定や皮膚反応などの生理的パラメータは、豊かな説明情報とデータ取得の容易さにより、ストレス予測因子として広く用いられている。
マッピング,特徴選択,フィルタリング,ノイズ低減などの次元性低減技術は,MLアルゴリズムのトレーニングに先立って重要なステップとしてしばしば観察される。
結論: 本レビューでは, 重要な研究ギャップを明らかにし, 今後の方向性を概説する。
これには、モデル解釈可能性、モデルパーソナライゼーション、自然主義的な設定の取り入れ、ストレスやストレスに関連するMDの検出と予測のためのリアルタイム処理機能が含まれる。
キーワード:機械学習、ディープラーニング、データ前処理、ストレス検出、ストレス予測、ストレスモニタリング、精神障害
Background: Mental stress and its consequent mental disorders (MDs) are significant public health issues. With the advent of machine learning (ML), there's potential to harness computational techniques for better understanding and addressing these problems. This review seeks to elucidate the current ML methodologies employed in this domain to enhance the detection, prediction, and analysis of mental stress and MDs. Objective: This review aims to investigate the scope of ML methodologies used in the detection, prediction, and analysis of mental stress and MDs. Methods: Utilizing a rigorous scoping review process with PRISMA-ScR guidelines, this investigation delves into the latest ML algorithms, preprocessing techniques, and data types used in the context of stress and stress-related MDs. Results and Discussion: A total of 98 peer-reviewed publications were examined. The findings highlight that Support Vector Machine (SVM), Neural Network (NN), and Random Forest (RF) models consistently exhibit superior accuracy and robustness among ML algorithms. Physiological parameters such as heart rate measurements and skin response are prevalently used as stress predictors due to their rich explanatory information and ease of data acquisition. Dimensionality reduction techniques, including mappings, feature selection, filtering, and noise reduction, are frequently observed as crucial steps preceding the training of ML algorithms. Conclusion: This review identifies significant research gaps and outlines future directions for the field. These include model interpretability, model personalization, the incorporation of naturalistic settings, and real-time processing capabilities for the detection and prediction of stress and stress-related MDs. Keywords: Machine Learning; Deep Learning; Data Preprocessing; Stress Detection; Stress Prediction; Stress Monitoring; Mental Disorders | 翻訳日:2024-07-10 03:38:37 公開日:2024-07-07 |
# HOLのフラグメントとしてのノルマ的条件推論
Normative Conditional Reasoning as a Fragment of HOL ( http://arxiv.org/abs/2308.10686v4 ) ライセンス: Link先を確認 | Xavier Parent, Christoph Benzmüller, | (参考訳) 本稿では,条件付き規範推論の機械化について報告する。
我々の焦点は条件付き義務のためのAqvistのシステムEとその拡張である。
我々の機械化は、Isabelle/HOLに浅いセマンティックな埋め込みを通して達成される。
フレームワークの2つの可能性について検討する。
1つ目は、考慮されたロジックについてメタ推論するためのツールである。
本手法は, モーダル論理立方体で以前に達成されたものと類似したデオン対応(広義に考えられた)および関連事項の自動検証に応用する。
等価性は、その性質から公理へと導かれる一方向で自動的に検証される。
第二の用途は倫理的議論を評価するためのツールである。
人口倫理におけるよく知られたパラドックス(あるいは不合理性定理)のコンピュータエンコーディング(Parfit's repugnant conclusion)を提供する。
いくつかは'better than'の仮定された推移性を捨てて不合理性定理を克服することを提案したが、我々の形式化はより極端なアプローチを明らかにし、それを完全に捨てるよりは適当に推移性を弱める選択肢を示唆している。
提示されたエンコーディングが魅力と説得力を増すか減らすかは、哲学と倫理に委ねたい問題である。
We report on the mechanization of (preference-based) conditional normative reasoning. Our focus is on Aqvist's system E for conditional obligation, and its extensions. Our mechanization is achieved via a shallow semantical embedding in Isabelle/HOL. We consider two possible uses of the framework. The first one is as a tool for meta-reasoning about the considered logic. We employ it for the automated verification of deontic correspondences (broadly conceived) and related matters, analogous to what has been previously achieved for the modal logic cube. The equivalence is automatically verified in one direction, leading from the property to the axiom. The second use is as a tool for assessing ethical arguments. We provide a computer encoding of a well-known paradox (or impossibility theorem) in population ethics, Parfit's repugnant conclusion. While some have proposed overcoming the impossibility theorem by abandoning the presupposed transitivity of ''better than'', our formalisation unveils a less extreme approach, suggesting among other things the option of weakening transitivity suitably rather than discarding it entirely. Whether the presented encoding increases or decreases the attractiveness and persuasiveness of the repugnant conclusion is a question we would like to pass on to philosophy and ethics. | 翻訳日:2024-07-10 03:38:37 公開日:2024-07-07 |
# 動的システムに基づくメッセージパッシングを用いたグラフ幾何学とトポロジーの学習
Learning graph geometry and topology using dynamical systems based message-passing ( http://arxiv.org/abs/2309.09924v4 ) ライセンス: Link先を確認 | Dhananjay Bhaskar, Yanlei Zhang, Charles Xu, Xingzhi Sun, Oluwadamilola Fasina, Guy Wolf, Maximilian Nickel, Michael Perlmutter, Smita Krishnaswamy, | (参考訳) 本稿では,連続的マルチスケールグラフ力学の表現力に基づいて構築されたGNNのメッセージパッシングパラダイムであるDYMAGを紹介する。
標準的な離散時間メッセージパッシングアルゴリズムは、基本的なグラフトポロジ特性を捉える能力を制限する単純化されたグラフダイナミクスとアグリゲーションスキームを暗黙的に利用している。
対照的に、DYMAGは熱と波動方程式に基づく複雑なグラフ力学とカオス解を持つより複雑な方程式を利用する。
力学の連続的な性質を利用してマルチスケール(動的時間スナップショット)表現を生成し、それが様々なグラフトポロジやスペクトル特性と結びついていることが証明されている。
我々はDYMAGがErd\os-Renyiおよび確率的ブロックモデルランダムグラフの生成パラメータと、合成グラフと引用ネットワークの永続的ホモロジーを復元する際の優れた性能を実証した。
タンパク質や生体分子の挙動はグラフトポロジーに敏感であり, 複数スケールで重要な構造を示すことから, DYMAGは様々な生体分子の塩分特性を予測する他の手法よりも優れていることが判明した。
In this paper we introduce DYMAG: a message passing paradigm for GNNs built on the expressive power of continuous, multiscale graph-dynamics. Standard discrete-time message passing algorithms implicitly make use of simplistic graph dynamics and aggregation schemes which limit their ability to capture fundamental graph topological properties. By contrast, DYMAG makes use of complex graph dynamics based on the heat and wave equation as well as a more complex equation which admits chaotic solutions. The continuous nature of the dynamics are leveraged to generate multiscale (dynamic-time snapshot) representations which we prove are linked to various graph topological and spectral properties. We demonstrate experimentally that DYMAG achieves superior performance in recovering the generating parameters of Erd\"os-Renyi and stochastic block model random graphs and the persistent homology of synthetic graphs and citation network. Since the behavior of proteins and biomolecules is sensitive to graph topology and exhibits important structure at multiple scales, we find that DYMAG outperforms other methods at predicting salient features of various biomolecules. | 翻訳日:2024-07-10 03:28:33 公開日:2024-07-07 |
# 指数加算器に基づく量子乗算器
Quantum Multiplier Based on Exponent Adder ( http://arxiv.org/abs/2309.10204v3 ) ライセンス: Link先を確認 | Junpeng Zhan, | (参考訳) 量子乗算は量子コンピューティングの基本的な操作である。
複雑性の低い量子乗算器を持つことが重要である。
本稿では,指数加算器に基づく量子乗算器 (QMbead) を提案する。これは量子状態の準備に使用される$O(n)$ qubitsに加えて,$n$-bit整数2個を乗算するために$\log_2(n)$ qubitsを必要とする新しいアプローチである。
QMbead は2つの乗算をそれぞれ量子状態準備法で作成された2つの重ね合わせ状態として表わすために、いわゆる指数符号を使い、量子加算器を用いてこれらの2つの重ね合わせ状態の和を求め、その後、量子加算器の出力を測定して乗算子の積を計算する。
異なる量子加算器はQMbeadで使用できる。
QMbeadの回路深さと時間複雑性は、それぞれ$O(\log n)$と$O(n \log n)$である。
QMbead のゲート複雑性は$O(n)$である。
QMbeadの回路深さとゲートの複雑さは、量子カラツバ乗算器やQFTベースの乗算器のような既存の量子乗算器よりも優れている。
QMbeadの時間複雑性は、最も高速な古典的乗算アルゴリズムHarvey-Hoevenアルゴリズムと同一である。
興味深いことに、QMbeadはHarvey-Hoevenアルゴリズムよりも有利であり、後者は過剰な数にしか適さないが、QMbeadは小数にも大数にも有効である。
乗算は整数でも十進数でも構わない。
QMbeadは17量子ビットのみを使用して最大273ビットのビット長の製品を計算するために量子シミュレータに実装されている。
これにより、QMbeadは大きな整数や十進数を多くのビットで乗算する効率的な解として確立される。
Quantum multiplication is a fundamental operation in quantum computing. It is important to have a quantum multiplier with low complexity. In this paper, we propose the Quantum Multiplier Based on Exponent Adder (QMbead), a new approach that requires just $\log_2(n)$ qubits to multiply two $n$-bit integer numbers, in addition to $O(n)$ ancillary qubits used for quantum state preparation. The QMbead uses a so-called exponent encoding to respectively represent two multiplicands as two superposition states which are prepared by a quantum state preparation method, then employs a quantum adder to obtain the sum of these two superposition states, and subsequently measures the outputs of the quantum adder to calculate the product of the multiplicands. Different quantum adders can be used in the QMbead. The circuit depth and time complexity of the QMbead, using a logarithmic-depth quantum carry lookahead adder (QCLA) as adder, are $O(\log n)$ and $O(n \log n)$, respectively. The gate complexity of the QMbead is $O(n)$. The circuit depth and gate complexity of the QMbead is better than existing quantum multipliers such as the quantum Karatsuba multiplier and the QFT based multiplier. The time complexity of the QMbead is identical to that of the fastest classical multiplication algorithm, Harvey-Hoeven algorithm. Interestingly, the QMbead maintains an advantage over the Harvey-Hoeven algorithm, given that the latter is only suitable for excessively large numbers, whereas the QMbead is valid for both small and large numbers. The multiplicand can be either an integer or a decimal number. The QMbead has been implemented on quantum simulators to compute products with a bit length of up to 273 bits using only 17 qubits, excluding the ancillary qubits used for quantum state preparation. This establishes QMbead as an efficient solution for multiplying large integer or decimal numbers with many bits. | 翻訳日:2024-07-10 03:28:33 公開日:2024-07-07 |
# 安全駆動型未学習拡散モデルでは、安全でない画像を簡単に生成できる...今のところ
To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now ( http://arxiv.org/abs/2310.11868v4 ) ライセンス: Link先を確認 | Yimeng Zhang, Jinghan Jia, Xin Chen, Aochuan Chen, Yihua Zhang, Jiancheng Liu, Ke Ding, Sijia Liu, | (参考訳) 拡散モデル(DM)の最近の進歩は、現実的で複雑な画像の生成に革命をもたらした。
しかし、これらのモデルは有害なコンテンツを生成し、データ著作権を侵害するなど、潜在的な安全リスクも導入する。
これらの課題に対処する安全駆動のアンラーニング技術が開発されているにもかかわらず、その有効性に疑問が残る。
この問題に対処するため,本稿では,非学習的有害概念のプロセスを経て,これらの安全駆動型DMの信頼性を識別するために,敵対的刺激を活用する評価枠組みを導入する。
具体的には、不要な概念、スタイル、対象を除去する際、敵のプロンプトによって評価されたDMの対向的堅牢性について検討した。
我々は,UnlearnDiffAtk と呼ばれる DM の効率的かつ効率的な対向的プロンプト生成手法を開発した。
本手法は, DMの内在的分類能力を利用して, 逆方向のプロンプトの生成を簡略化し, 補助的分類や拡散モデルの必要性を解消する。
大規模なベンチマークを通じて、様々なタスクで広く使われている安全駆動型未学習DM(望ましくない概念、スタイル、またはオブジェクトを学習した後のDM)の堅牢性を評価する。
提案手法の有効性と有効性を示すとともに,DMに適用した場合の現在の安全駆動型アンラーニング手法の堅牢性の欠如を明らかにした。
コードはhttps://github.com/OPTML-Group/Diffusion-MU-Attack.comで公開されている。
WARNING: 本質的に攻撃的なAI世代があります。
The recent advances in diffusion models (DMs) have revolutionized the generation of realistic and complex images. However, these models also introduce potential safety hazards, such as producing harmful content and infringing data copyrights. Despite the development of safety-driven unlearning techniques to counteract these challenges, doubts about their efficacy persist. To tackle this issue, we introduce an evaluation framework that leverages adversarial prompts to discern the trustworthiness of these safety-driven DMs after they have undergone the process of unlearning harmful concepts. Specifically, we investigated the adversarial robustness of DMs, assessed by adversarial prompts, when eliminating unwanted concepts, styles, and objects. We develop an effective and efficient adversarial prompt generation approach for DMs, termed UnlearnDiffAtk. This method capitalizes on the intrinsic classification abilities of DMs to simplify the creation of adversarial prompts, thereby eliminating the need for auxiliary classification or diffusion models. Through extensive benchmarking, we evaluate the robustness of widely-used safety-driven unlearned DMs (i.e., DMs after unlearning undesirable concepts, styles, or objects) across a variety of tasks. Our results demonstrate the effectiveness and efficiency merits of UnlearnDiffAtk over the state-of-the-art adversarial prompt generation method and reveal the lack of robustness of current safetydriven unlearning techniques when applied to DMs. Codes are available at https://github.com/OPTML-Group/Diffusion-MU-Attack. WARNING: There exist AI generations that may be offensive in nature. | 翻訳日:2024-07-10 03:18:28 公開日:2024-07-07 |
# 最大独立集合に対する量子ハミルトンアルゴリズム
Quantum Hamiltonian Algorithms for Maximum Independent Sets ( http://arxiv.org/abs/2310.14546v3 ) ライセンス: Link先を確認 | Xianjue Zhao, Peiyun Ge, Hongye Yu, Li You, Frank Wilczek, Biao Wu, | (参考訳) 我々は、最大独立集合問題に対処する2つの量子ハミルトンアルゴリズムを比較する: 1つは、エネルギー的に孤立した状態多様体の断熱的進化における創発的非アーベルゲージ行列に基づく。
それらが数学的に等価であることを示すが、一見すると全く異なるように見える。
数学的等価性にもかかわらず、それらの最も単純な物理的実装は異なる。
我々の数値シミュレーションは性能に有意な違いを示し、実験プロトコルの改善を示唆するが、興味深いことに、この等価性はより深い接続を明らかにする。
また、最近量子力学研究で顕著なPXPモデルは、すべての独立集合の中央値グラフ上の量子拡散を管理する非アーベルゲージ行列として現れることを示した。
We compare two quantum Hamiltonian algorithms that address the maximum independent set problem: one based on emergent non-abelian gauge matrix in adiabatic evolution of an energetically isolated manifold of states; and one based on designed application of single-qubit operations. We demonstrate that they are mathematically equivalent, though at first sight they appear quite different. Despite their mathematical equivalence, their most straightforward physical implementations are different. Our numerical simulations show significant differences in performance, and suggest improved experimental protocols.Intriguingly, this equivalence unveils a deeper connection. We also demonstrate that the PXP model, recently prominent in quantum dynamics research, arises as the non-abelian gauge matrix governing quantum diffusion over the median graph of all independent sets. | 翻訳日:2024-07-10 03:18:28 公開日:2024-07-07 |
# モデルを考える、エージェントではなく:モデルベースRLのプライマリバイアス
Mind the Model, Not the Agent: The Primacy Bias in Model-based RL ( http://arxiv.org/abs/2310.15017v2 ) ライセンス: Link先を確認 | Zhongjian Qiao, Jiafei Lyu, Xiu Li, | (参考訳) モデルフリー強化学習(MFRL)におけるプライマリーバイアスは、エージェントが早期データに過度に適合し、新しいデータから学習する能力を失う傾向を示すものであり、MFRLアルゴリズムの性能を著しく低下させる可能性がある。
これまでの研究では、エージェントのパラメータをリセットするといった単純な手法を用いることで、MFRLの優劣バイアスを大幅に緩和できることが示されている。
しかし、モデルベース強化学習(MBRL)の優位性バイアスは未解明のままである。
本研究は,MBRLにおけるプライマリーバイアスの調査に焦点をあてる。
まず、エージェントのパラメータのリセットがMBRLの文脈でその性能を損なうことを観察する。
さらに、MBRLのプライマシーバイアスは、エージェントのプライマシーバイアスではなく、世界モデルのプライマシーバイアスとより密接な関係があることが分かる。
そこで本研究では, MBRL のプライマリ性バイアスを軽減するため, 簡便かつ効果的な手法である textit{world model resetting} を提案する。
本手法をMBPOとDreamerV2の2つの異なるMBRLアルゴリズムに適用する。
本研究では, MuJoCo および DeepMind Control Suite 上の複数連続制御タスクにおける本手法の有効性と, Atari 100k ベンチマークにおける離散制御タスクの有効性を検証する。
実験結果から, <textit{world model resetting} は, モデルベース設定におけるプライマリーバイアスを大幅に軽減し, アルゴリズムの性能向上を図っている。
また、 'textit{world model resetting} を効果的に実行する方法についてのガイドも提供します。
The primacy bias in model-free reinforcement learning (MFRL), which refers to the agent's tendency to overfit early data and lose the ability to learn from new data, can significantly decrease the performance of MFRL algorithms. Previous studies have shown that employing simple techniques, such as resetting the agent's parameters, can substantially alleviate the primacy bias in MFRL. However, the primacy bias in model-based reinforcement learning (MBRL) remains unexplored. In this work, we focus on investigating the primacy bias in MBRL. We begin by observing that resetting the agent's parameters harms its performance in the context of MBRL. We further find that the primacy bias in MBRL is more closely related to the primacy bias of the world model instead of the primacy bias of the agent. Based on this finding, we propose \textit{world model resetting}, a simple yet effective technique to alleviate the primacy bias in MBRL. We apply our method to two different MBRL algorithms, MBPO and DreamerV2. We validate the effectiveness of our method on multiple continuous control tasks on MuJoCo and DeepMind Control Suite, as well as discrete control tasks on Atari 100k benchmark. The experimental results show that \textit{world model resetting} can significantly alleviate the primacy bias in the model-based setting and improve the algorithm's performance. We also give a guide on how to perform \textit{world model resetting} effectively. | 翻訳日:2024-07-10 03:18:28 公開日:2024-07-07 |
# Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning
Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning ( http://arxiv.org/abs/2311.15161v4 ) ライセンス: Link先を確認 | Jiaqi Li, Yuanhao Lai, Rui Wang, Changjian Shui, Sabyasachi Sahoo, Charles X. Ling, Shichun Yang, Boyu Wang, Christian Gagné, Fan Zhou, | (参考訳) 連続学習は、前のタスクから得た知識を忘れずに、一連のタスクを逐次学習することを目的としている。
本研究では,Hessian Aware Low-Rank Perturbationアルゴリズムを提案する。
重み行列変換を用いて逐次タスクに沿ったパラメータ遷移をモデル化することにより、ニューラルネットワークの各層におけるタスク適応パラメータに低ランク近似を適用することを提案する。
具体的には,ヘッセン近似と提案した低ランク近似の量的関係を理論的に実証する。
近似ランクは、層比勾配と低ランク近似誤差によって推定される経験的損失の限界増加に従って、全世界的に決定される。
さらに,パラメータ成長を抑えるために,重要度を低くすることでモデル容量を制御する。
大規模タスクのデータセットを含む様々なベンチマークで広範な実験を行い、提案手法の有効性と拡張性を示す最新手法と比較する。
実験の結果,提案手法は様々なベンチマークにおいて,特にタスク順序の堅牢性を達成し,忘れる問題に対処する上で,優れた性能を示すことがわかった。
ソースコードはhttps://github.com/lijiaqi/HALRPにある。
Continual learning aims to learn a series of tasks sequentially without forgetting the knowledge acquired from the previous ones. In this work, we propose the Hessian Aware Low-Rank Perturbation algorithm for continual learning. By modeling the parameter transitions along the sequential tasks with the weight matrix transformation, we propose to apply the low-rank approximation on the task-adaptive parameters in each layer of the neural networks. Specifically, we theoretically demonstrate the quantitative relationship between the Hessian and the proposed low-rank approximation. The approximation ranks are then globally determined according to the marginal increment of the empirical loss estimated by the layer-specific gradient and low-rank approximation error. Furthermore, we control the model capacity by pruning less important parameters to diminish the parameter growth. We conduct extensive experiments on various benchmarks, including a dataset with large-scale tasks, and compare our method against some recent state-of-the-art methods to demonstrate the effectiveness and scalability of our proposed method. Empirical results show that our method performs better on different benchmarks, especially in achieving task order robustness and handling the forgetting issue. The source code is at https://github.com/lijiaqi/HALRP. | 翻訳日:2024-07-10 03:08:43 公開日:2024-07-07 |
# SwiftBrush: 変量スコア蒸留を用いたワンステップテキスト・画像拡散モデル
SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation ( http://arxiv.org/abs/2312.05239v4 ) ライセンス: Link先を確認 | Thuan Hoang Nguyen, Anh Tran, | (参考訳) テキストプロンプトから高解像度で多様な画像を生成する能力があるにもかかわらず、テキストから画像への拡散モデルは、しばしば遅い反復サンプリングプロセスに悩まされる。
モデル蒸留はこれらのモデルを加速する最も効果的な方法の1つである。
しかし, 従来の蒸留法では, 実際のデータから, あるいは教師モデルで合成的に生成した画像にかなりの量の画像を必要とするため, 生成品質を保たない。
この制限に対応するために、$\textbf{SwiftBrush}$という新しい画像のない蒸留スキームを示す。
入力プロンプトと整合する3次元ニューラルラディアンス場を,任意の3次元データ基底構造を使わずに,事前に2次元のテキスト・ツー・イメージ拡散から得ることができるテキスト・トゥ・3D合成からインスピレーションを得て,本手法では,事前学習した複数ステップのテキスト・ツー・イメージモデルを,単一の推論ステップで高忠実度画像を生成することができる学生ネットワークに抽出するのと同じ損失を生かした。
その単純さにもかかわらず、我々のモデルは、トレーニング画像データに頼らずに安定拡散に匹敵する画質の画像を生成できる最初のワンステップのテキスト・ツー・イメージ・ジェネレータの1つである。
注目すべきは、SwiftBrushがFIDスコアの$\textbf{16.67}$とCLIPスコアの$\textbf{0.29}$をCOCO-30Kベンチマークで達成し、競争的な結果を達成するか、あるいは既存の最先端蒸留技術よりもはるかに上回っていることだ。
Despite their ability to generate high-resolution and diverse images from text prompts, text-to-image diffusion models often suffer from slow iterative sampling processes. Model distillation is one of the most effective directions to accelerate these models. However, previous distillation methods fail to retain the generation quality while requiring a significant amount of images for training, either from real data or synthetically generated by the teacher model. In response to this limitation, we present a novel image-free distillation scheme named $\textbf{SwiftBrush}$. Drawing inspiration from text-to-3D synthesis, in which a 3D neural radiance field that aligns with the input prompt can be obtained from a 2D text-to-image diffusion prior via a specialized loss without the use of any 3D data ground-truth, our approach re-purposes that same loss for distilling a pretrained multi-step text-to-image model to a student network that can generate high-fidelity images with just a single inference step. In spite of its simplicity, our model stands as one of the first one-step text-to-image generators that can produce images of comparable quality to Stable Diffusion without reliance on any training image data. Remarkably, SwiftBrush achieves an FID score of $\textbf{16.67}$ and a CLIP score of $\textbf{0.29}$ on the COCO-30K benchmark, achieving competitive results or even substantially surpassing existing state-of-the-art distillation techniques. | 翻訳日:2024-07-10 03:08:43 公開日:2024-07-07 |
# 記憶・意識・大規模言語モデル
Memory, Consciousness and Large Language Model ( http://arxiv.org/abs/2401.02509v2 ) ライセンス: Link先を確認 | Jitang Li, Jinzheng Li, | (参考訳) 認知科学とLarge Language Models (LLMs)の発展により、これらの2つの異なる分野の間には、関連性が高まっている。
これらの関係に基づいて,LLMとTulvingのメモリ理論の双対性の存在を示唆する仮説を提案する。
検索のSEM(synergistic ecphory model)とLLMで観測される創発的能力との潜在的な対応を同定し,この仮説を裏付ける証拠となる。
さらに、この双対性に基づいて、意識は創発能力の一形態であると考えられるかもしれないと推測する。
また、他の意識理論が我々の研究とどのように交わるかについても論じる。
With the development in cognitive science and Large Language Models (LLMs), increasing connections have come to light between these two distinct fields. Building upon these connections, we propose a conjecture suggesting the existence of a duality between LLMs and Tulving's theory of memory. We identify a potential correspondence between Tulving's synergistic ecphory model (SEM) of retrieval and the emergent abilities observed in LLMs, serving as supporting evidence for our conjecture. Furthermore, we speculate that consciousness may be considered a form of emergent ability based on this duality. We also discuss how other theories of consciousness intersect with our research. | 翻訳日:2024-07-10 02:58:36 公開日:2024-07-07 |
# 3次元ガウス平滑化に関する調査研究
A Survey on 3D Gaussian Splatting ( http://arxiv.org/abs/2401.03890v3 ) ライセンス: Link先を確認 | Guikun Chen, Wenguan Wang, | (参考訳) 3D Gaussian splatting (GS) は、近年、明示的なラディアンス場とコンピュータグラフィックスの領域において、トランスフォーメーション技術として登場した。
この革新的なアプローチは、数百万の学習可能な3Dガウスの活用を特徴とし、主に暗黙的な座標に基づくモデルを用いて空間座標をピクセル値にマッピングする主流の神経放射場アプローチから著しく離れている。
3D GSは、明示的なシーン表現と差別化可能なレンダリングアルゴリズムを持ち、リアルタイムレンダリング能力を約束するだけでなく、前例のないレベルの編集性も導入している。
これにより、3D GSは次世代の3D再構成と表現のための潜在的なゲームチェンジャーとして位置づけられる。
本稿では,3D GSの領域における最近の発展と重要な貢献について,初めて体系的に概説する。
まず、3D GSの出現の背景にある基礎となる原理と推進力の詳細な調査から始め、その意義を理解するための基礎を築き上げます。
議論の焦点は、3D GSの実用性である。
前例のないレンダリング速度を実現することで、3D GSは、仮想現実からインタラクティブメディアまで、さまざまなアプリケーションを開きます。
これは、主要な3D GSモデルの比較分析によって補完され、様々なベンチマークタスクで評価され、パフォーマンスと実用性を強調している。
この調査は、現在の課題を特定し、この領域における将来の研究への潜在的な道を提案することで締めくくられる。
本調査は,新入生研究者と調味研究者の双方にとって貴重な資源を提供することを目標とし,適用可能で明示的な放射野表現のさらなる探索と発展を促進することを目的とする。
3D Gaussian splatting (GS) has recently emerged as a transformative technique in the realm of explicit radiance field and computer graphics. This innovative approach, characterized by the utilization of millions of learnable 3D Gaussians, represents a significant departure from mainstream neural radiance field approaches, which predominantly use implicit, coordinate-based models to map spatial coordinates to pixel values. 3D GS, with its explicit scene representation and differentiable rendering algorithm, not only promises real-time rendering capability but also introduces unprecedented levels of editability. This positions 3D GS as a potential game-changer for the next generation of 3D reconstruction and representation. In the present paper, we provide the first systematic overview of the recent developments and critical contributions in the domain of 3D GS. We begin with a detailed exploration of the underlying principles and the driving forces behind the emergence of 3D GS, laying the groundwork for understanding its significance. A focal point of our discussion is the practical applicability of 3D GS. By enabling unprecedented rendering speed, 3D GS opens up a plethora of applications, ranging from virtual reality to interactive media and beyond. This is complemented by a comparative analysis of leading 3D GS models, evaluated across various benchmark tasks to highlight their performance and practical utility. The survey concludes by identifying current challenges and suggesting potential avenues for future research in this domain. Through this survey, we aim to provide a valuable resource for both newcomers and seasoned researchers, fostering further exploration and advancement in applicable and explicit radiance field representation. | 翻訳日:2024-07-10 02:58:36 公開日:2024-07-07 |
# 交通予測のための時空間大言語モデル
Spatial-Temporal Large Language Model for Traffic Prediction ( http://arxiv.org/abs/2401.10134v4 ) ライセンス: Link先を確認 | Chenxi Liu, Sun Yang, Qianxiong Xu, Zhishuai Li, Cheng Long, Ziyue Li, Rui Zhao, | (参考訳) 交通予測は、インテリジェントな交通システムにとって不可欠な要素であり、特定の場所で将来の交通の特徴を予見するために歴史的なデータを使用する努力である。
既存のトラフィック予測モデルは複雑なニューラルネットワーク構造の開発を強調することが多いが、精度は改善されていない。
近年,大規模言語モデルは時系列解析において優れた能力を示している。
既存のモデルと異なり、LLMは主にパラメータ拡張と広範な事前訓練を通じて、基本構造を維持しながら進行する。
これらの発展を動機として,交通予測のための時空間大言語モデル(ST-LLM)を提案する。
ST-LLMでは,各位置の時間ステップをトークンとして定義し,空間的位置とグローバルな時間的パターンを学習するための空間的時間的埋め込みを設計する。
さらに、これらの埋め込みを各トークンに融合畳み込みにより統合し、空間的時間的表現を統一する。
さらに,LLMを適応させ,交通予測のためのグローバルな時空間依存性を捉えるために,部分的に凍結した注意戦略を革新する。
実トラフィックデータセットに関する総合的な実験は、ST-LLMが最先端モデルを上回る強力な時空間学習者であることを示す。
特にST-LLMは、少数ショットとゼロショットの予測シナリオの両方で堅牢なパフォーマンスを示している。
コードはhttps://github.com/ChenxiLiu-HNU/ST-LLMで公開されている。
Traffic prediction, an essential component for intelligent transportation systems, endeavours to use historical data to foresee future traffic features at specific locations. Although existing traffic prediction models often emphasize developing complex neural network structures, their accuracy has not improved. Recently, large language models have shown outstanding capabilities in time series analysis. Differing from existing models, LLMs progress mainly through parameter expansion and extensive pretraining while maintaining their fundamental structures. Motivated by these developments, we propose a Spatial-Temporal Large Language Model (ST-LLM) for traffic prediction. In the ST-LLM, we define timesteps at each location as tokens and design a spatial-temporal embedding to learn the spatial location and global temporal patterns of these tokens. Additionally, we integrate these embeddings by a fusion convolution to each token for a unified spatial-temporal representation. Furthermore, we innovate a partially frozen attention strategy to adapt the LLM to capture global spatial-temporal dependencies for traffic prediction. Comprehensive experiments on real traffic datasets offer evidence that ST-LLM is a powerful spatial-temporal learner that outperforms state-of-the-art models. Notably, the ST-LLM also exhibits robust performance in both few-shot and zero-shot prediction scenarios. The code is publicly available at https://github.com/ChenxiLiu-HNU/ST-LLM. | 翻訳日:2024-07-10 02:58:36 公開日:2024-07-07 |
# 時間依存力学学習におけるリッチフロー誘導オートエンコーダ
Ricci flow-guided autoencoders in learning time-dependent dynamics ( http://arxiv.org/abs/2401.14591v8 ) ライセンス: Link先を確認 | Andrew Gracyk, | (参考訳) 本稿では,時間内力学,特に偏微分方程式(PDE)を学習するための多様体ベースのオートエンコーダ法を提案する。
これは、物理学的インフォームドな設定でリッチフローをシミュレートすることで実現でき、また、リッチフローが経験的に達成されるように、多様体の量と一致させることができる。
この方法では、多様体はトレーニング手順によって識別されるが、リッチフローによる潜伏進化は静的な方法よりもより共役な表現を誘導する。
本稿では,周期性やランダム性などの望ましい特徴を含むPDEデータからなる実験について述べる。
潜在力学を取り入れることで、周囲のPDE時間間隔におけるすべての値に対する多様体潜在表現を維持できる。
さらに、動的多様体潜在空間は、分布外データの学習やロバストネスなどの品質を促進する。
これらの特徴を実証して示す。
We present a manifold-based autoencoder method for learning dynamics in time, notably partial differential equations (PDEs), in which the manifold latent space evolves according to Ricci flow. This can be accomplished by simulating Ricci flow in a physics-informed setting, and manifold quantities can be matched so that Ricci flow is empirically achieved. With our method, the manifold is discerned through the training procedure, while the latent evolution due to Ricci flow induces a more accommodating representation over static methods. We present our method on a range of experiments consisting of PDE data that encompasses desirable characteristics such as periodicity and randomness. By incorporating latent dynamics, we sustain a manifold latent representation for all values in the ambient PDE time interval. Furthermore, the dynamical manifold latent space facilitates qualities such as learning for out-of-distribution data, and robustness. We showcase our method by demonstrating these features. | 翻訳日:2024-07-10 02:48:51 公開日:2024-07-07 |
# インストラクションIR:人間のインストラクションによる高画質画像復元
InstructIR: High-Quality Image Restoration Following Human Instructions ( http://arxiv.org/abs/2401.16468v4 ) ライセンス: Link先を確認 | Marcos V. Conde, Gregor Geigle, Radu Timofte, | (参考訳) 画像復元は、その劣化した観察から高品質なクリーンなイメージを復元する、基本的な問題である。
オールインワン画像復元モデルは, 劣化特異的情報を用いて, 様々な種類の画像や劣化レベルの画像の復元を効果的に行うことができる。
本研究では,人間の手書きによる画像復元モデルを導出する最初の手法を提案する。
自然言語のプロンプトを前提としたモデルでは, 劣化した画像から, 複数の劣化型を考慮し, 高品質な画像の復元が可能となる。
InstructIRは、画像のデノイング、デライニング、デブロアリング、デハージング、(低照度)画像の強調など、いくつかの修復作業に対して、最先端の結果を得る。
InstructIRは以前のオールインワンの復元方法よりも+1dBを改善する。
さらに,本データセットは,テキスト誘導画像の復元と改善に関する新たな研究のベンチマークである。
私たちのコード、データセット、モデルは、https://github.com/mv-lab/InstructIRで利用可能です。
Image restoration is a fundamental problem that involves recovering a high-quality clean image from its degraded observation. All-In-One image restoration models can effectively restore images from various types and levels of degradation using degradation-specific information as prompts to guide the restoration model. In this work, we present the first approach that uses human-written instructions to guide the image restoration model. Given natural language prompts, our model can recover high-quality images from their degraded counterparts, considering multiple degradation types. Our method, InstructIR, achieves state-of-the-art results on several restoration tasks including image denoising, deraining, deblurring, dehazing, and (low-light) image enhancement. InstructIR improves +1dB over previous all-in-one restoration methods. Moreover, our dataset and results represent a novel benchmark for new research on text-guided image restoration and enhancement. Our code, datasets and models are available at: https://github.com/mv-lab/InstructIR | 翻訳日:2024-07-10 02:48:51 公開日:2024-07-07 |
# DetectGPTは摂動をフル活用しているか? 微調整型コントラスト学習検出器に選択的摂動を組み込むほうがよい
Does DetectGPT Fully Utilize Perturbation? Bridging Selective Perturbation to Fine-tuned Contrastive Learning Detector would be Better ( http://arxiv.org/abs/2402.00263v4 ) ライセンス: Link先を確認 | Shengchao Liu, Xiaoming Liu, Yichen Wang, Zehua Cheng, Chengzhengxu Li, Zhaohan Zhang, Yu Lan, Chao Shen, | (参考訳) 大規模言語モデル(LLM)の急成長する生成能力は、不正行為に対する懸念を高め、自動機械生成テキスト検出器を要求している。
ゼロショットメートル法に基づく検出器である DetectGPT は、まず摂動を導入し、高い性能向上を示す。
しかし、T DetectGPTでは、ランダムな摂動戦略はノイズを発生させ、ロジット回帰は閾値に依存し、個々の入力や小さな入力の一般化性と適用性を損なう。
そこで我々は,選択摂動の対照的な学習により,メカニカルベースおよび微調整法をブリッジする,新しい微調整検出器Pecolaを提案する。
選択戦略は、マルチペアコントラスト学習のための摂動と重みの間に重要なトークンを保持する。
実験の結果、ペコラは4つの公開データセットで平均1.20%の精度で最先端のSOTA(State-of-the-art)を上回ります。
さらに, 本手法の有効性, 堅牢性, 一般化について検討した。
The burgeoning generative capabilities of large language models (LLMs) have raised growing concerns about abuse, demanding automatic machine-generated text detectors. DetectGPT, a zero-shot metric-based detector, first introduces perturbation and shows great performance improvement. However, in DetectGPT, the random perturbation strategy could introduce noise, and logit regression depends on the threshold, harming the generalizability and applicability of individual or small-batch inputs. Hence, we propose a novel fine-tuned detector, Pecola, bridging metric-based and fine-tuned methods by contrastive learning on selective perturbation. Selective strategy retains important tokens during perturbation and weights for multi-pair contrastive learning. The experiments show that Pecola outperforms the state-of-the-art (SOTA) by 1.20% in accuracy on average on four public datasets. And we further analyze the effectiveness, robustness, and generalization of the method. | 翻訳日:2024-07-10 02:48:51 公開日:2024-07-07 |
# シングル・デモレーション・イミテーション・ラーニングのためのサロゲート・リワードとしてのエキスパート・プロクシミティ
Expert Proximity as Surrogate Rewards for Single Demonstration Imitation Learning ( http://arxiv.org/abs/2402.01057v3 ) ライセンス: Link先を確認 | Chia-Cheng Chiang, Li-Cheng Lan, Wei-Fang Sun, Chien Feng, Cho-Jui Hsieh, Chun-Yi Lee, | (参考訳) 本稿では,複数の専門家による実演の獲得にコストがかかるか不可能であり,基礎的真理報酬関数が利用できない実世界のアプリケーションのための実践的アプローチである,単項模擬学習(IL)に焦点を当てる。
複数のデモンストレーションを持つ典型的なIL設定とは対照的に、単一のデモストレーションILは1つの専門家軌道のみにアクセスするエージェントを含む。
本稿では, この設定におけるスパース報酬信号の問題を強調し, 提案手法であるTransition Discriminator-based IL (TDIL) を用いてこの問題を軽減することを提案する。
TDILは、環境力学を考慮したより高密度なサロゲート報酬関数を導入することで、報酬空間に対処するために設計されたIRL手法である。
この代理報酬関数は、エージェントが専門家状態に近い状態に向かうことを促す。
実際には、TDILは、ある環境における有効な遷移と非無効な遷移を区別するために遷移判別器を訓練し、サロゲート報酬を計算する。
実験は、TDILが既存のILアプローチより優れており、広く採用されている5つの MuJoCo ベンチマークと "Adroit Door" ロボット環境のシングルデモ IL設定において、専門家レベルのパフォーマンスを実現していることを示した。
In this paper, we focus on single-demonstration imitation learning (IL), a practical approach for real-world applications where acquiring multiple expert demonstrations is costly or infeasible and the ground truth reward function is not available. In contrast to typical IL settings with multiple demonstrations, single-demonstration IL involves an agent having access to only one expert trajectory. We highlight the issue of sparse reward signals in this setting and propose to mitigate this issue through our proposed Transition Discriminator-based IL (TDIL) method. TDIL is an IRL method designed to address reward sparsity by introducing a denser surrogate reward function that considers environmental dynamics. This surrogate reward function encourages the agent to navigate towards states that are proximal to expert states. In practice, TDIL trains a transition discriminator to differentiate between valid and non-valid transitions in a given environment to compute the surrogate rewards. The experiments demonstrate that TDIL outperforms existing IL approaches and achieves expert-level performance in the single-demonstration IL setting across five widely adopted MuJoCo benchmarks as well as the "Adroit Door" robotic environment. | 翻訳日:2024-07-10 02:48:51 公開日:2024-07-07 |
# 可変結合を持つトランスモン量子ビットアレイの二次元トポロジー効果
Two-dimensional topological effect in a transmon qubit array with tunable couplings ( http://arxiv.org/abs/2402.02657v2 ) ライセンス: Link先を確認 | Yan-Jun Zhao, Yu-Qi Wang, Yang Xue, Xun-Wei Xu, Yan-Yang Zhang, Wu-Ming Liu, Yu-xi Liu, | (参考訳) 誘導結合子を介する量子間相互作用を持つ超伝導トランスモン量子ビットの2乗格子構造について検討する。
そこで, クビットとカプラ間の誘導コーリングは, グラディメータ形状に設計され, 環境から発生するフラックスノイズを抑えることが示唆された。
カップラを周期的に変調するアベリアゲージポテンシャルは、有効磁束と呼ばれ、人工的に合成することができ、2次元トポロジカル物理をシミュレートするための優れたプラットフォームとなる。
最も単純な2次元モデルでは、実効的な磁束が変化するにつれて、単粒子基底状態において、2重(または3重)ラグにおいて、2重(または3重)ラグとスタッガード渦-マイスナー相転移が検出できる。
さらに、レグ間結合強度とレグ間カップリング強度との間の大きなカップリング比は、キラル電流を圧縮された正弦波関数に類似させる。
行数がさらに増加すると、大きな行で期待されるトポロジカルバンド構造が比較的少数の行(考慮されたパラメータは10以上)でも発生し始める。
これにより、トポロジカルバンドを観測するために小さな回路スケールが決定される。
バンドギャップ内のエッジ状態は、トポロジカルチャーン数によって決定され、第1ブリルアンゾーンに対するベリー曲率の統合により計算することができる。
さらに,波動関数の時間領域および空間領域のフロリエ変換を適切に励起した後,位相バンド構造を計測する方法を体系的に提案する。
この結果は、最先端の超伝導量子チップ上での二次元トポロジカル物理学をシミュレートするための道を提供する。
We investigate a square-lattice architecture of superconducting transmon qubits with inter-qubit interactions mediated by inductive couplers. Therein, the inductive couling between the qubit and couplers is suggested to be designed into the gradiometer form to intigimate the flux noise orginating from the environment. Via periodically modulating the couplers,the Abelian gauge potential, termed effective magnetic flux, can be synthesized artificially, making the system an excellent platform for simulating two-dimensional topological physics. In the simplest two-dimensional model, the double (or three-leg) ladder, the staggered vortex-Meissner phase transition different from that in the two-leg ladder can be found in the single-particle ground state as the effective magnetic flux varies. Besides, the large coupling ratio between the interleg and intraleg coupling strengths also makes the chiral current resemble squeezed sinusoidal functions. If the row number is further increased, the topological band structure anticipated at massive rows begins to occur even for a relatively small number of rows (ten or so for the considered parameters). This heralds a small circuit scale to observe the topological band. The edge state in the band gap is determined by the topological Chern number and can be calculated through integrating the Berry curvature with respect to the first Brillouin zone. Besides, we present a systematic method on how to measure the topological band structure based on time- and space-domain Frourier transformation of the wave function after properly excited. The result offers an avenue for simulating two-dimensional topological physics on the state-of-the-art superconducting quantum chips. | 翻訳日:2024-07-10 02:48:51 公開日:2024-07-07 |
# V-IRL: 現実のバーチャルインテリジェンス
V-IRL: Grounding Virtual Intelligence in Real Life ( http://arxiv.org/abs/2402.03310v2 ) ライセンス: Link先を確認 | Jihan Yang, Runyu Ding, Ellis Brown, Xiaojuan Qi, Saining Xie, | (参考訳) 人類が住む地球と、現代のAIエージェントが作られるデジタル世界との間には、感覚的な湾がある。
現実の環境で人間のように柔軟に感じ、思考し、行動できるAIエージェントを開発するためには、デジタルと物理の世界の間の現実主義のギャップを埋めることが不可欠である。
実際のハードウェアとコントロールが課す制約なしに、どのようにしてエージェントを、私たちが住んでいるものと同じくらい豊かで多様な環境に具体化できますか?
この目的に向けて,エージェントが仮想的かつ現実的な環境で現実の世界と肩を並べることのできるプラットフォームであるV-IRLを紹介した。
私たちのプラットフォームは、さまざまな実践的なタスクを達成できるエージェントを開発するための遊び場として機能し、世界全体での知覚、意思決定、実世界のデータとの相互作用を含む能力の進歩を測定するための広大なテストベッドとして役立ちます。
There is a sensory gulf between the Earth that humans inhabit and the digital realms in which modern AI agents are created. To develop AI agents that can sense, think, and act as flexibly as humans in real-world settings, it is imperative to bridge the realism gap between the digital and physical worlds. How can we embody agents in an environment as rich and diverse as the one we inhabit, without the constraints imposed by real hardware and control? Towards this end, we introduce V-IRL: a platform that enables agents to scalably interact with the real world in a virtual yet realistic environment. Our platform serves as a playground for developing agents that can accomplish various practical tasks and as a vast testbed for measuring progress in capabilities spanning perception, decision-making, and interaction with real-world data across the entire globe. | 翻訳日:2024-07-10 02:48:51 公開日:2024-07-07 |
# パーソナライズされた人間のフィードバックからのパーソナライズド言語モデリング
Personalized Language Modeling from Personalized Human Feedback ( http://arxiv.org/abs/2402.05133v2 ) ライセンス: Link先を確認 | Xinyu Li, Zachary C. Lipton, Liu Leqi, | (参考訳) 人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、人間の好みに合わせて大きな言語モデルを微調整するために一般的に用いられる。
しかし、このフレームワークで開発されたアルゴリズムの前提は、人間のフィードバックに符号化されたユーザの好みが多様である場合に問題となる可能性がある。
本研究では,パーソナライズされた言語モデルを構築する手法を開発することにより,この問題に対処することを目的とする。
まず、個人化された人間のフィードバックから学習するタスクを正式に紹介し、この文脈でバニラRLHFが有効でない理由を説明します。
次に、ユーザ情報をユーザ表現にマッピングし、ユーザの好みに対する仮定を柔軟にエンコードできるユーザモデルを含む、一般的なパーソナライズ-RLHF(P-RLHF)フレームワークを提案する。
我々は、ユーザモデルとパーソナライズされた言語モデルとを共同で学習する、パーソナライズされたダイレクトパラメータ最適化を実行するための新しい学習目標を開発する。
提案手法の有効性を,(1)GPT-J 6Bモデルを用いて生成時間に相反する好みを持つユーザを微調整する合成タスク,(2)Tulu-7Bモデルを微調整し,応答のスタイルに様々な好みを持つユーザに対して応答を生成する命令追従タスクを通じて示す。
どちらの場合も、学習したモデルは個々のユーザの好みに合わせてパーソナライズされた応答を生成することができる。
Reinforcement Learning from Human Feedback (RLHF) is commonly used to fine-tune large language models to better align with human preferences. However, the underlying premise of algorithms developed under this framework can be problematic when user preferences encoded in human feedback are diverse. In this work, we aim to address this problem by developing methods for building personalized language models. We first formally introduce the task of learning from personalized human feedback and explain why vanilla RLHF can be ineffective in this context. We then propose a general Personalized-RLHF (P-RLHF) framework, including a user model that maps user information to user representations and can flexibly encode our assumptions on user preferences. We develop new learning objectives to perform personalized Direct Preference Optimization that jointly learns a user model and a personalized language model. We demonstrate the efficacy of our proposed method through (1) a synthetic task where we fine-tune a GPT-J 6B model to align with users with conflicting preferences on generation length; and (2) an instruction following task where we fine-tune a Tulu-7B model to generate responses for users with diverse preferences on the style of responses. In both cases, our learned models can generate personalized responses that are better aligned with the preferences of individual users. | 翻訳日:2024-07-10 02:48:51 公開日:2024-07-07 |
# ニューラルSPH:ラグランジアン流体力学のニューラルモデリングの改善
Neural SPH: Improved Neural Modeling of Lagrangian Fluid Dynamics ( http://arxiv.org/abs/2402.06275v2 ) ライセンス: Link先を確認 | Artur P. Toshev, Jonas A. Erbesdobler, Nikolaus A. Adams, Johannes Brandstetter, | (参考訳) 平滑粒子流体力学(Smoothed Particle hydrodynamics、SPH)は、現代の工学と科学の分野において一様である。
SPHは、発展速度場を通して追跡される有限物質点を通して流体力学を離散化するラグランジアンスキームのクラスである。
シミュレーションの粒子的な性質のため、グラフニューラルネットワーク(GNN)は魅力的なサロゲートとして登場し、成功した。
しかし、そのようなGNNベースのシミュレータの実用性は、物理学を忠実にモデル化する能力に依存しており、長期間の地平線上で正確で安定した予測を提供する。
本研究では, 引張不安定性に起因する粒子群集を主要な落とし穴の1つとして同定する。
これらの知見に基づき, 圧力, 粘性, 外部力成分を含む標準SPHソルバから, 各種成分を用いた最先端GNNシミュレータのトレーニングとロールアウト推論の両立を図る。
ニューラルSPH強化シミュレータはすべてベースラインのGNNよりも優れた性能を達成し、ロールアウトエラーの桁数でしばしば達成し、ロールアウトが大幅に長くなり、物理モデリングが大幅に向上した。
コードはhttps://github.com/tumaer/neuralsph.comで公開されている。
Smoothed particle hydrodynamics (SPH) is omnipresent in modern engineering and scientific disciplines. SPH is a class of Lagrangian schemes that discretize fluid dynamics via finite material points that are tracked through the evolving velocity field. Due to the particle-like nature of the simulation, graph neural networks (GNNs) have emerged as appealing and successful surrogates. However, the practical utility of such GNN-based simulators relies on their ability to faithfully model physics, providing accurate and stable predictions over long time horizons - which is a notoriously hard problem. In this work, we identify particle clustering originating from tensile instabilities as one of the primary pitfalls. Based on these insights, we enhance both training and rollout inference of state-of-the-art GNN-based simulators with varying components from standard SPH solvers, including pressure, viscous, and external force components. All Neural SPH-enhanced simulators achieve better performance than the baseline GNNs, often by orders of magnitude in terms of rollout error, allowing for significantly longer rollouts and significantly better physics modeling. Code available at https://github.com/tumaer/neuralsph. | 翻訳日:2024-07-10 02:48:51 公開日:2024-07-07 |
# 価格オークションにおける入札のための戦略的ロバスト学習アルゴリズム
Strategically-Robust Learning Algorithms for Bidding in First-Price Auctions ( http://arxiv.org/abs/2402.07363v2 ) ライセンス: Link先を確認 | Rachitesh Kumar, Jon Schneider, Balasubramanian Sivan, | (参考訳) ゲーム理論と機械学習のインターフェースにおいて、繰り返し最初の価格オークションで競うことの学習は根本的な問題であり、ディスプレイ広告が第1価格オークションに移行したことにより、近年関心が高まっている。
本研究では,プライスオークションにおける純ストラテジー入札のための新しいコンケーブの定式化を提案し,この問題に対する自然なグラディエント・アセンセントアルゴリズムの解析に利用した。
重要なことは、我々の分析は過去の作業の典型的な焦点であり、入札アルゴリズムが配備されているオンライン広告市場の戦略的背景も考慮している後悔以上のものだ。
具体的には、最も高い競合入札が反対に生成された場合、我々のアルゴリズムが$O(\sqrt{T})$後悔を達成できることを示し、オンラインアルゴリズムが改善できないことを示す。
さらに、この後悔は、競合が定常かつ確率的であるときに$O(\log T)$に減少し、以前の$O(\sqrt{T})$を大幅に改善する。
残念なことに、戦略的な売り手は我々のアルゴリズムを利用して、最適メカニズムの下で可能な以上の収益を平均で取り出すことはできない。
そして最後に、我々のアルゴリズムはインセンティブと互換性があることを証明します -- 買い手にとって、アルゴリズム全体に真に価値を報告するのは(ほぼ)支配的な戦略です。
さらに、これらの保証により、アルゴリズムは最適な後悔と戦略的損耗の両方を同時に達成する最初のものとなる。
Learning to bid in repeated first-price auctions is a fundamental problem at the interface of game theory and machine learning, which has seen a recent surge in interest due to the transition of display advertising to first-price auctions. In this work, we propose a novel concave formulation for pure-strategy bidding in first-price auctions, and use it to analyze natural Gradient-Ascent-based algorithms for this problem. Importantly, our analysis goes beyond regret, which was the typical focus of past work, and also accounts for the strategic backdrop of online-advertising markets where bidding algorithms are deployed -- we provide the first guarantees of strategic-robustness and incentive-compatibility for Gradient Ascent. Concretely, we show that our algorithms achieve $O(\sqrt{T})$ regret when the highest competing bids are generated adversarially, and show that no online algorithm can do better. We further prove that the regret reduces to $O(\log T)$ when the competition is stationary and stochastic, which drastically improves upon the previous best of $O(\sqrt{T})$. Moving beyond regret, we show that a strategic seller cannot exploit our algorithms to extract more revenue on average than is possible under the optimal mechanism. Finally, we prove that our algorithm is also incentive compatible -- it is a (nearly) dominant strategy for the buyer to report her values truthfully to the algorithm as a whole. Altogether, these guarantees make our algorithms the first to simultaneously achieve both optimal regret and strategic-robustness. | 翻訳日:2024-07-10 02:38:52 公開日:2024-07-07 |
# SPO: シークエンシャルなモンテカルロ政策最適化
SPO: Sequential Monte Carlo Policy Optimisation ( http://arxiv.org/abs/2402.07963v2 ) ライセンス: Link先を確認 | Matthew V Macfarlane, Edan Toledo, Donal Byrne, Paul Duckworth, Alexandre Laterre, | (参考訳) 学習と意思決定における計画の活用は、知的エージェントの長期的な開発の中心である。
近年の研究では,木に基づく探索手法と自己学習機構を組み合わせることに成功している。
しかし、これらの手法は典型的には、探索のシーケンシャルな性質のため、スケーリングの課題に直面している。
実用的なエンジニアリングソリューションは部分的にこれを克服できるが、パフォーマンスに悪影響を及ぼすことが多い。
本稿では,SPO:Sequential Monte Carlo Policy Optimisationを紹介する。
我々は,SPOがロバストな政策改善と効率的なスケーリング特性を提供することを示した。
サンプルベースの探索は、変更することなく離散的かつ連続的なアクション空間に直接適用することができる。
連続環境および離散環境におけるモデルフリーベースラインおよびモデルベースベースラインと比較して,統計的に有意な性能向上を示す。
さらに、SPOの探索の並列性により、ハードウェアアクセラレータの有効活用が可能となり、好ましいスケーリング法則が得られる。
Leveraging planning during learning and decision-making is central to the long-term development of intelligent agents. Recent works have successfully combined tree-based search methods and self-play learning mechanisms to this end. However, these methods typically face scaling challenges due to the sequential nature of their search. While practical engineering solutions can partly overcome this, they often result in a negative impact on performance. In this paper, we introduce SPO: Sequential Monte Carlo Policy Optimisation, a model-based reinforcement learning algorithm grounded within the Expectation Maximisation (EM) framework. We show that SPO provides robust policy improvement and efficient scaling properties. The sample-based search makes it directly applicable to both discrete and continuous action spaces without modifications. We demonstrate statistically significant improvements in performance relative to model-free and model-based baselines across both continuous and discrete environments. Furthermore, the parallel nature of SPO's search enables effective utilisation of hardware accelerators, yielding favourable scaling laws. | 翻訳日:2024-07-10 02:38:52 公開日:2024-07-07 |
# 時空拡散橋
Space-Time Diffusion Bridge ( http://arxiv.org/abs/2402.08847v2 ) ライセンス: Link先を確認 | Hamidreza Behjoo, Michael Chertkov, | (参考訳) 本研究では,高次元実数値確率分布から独立かつ同一に分布する新しい合成サンプルを生成する手法を提案する。
我々の手法の中心は時空間次元にまたがる時空間混合戦略の統合である。
提案手法は,GTサンプルで表される対象分布への抽出容易な初期確率分布から最適輸送を実現するために設計された3つの相互関係確率過程に基礎を置いている。
a) ガウス条件確率密度をもたらす時空混合を含む線形過程。
b) 初期状態ベクトルと最終状態ベクトルに条件付けられた拡散ブリッジアナログ、及び
(c) スコアマッチング技術により非線形確率過程が洗練される。
トレーニング体制の要点は、非線形モデルや、潜在的に線形モデルを微調整して、GTデータと密接に一致させることです。
数値実験による時空拡散手法の有効性を検証し,より広範な将来理論と実験の基盤を築き,この手法を完全に認証し,特により効率的な(おそらくシミュレーション不要な)推論を提供する。
In this study, we introduce a novel method for generating new synthetic samples that are independent and identically distributed (i.i.d.) from high-dimensional real-valued probability distributions, as defined implicitly by a set of Ground Truth (GT) samples. Central to our method is the integration of space-time mixing strategies that extend across temporal and spatial dimensions. Our methodology is underpinned by three interrelated stochastic processes designed to enable optimal transport from an easily tractable initial probability distribution to the target distribution represented by the GT samples: (a) linear processes incorporating space-time mixing that yield Gaussian conditional probability densities, (b) their diffusion bridge analogs that are conditioned to the initial and final state vectors, and (c) nonlinear stochastic processes refined through score-matching techniques. The crux of our training regime involves fine-tuning the nonlinear model, and potentially the linear models -- to align closely with the GT data. We validate the efficacy of our space-time diffusion approach with numerical experiments, laying the groundwork for more extensive future theory and experiments to fully authenticate the method, particularly providing a more efficient (possibly simulation-free) inference. | 翻訳日:2024-07-10 02:38:52 公開日:2024-07-07 |
# セパレータはチェーン・オブ・サート・プロンプティングを改善できるか?
Can Separators Improve Chain-of-Thought Prompting? ( http://arxiv.org/abs/2402.10645v2 ) ライセンス: Link先を確認 | Yoonjeong Park, Hyunjin Kim, Chanyeol Choi, Junseong Kim, Jy-yong Sohn, | (参考訳) CoTプロンプトは、大規模言語モデル(LLM)の推論能力を改善するためのシンプルで効果的な方法である。
CoTの基本的な考え方は、LLMが入力プロンプトに模範を配置することで、思考プロセスを段階的に分解できるようにすることである。
しかし、CoTの密に構造化されたプロンプト例は、LLMの認知的過負荷を引き起こす可能性がある。
人間の認知にインスパイアされたCOT-SEP(COT-SEP)は,CoTプロンプトにおける各指数の最後にセパレータを戦略的に採用する手法である。
これらのセパレータは、LLMが推論しながら思考プロセスをよりよく理解できるように設計されている。
興味深いことに、COT-SEPは、セパレータを使用しないバニラCoTと比較して、複雑な推論タスク(例えば、GSM8K、AQuA、CSQA)におけるLCMのパフォーマンスを著しく改善している。
また, GPT-3.5-Turbo, GPT-4, LLaMA-2 7B を含む複数の LLM 上で試験したセパレータのタイプおよび位置の影響についても検討した。
Chain-of-thought (CoT) prompting is a simple and effective method for improving the reasoning capabilities of Large Language Models (LLMs). The basic idea of CoT is to let LLMs break down their thought processes step-by-step by putting exemplars in the input prompt. However, the densely structured prompt exemplars of CoT may cause the cognitive overload of LLMs. Inspired by human cognition, we introduce COT-SEP, a method that strategically employs separators at the end of each exemplar in CoT prompting. These separators are designed to help the LLMs understand their thought processes better while reasoning. Interestingly, it turns out that COT-SEP significantly improves the LLMs' performances on complex reasoning tasks (e.g., GSM8K, AQuA, CSQA), compared with the vanilla CoT, which does not use separators. We also study the effects of the type and the location of separators tested on multiple LLMs, including GPT-3.5-Turbo, GPT-4, and LLaMA-2 7B. | 翻訳日:2024-07-10 02:38:52 公開日:2024-07-07 |
# 安全なテキスト・画像生成のためのユニバーサルプロンプト最適化
Universal Prompt Optimizer for Safe Text-to-Image Generation ( http://arxiv.org/abs/2402.10882v4 ) ライセンス: Link先を確認 | Zongyu Wu, Hongcheng Gao, Yueze Wang, Xiang Zhang, Suhang Wang, | (参考訳) テキスト・ツー・イメージ(T2I)モデルは,テキスト・プロンプトに基づく画像生成において優れた性能を示した。
しかし、これらのモデルは、性的、ハラスメント、違法な活動的画像などの安全でないコンテンツを生成するために、安全でない入力に対して脆弱である。
画像チェッカー、モデルファインチューニング、埋め込みブロッキングに基づく既存の研究は、現実のアプリケーションでは実用的ではない。
そこで我々は,ブラックボックスシナリオにおける安全なT2I(POSI)生成のための最初のユニバーサルプロンプトオプティマイザを提案する。
まず, GPT-3.5 Turbo による毒性クリーンプロンプトペアからなるデータセットを構築した。
情報保存中に有害なプロンプトをクリーンなプロンプトに変換する能力を持つよう、我々は、生成した画像の毒性とテキストアライメントを測定する新しい報酬関数を設計し、プロキシポリシー最適化を通じてオプティマイザを訓練する。
実験により,テキストアライメントに大きな影響を及ぼすことなく,不適切な画像を生成する場合の様々なT2Iモデルの有効性を効果的に低減できることが示された。
また、より良いパフォーマンスを達成するためにメソッドと組み合わせることも柔軟です。
私たちのコードはhttps://github.com/wzongyu/POSI.comで利用可能です。
Text-to-Image (T2I) models have shown great performance in generating images based on textual prompts. However, these models are vulnerable to unsafe input to generate unsafe content like sexual, harassment and illegal-activity images. Existing studies based on image checker, model fine-tuning and embedding blocking are impractical in real-world applications. Hence, we propose the first universal prompt optimizer for safe T2I (POSI) generation in black-box scenario. We first construct a dataset consisting of toxic-clean prompt pairs by GPT-3.5 Turbo. To guide the optimizer to have the ability of converting toxic prompt to clean prompt while preserving semantic information, we design a novel reward function measuring toxicity and text alignment of generated images and train the optimizer through Proximal Policy Optimization. Experiments show that our approach can effectively reduce the likelihood of various T2I models in generating inappropriate images, with no significant impact on text alignment. It is also flexible to be combined with methods to achieve better performance. Our code is available at https://github.com/wzongyu/POSI. | 翻訳日:2024-07-10 02:38:52 公開日:2024-07-07 |
# PEDANTS (Precise Evaluations of Diverse Answer Nominee Text for Skinflints):オープンドメイン質問応答のための効率的な評価分析とベンチマーク
PEDANTS (Precise Evaluations of Diverse Answer Nominee Text for Skinflints): Efficient Evaluation Analysis and Benchmarking for Open-Domain Question Answering ( http://arxiv.org/abs/2402.11161v2 ) ライセンス: Link先を確認 | Zongxia Li, Ishani Mondal, Yijun Liang, Huy Nghiem, Jordan Lee Boyd-Graber, | (参考訳) 質問応答(QA)は、答えが正しいかどうかを知る場合にのみ進行するが、最も困難で興味深いQAの例では、現在の効率的な回答正当性(AC)メトリクスは、人間の判断、特に大きな言語モデル(LLM)からの冗長で自由な回答と一致しない。
多様な評価データの欠如と、モデルが大きすぎて透明ではないこと、LLMベースのスコアラが人間とよりよく相関していること、この高価なタスクは限定的なQAデータセットでのみテストされていること、の2つの課題がある。
我々は、人間のQAコミュニティから採用されているマシンQAを評価するためのガイドラインとデータセットを提供することで、これらの問題を是正する。
また、正確なマッチングやニューラル手法よりも、より効率的で、低リソースで、解釈可能なQA評価手法を提案する。
Question answering (QA) can only make progress if we know if an answer is correct, but for many of the most challenging and interesting QA examples, current efficient answer correctness (AC) metrics do not align with human judgments, particularly verbose, free-form answers from large language models (LLMs). There are two challenges: a lack of diverse evaluation data and that models are too big and non-transparent; LLM-based scorers correlate better with humans, but this expensive task has only been tested on limited QA datasets. We rectify these issues by providing guidelines and datasets for evaluating machine QA adopted from human QA community. We also propose an efficient, low-resource, and interpretable QA evaluation method more stable than an exact match and neural methods. | 翻訳日:2024-07-10 02:38:52 公開日:2024-07-07 |
# ダイナミックゲームにおけるデータ駆動プライオリティのブレンディング
Blending Data-Driven Priors in Dynamic Games ( http://arxiv.org/abs/2402.14174v3 ) ライセンス: Link先を確認 | Justin Lidard, Haimin Hu, Asher Hancock, Zixu Zhang, Albert Gimó Contreras, Vikash Modi, Jonathan DeCastro, Deepak Gopinath, Guy Rosman, Naomi Ehrich Leonard, María Santos, Jaime Fernández Fisac, | (参考訳) 自動運転車のようなインテリジェントなロボットが、人間の存在下でますます普及していく中、これらのシステムがモデルベースのゲーム理論プランナーと、安全で対話を意識したモーションプランニングのためのデータ駆動のポリシーをどの程度活用すべきかは、未解決の問題のままだ。
既存の動的ゲーム定式化は、全てのエージェントがタスク駆動であり、最適に振る舞うと仮定する。
しかし、実際には、人間はこれらのモデルによって規定される決定から逸脱しがちであり、その振る舞いはノイズレーショナルなパラダイムの下でよりよく近似される。
本研究では,データ駆動型参照ポリシーと最適化型ゲーム理論ポリシーを融合する原理的手法について検討する。
KLGameはKllback-Leibler (KL) 正規化による非協調的ダイナミックゲームの解法である。
本手法は,各意思決定者に対して,タスク駆動行動とデータ駆動行動の変調を許容する調整可能なパラメータを組み込む。
我々は,KLGameのNash平衡戦略を,マルチモーダル近似フィードバックをリアルタイムに計算するための効率的なアルゴリズムを提案する。
シミュレーションおよび実世界の自律運転シナリオを通じて、KLGameポリシーは基準ポリシーからのガイダンスをより効果的に取り入れ、非正規化ベースラインよりもノイズの多い人間の振る舞いを説明できることを示した。
追加情報、ビデオ、コードを含むウェブサイト:https://kl-games.github.io/
As intelligent robots like autonomous vehicles become increasingly deployed in the presence of people, the extent to which these systems should leverage model-based game-theoretic planners versus data-driven policies for safe, interaction-aware motion planning remains an open question. Existing dynamic game formulations assume all agents are task-driven and behave optimally. However, in reality, humans tend to deviate from the decisions prescribed by these models, and their behavior is better approximated under a noisy-rational paradigm. In this work, we investigate a principled methodology to blend a data-driven reference policy with an optimization-based game-theoretic policy. We formulate KLGame, an algorithm for solving non-cooperative dynamic game with Kullback-Leibler (KL) regularization with respect to a general, stochastic, and possibly multi-modal reference policy. Our method incorporates, for each decision maker, a tunable parameter that permits modulation between task-driven and data-driven behaviors. We propose an efficient algorithm for computing multi-modal approximate feedback Nash equilibrium strategies of KLGame in real time. Through a series of simulated and real-world autonomous driving scenarios, we demonstrate that KLGame policies can more effectively incorporate guidance from the reference policy and account for noisily-rational human behaviors versus non-regularized baselines. Website with additional information, videos, and code: https://kl-games.github.io/. | 翻訳日:2024-07-10 02:38:52 公開日:2024-07-07 |
# オープンセットアノテーションのための双方向不確実性に基づくアクティブラーニング
Bidirectional Uncertainty-Based Active Learning for Open Set Annotation ( http://arxiv.org/abs/2402.15198v2 ) ライセンス: Link先を確認 | Chen-Chen Zong, Ye-Wen Wang, Kun-Peng Ning, Hai-Bo Ye, Sheng-Jun Huang, | (参考訳) オープンセットシナリオにおけるアクティブラーニング(AL)は、既知のクラスと未知のクラスの両方のデータを含むラベルのないデータプールにおいて、最も価値のある例を特定するという、新たな課題を示す。
従来の手法では、信頼度が低い情報的事例を選択することを優先しており、同様に信頼度が低い未知の事例を誤って選択する危険性がある。
近年の手法は、単純な習得済みの例を選ぶリスクを伴って、最も可能性の高い既知の例を好んでいる。
本稿では,既知のクラスと高い情報を持つ可能性のあるサンプルを問合せし,双方向不確実性に基づくアクティブラーニング(BUAL)フレームワークを提案する。
具体的には、まず未知のクラス例を高い信頼度予測のある領域、すなわち提案したランダムラベル否定学習手法にプッシュすることで、これを実現する。
そこで我々は,正と負の両方の学習によって生じる不確実性を共同で推定し,一貫した,安定したサンプリングを行う双方向不確実性サンプリング戦略を提案する。
BUALは既存の不確実性ベースのALメソッドを複雑なオープンセットシナリオに拡張することに成功した。
さまざまなオープン性を持つ複数のデータセットに対する大規模な実験は、BUALが最先端のパフォーマンスを達成することを示す。
コードはhttps://github.com/chenchenzong/BUAL.comで公開されている。
Active learning (AL) in open set scenarios presents a novel challenge of identifying the most valuable examples in an unlabeled data pool that comprises data from both known and unknown classes. Traditional methods prioritize selecting informative examples with low confidence, with the risk of mistakenly selecting unknown-class examples with similarly low confidence. Recent methods favor the most probable known-class examples, with the risk of picking simple already mastered examples. In this paper, we attempt to query examples that are both likely from known classes and highly informative, and propose a Bidirectional Uncertainty-based Active Learning (BUAL) framework. Specifically, we achieve this by first pushing the unknown class examples toward regions with high-confidence predictions, i.e., the proposed Random Label Negative Learning method. Then, we propose a Bidirectional Uncertainty sampling strategy by jointly estimating uncertainty posed by both positive and negative learning to perform consistent and stable sampling. BUAL successfully extends existing uncertainty-based AL methods to complex open-set scenarios. Extensive experiments on multiple datasets with varying openness demonstrate that BUAL achieves state-of-the-art performance. The code is available at https://github.com/chenchenzong/BUAL. | 翻訳日:2024-07-10 02:29:06 公開日:2024-07-07 |
# 協調ゲーム理論を用いたオープンアドホックワーク
Open Ad Hoc Teamwork with Cooperative Game Theory ( http://arxiv.org/abs/2402.15259v5 ) ライセンス: Link先を確認 | Jianhong Wang, Yang Li, Yuan Zhang, Wei Pan, Samuel Kaski, | (参考訳) アドホックなチームワークは、事前の調整や共同トレーニングなしに、チームメイトと協力するエージェントの設計を必要とする、困難な問題を引き起こします。
オープンアドホックチームワーク(OAHT)は、オープンチームと呼ばれるチームメイトの数が増える環境を考えることで、この課題をさらに複雑にします。
この問題に対する現実的な解決策の1つは、グラフニューラルネットワークの一般化性を活用して、さまざまなエージェントタイプを持つ制限されていないエージェントの数を処理し、グラフベースのポリシー学習(GPL)と呼ぶ。
しかし、協調グラフ上の共同Q値表現は説得力のある説明を欠いている。
本稿では,協調ゲーム理論のレンズを通して,OAHTの合同Q値とその学習パラダイムの表現を理解するための新たな理論を確立する。
本理論に基づいて,GPL フレームワークに基づく新しいアルゴリズム CIAO を提案する。
実験結果のデモはhttps://sites.google.com/view/ciao2024で公開されており、実験のコードはhttps://github.com/hsvgbgbv/CIAOで公開されている。
Ad hoc teamwork poses a challenging problem, requiring the design of an agent to collaborate with teammates without prior coordination or joint training. Open ad hoc teamwork (OAHT) further complicates this challenge by considering environments with a changing number of teammates, referred to as open teams. One promising solution in practice to this problem is leveraging the generalizability of graph neural networks to handle an unrestricted number of agents with various agent-types, named graph-based policy learning (GPL). However, its joint Q-value representation over a coordination graph lacks convincing explanations. In this paper, we establish a new theory to understand the representation of the joint Q-value for OAHT and its learning paradigm, through the lens of cooperative game theory. Building on our theory, we propose a novel algorithm named CIAO, based on GPL's framework, with additional provable implementation tricks that can facilitate learning. The demos of experimental results are available on https://sites.google.com/view/ciao2024, and the code of experiments is published on https://github.com/hsvgbkhgbv/CIAO. | 翻訳日:2024-07-10 02:29:06 公開日:2024-07-07 |
# m2mKD:モジュールからモジュールへの知識蒸留
m2mKD: Module-to-Module Knowledge Distillation for Modular Transformers ( http://arxiv.org/abs/2402.16918v3 ) ライセンス: Link先を確認 | Ka Man Lo, Yiming Liang, Wenyu Du, Yuantao Fan, Zili Wang, Wenhao Huang, Lei Ma, Jie Fu, | (参考訳) モジュラニューラルアーキテクチャは、その強力な一般化と新しいドメインへの効率的な適応によって注目を集めている。
しかし、これらのモデルのトレーニングは、本質的な疎結合に起因する最適化の難しさにより、課題を生んでいる。
知識蒸留のような技術を通じてモノリシックなモデルから知識を活用することは、訓練を促進し、多様な知識の統合を可能にする。
それでも、従来の知識蒸留手法はモジュラーモデルに適合せず、ユニークなアーキテクチャと膨大なパラメータ数に苦しむ。
これらの課題に乗じて,モジュール間知識伝達のためのモジュール間知識蒸留(m2mKD)を提案する。
m2mKDは、事前訓練されたモノリシックモデルの教師モジュールと、モジュールモデルの学生モジュールをそれぞれ共有メタモデルと組み合わせ、教師モジュールの振る舞いを模倣するように学生モジュールを奨励する。
ニューラルネットワーク(NAC)とVision Mixture-of-Experts(V-MoE)の2つのモジュール型ニューラルネットワーク上でm2mKDを評価する。
m2mKDをNACに適用すると、Tiny-ImageNetのID精度(最大5.6%)とTiny-ImageNet-RのOOD堅牢性(最大4.2%)が大幅に向上する。
さらに、m2mKDでトレーニングされたV-MoE-Baseモデルは、ImageNet-1kのエンドツーエンドトレーニングよりも3.5%高い精度を実現している。
コードはhttps://github.com/kamanphoebe/m2mKDで入手できる。
Modular neural architectures are gaining attention for their powerful generalization and efficient adaptation to new domains. However, training these models poses challenges due to optimization difficulties arising from intrinsic sparse connectivity. Leveraging knowledge from monolithic models through techniques like knowledge distillation can facilitate training and enable integration of diverse knowledge. Nevertheless, conventional knowledge distillation approaches are not tailored to modular models and struggle with unique architectures and enormous parameter counts. Motivated by these challenges, we propose module-to-module knowledge distillation (m2mKD) for transferring knowledge between modules. m2mKD combines teacher modules of a pretrained monolithic model and student modules of a modular model with a shared meta model respectively to encourage the student module to mimic the behaviour of the teacher module. We evaluate m2mKD on two modular neural architectures: Neural Attentive Circuits (NACs) and Vision Mixture-of-Experts (V-MoE). Applying m2mKD to NACs yields significant improvements in IID accuracy on Tiny-ImageNet (up to 5.6%) and OOD robustness on Tiny-ImageNet-R (up to 4.2%). Additionally, the V-MoE-Base model trained with m2mKD achieves 3.5% higher accuracy than end-to-end training on ImageNet-1k. Code is available at https://github.com/kamanphoebe/m2mKD. | 翻訳日:2024-07-10 02:29:06 公開日:2024-07-07 |
# $SU(\infty)$量子重力(SU(\infty)$-QGR)における場の量子状態
Quantum state of fields in $SU(\infty)$ Quantum Gravity ($SU(\infty)$-QGR) ( http://arxiv.org/abs/2402.18237v2 ) ライセンス: Link先を確認 | Houri Ziaeepour, | (参考訳) 我々の宇宙は量子力学によって支配されており、量子システムとして扱われるべきである。
{$SU(\infty)$-QGR は、最近提案された宇宙の量子モデルであり、重力はそのヒルベルト空間の$SU(\infty)$対称性と関連付けられている。
ランダムな量子ゆらぎによる無限次元状態のクラスタリング/ブロッキングは、宇宙をほぼ孤立したサブシステムに分割する。
それらの内部的な有限階数対称性のパラメータに加えて、サブシステムの状態とダイナミクスは4つの連続的なパラメータによって特徴づけられ、知覚される古典時空はそれらの有効表現であり、サブシステムの量子状態とその相対進化を反映している。
最低次において、=SU(\infty)$-QGR の有効ラグランジアンは、上記の 4D パラメータ空間上で定義された内部対称性と$SU(\infty)$-重力のヤン・ミルズゲージ理論の形式を持つ。
本研究では、より徹底的に {SU(\infty)$-QGR の基本的側面について研究する。
具体的には、$\mathcal{SU}(\infty)$の縮退の影響を明らかにし、サブシステムの混合状態とその浄化を記述し、それらの宇宙への絡み合いを計算し、局所ゲージ対称性の出現におけるそれらの役割について議論する。
また、$SU(\infty)$ Yang-Mills のいわゆる「内部空間」と 4次元パラメータ空間の関係を記述し、物理的可観測空間のパラメータ空間の幾何が無関係であるかを解析的に示す。
これらの話題とともに、量子システムの合成性に関する2つの基準の等価性を示し、$\mathcal{SU}(\infty)$に導く様々な代数の極限の特異性を示す。
Our Universe is ruled by quantum mechanics and should be treated as a quantum system. {$SU(\infty)$-QGR is a recently proposed quantum model for the Universe, in which gravity is associated to $SU(\infty)$ symmetry of its Hilbert space. Clustering/blockization of its infinite dimensional state due to random quantum fluctuations divides the Universe to approximately isolated subsystems. In addition to parameters of their {\it internal} finite rank symmetries, states and dynamics of subsystems are characterized by 4 continuous parameters, and the perceived classical spacetime is their effective representation, reflecting quantum states of subsystems and their relative evolution. At lowest order the effective Lagrangian of {$SU(\infty)$-QGR has the form of Yang-Mills gauge theories for both $SU(\infty)$ - gravity - and internal symmetries defined on the aforementioned 4D parameter space. In the present work we study more thoroughly some of the fundamental aspects of {$SU(\infty)$-QGR. Specifically, we clarify impact of the degeneracy of $\mathcal{SU}(\infty)$; describe mixed states of subsystems and their purification; calculate measures of their entanglement to the rest of the Universe; and discuss their role in the emergence of local gauge symmetries. We also describe the relationship between what is called {\it internal space} of $SU(\infty)$ Yang-Mills with the 4D parameter space, and analytically demonstrate irrelevance of the geometry of parameter space for physical observables. Along with these topics, we demonstrate the equivalence of two sets of criteria for compositeness of a quantum system, and show uniqueness of the limit of various algebras leading to $\mathcal{SU}(\infty)$. | 翻訳日:2024-07-10 02:29:06 公開日:2024-07-07 |
# DECIDER: 言語生成のためのデュアルシステムルール制御可能なデコードフレームワーク
DECIDER: A Dual-System Rule-Controllable Decoding Framework for Language Generation ( http://arxiv.org/abs/2403.01954v3 ) ライセンス: Link先を確認 | Chen Xu, Tian Lan, Changlong Yu, Wei Wang, Jun Gao, Yu Ji, Qunxi Dong, Kun Qian, Piji Li, Wei Bi, Bin Hu, | (参考訳) 制約付き復号法は,事前学習言語モデル(PLM)が生成するテキストの意味やスタイルを,推論中に特定のターゲット語を用いて制御することを目的としている。
しかし,これらの手法は,課題を完了しながら,人間の言語生成の自然なパターンを乱すおそれのある目標の選択によって,もっともらしい継続を導くことがしばしばある。
本研究では, PLM を制御するためのタスクの完了方法に関するルールをプログラムできる新しいデコードフレームワーク DECIDER を提案する。
従来の研究と異なり,我々の枠組みは,対象単語の奨励をルールを満たすすべての単語の奨励に変換する。
具体的には、PLMがルールを表現および評価するための第一次論理(FOL)推論器と、両方のシステムからの出力をマージして生成を操る決定関数を備えた二重システムである。
CommonGenとPersonaChatの実験は、DECDERが与えられたルールを効果的に従って、より人間的な方法で生成タスクを達成できることを実証している。
Constrained decoding approaches aim to control the meaning or style of text generated by a Pre-trained Language Model (PLM) using specific target words during inference. However, these methods often guide plausible continuations by greedily selecting targets, which, while completing the task, may disrupt the natural patterns of human language generation. In this work, we propose a novel decoding framework, DECIDER, which enables us to program rules on how we complete tasks to control a PLM. Differing from previous work, our framework transforms the encouragement of target words into the encouragement of all words that satisfy the rule. Specifically, DECIDER is a dual system where a PLM is equipped with a First-OrderLogic (FOL) reasoner to express and evaluate the rules, and a decision function to merge the outputs from both systems to steer the generation. Experiments on CommonGen and PersonaChat demonstrate that DECIDER can effectively follow given rules to achieve generation tasks in a more human-like manner. | 翻訳日:2024-07-10 02:29:06 公開日:2024-07-07 |
# JAX-SPH: 微分可能な平滑な粒子流体力学フレームワーク
JAX-SPH: A Differentiable Smoothed Particle Hydrodynamics Framework ( http://arxiv.org/abs/2403.04750v2 ) ライセンス: Link先を確認 | Artur P. Toshev, Harish Ramachandran, Jonas A. Erbesdobler, Gianluca Galletti, Johannes Brandstetter, Nikolaus A. Adams, | (参考訳) 粒子に基づく流体シミュレーションは、特に複雑な物理学や自由表面を含む場合において、ナビエ・ストークス方程式を解く強力なツールとして登場した。
このような問題を解決するためのツールボックスに機械学習手法が最近追加されたことは、そのような数値シミュレーションの品質と速度のトレードオフの境界を押し広げている。
本研究では, 深層学習フレームワークと互換性のあるラグランジアン流体シミュレータへの道のりを導き, JAX で実装された Smoothed Particle Hydrodynamics (SPH) フレームワーク JAX-SPH を提案する。
JAX-SPHは、LagrangeBenchプロジェクト(Toshev et al , 2023)からデータセット生成のためのコードに基づいて構築され、複数の方法でこのコードを拡張する。
(a)さらに重要なSPHアルゴリズムの統合。
b) Pythonパッケージへのコード再構成。
(c)解答器による勾配の検証、及び
(d) 逆問題およびSolver-in-the-Loop アプリケーションに対する勾配の有用性の実証。
私たちのコードはhttps://github.com/tumaer/jax-sph.comから入手可能です。
Particle-based fluid simulations have emerged as a powerful tool for solving the Navier-Stokes equations, especially in cases that include intricate physics and free surfaces. The recent addition of machine learning methods to the toolbox for solving such problems is pushing the boundary of the quality vs. speed tradeoff of such numerical simulations. In this work, we lead the way to Lagrangian fluid simulators compatible with deep learning frameworks, and propose JAX-SPH - a Smoothed Particle Hydrodynamics (SPH) framework implemented in JAX. JAX-SPH builds on the code for dataset generation from the LagrangeBench project (Toshev et al., 2023) and extends this code in multiple ways: (a) integration of further key SPH algorithms, (b) restructuring the code toward a Python package, (c) verification of the gradients through the solver, and (d) demonstration of the utility of the gradients for solving inverse problems as well as a Solver-in-the-Loop application. Our code is available at https://github.com/tumaer/jax-sph. | 翻訳日:2024-07-10 02:19:20 公開日:2024-07-07 |
# $\textbf{S}^2$IP-LLM: 時系列予測のためのLLMを用いた意味空間インフォームドプロンプト学習
$\textbf{S}^2$IP-LLM: Semantic Space Informed Prompt Learning with LLM for Time Series Forecasting ( http://arxiv.org/abs/2403.05798v2 ) ライセンス: Link先を確認 | Zijie Pan, Yushan Jiang, Sahil Garg, Anderson Schneider, Yuriy Nevmyvaka, Dongjin Song, | (参考訳) 近年,様々な時系列アプリケーションに事前学習された大規模言語モデル(LLM)を活用することへの関心が高まっている。
しかし、事前学習を通じて確立されたLLMの意味空間はいまだ未熟であり、時系列予測を促進するためにより独特で情報的な表現を得るのに役立つかもしれない。
そこで本研究では,LLM(S^2$IP-LLM)を用いたSemantic Space Informed Prompt Learningを提案する。
まず、時間的ダイナミクスを効果的にエンコードする埋め込みを生成するために、分解された時系列コンポーネントのパッチを明示的に結合した、相互モダリティアライメントに適したトークン化モジュールを設計する。
次に,事前学習した単語トークンの埋め込みを利用して意味的アンカーを導出し,結合空間におけるコサイン類似性を最大化することにより,選択したアンカーを時系列埋め込みと整合させる。
これにより、$S^2$IP-LLMは関連するセマンティックアンカーを検索し、異なる時間的ダイナミクスを示す時系列に対して強いインジケータ(コンテキスト)を提供する。
複数のベンチマークデータセットに関する詳細な実証研究により、提案した$S^2$IP-LLMは、最先端のベースラインよりも優れた予測性能が得られることを示した。
さらに,我々のアブレーション研究と可視化は,意味空間から情報を得た迅速な学習の必要性を検証している。
Recently, there has been a growing interest in leveraging pre-trained large language models (LLMs) for various time series applications. However, the semantic space of LLMs, established through the pre-training, is still underexplored and may help yield more distinctive and informative representations to facilitate time series forecasting. To this end, we propose Semantic Space Informed Prompt learning with LLM ($S^2$IP-LLM) to align the pre-trained semantic space with time series embeddings space and perform time series forecasting based on learned prompts from the joint space. We first design a tokenization module tailored for cross-modality alignment, which explicitly concatenates patches of decomposed time series components to create embeddings that effectively encode the temporal dynamics. Next, we leverage the pre-trained word token embeddings to derive semantic anchors and align selected anchors with time series embeddings by maximizing the cosine similarity in the joint space. This way, $S^2$IP-LLM can retrieve relevant semantic anchors as prompts to provide strong indicators (context) for time series that exhibit different temporal dynamics. With thorough empirical studies on multiple benchmark datasets, we demonstrate that the proposed $S^2$IP-LLM can achieve superior forecasting performance over state-of-the-art baselines. Furthermore, our ablation studies and visualizations verify the necessity of prompt learning informed by semantic space. | 翻訳日:2024-07-10 02:19:20 公開日:2024-07-07 |
# ホモジン測定による確率量子ダイナミクスの状態推定と制御:不確かさ下での量子ビットの安定化
State Estimation and Control for Stochastic Quantum Dynamics with Homodyne Measurement: Stabilizing Qubits under Uncertainty ( http://arxiv.org/abs/2403.07021v3 ) ライセンス: Link先を確認 | Nahid Binandeh Dehaghani, A. Pedro Aguiar, Rafal Wisniewski, | (参考訳) 本稿では, ホモダイン測定を用いたリアプノフに基づく制御手法を提案する。
2つのフィルタリング手法について研究する。
i) 従来の量子フィルタリングと
(ii)拡張カルマンフィルタの修正版。
本研究では, 連続ホモダイン電流測定を用いて, コヒーレンスベクトル要素の進化を直接推定する手法について検討する。
後者の場合、相関ノイズを持つ確率的マスター方程式の力学を明示的に扱い、状態空間表現に変換し、推定状態変数の量子的性質を構築する。
さらに、量子力学ハミルトニアンが未知の場合を考察し、不確かさを経験する。
本稿では,両フィルタが性能を低下させ,予測誤差が大きいことを示す。
この問題に対処するために,研究対象のフィルタに直接適用可能な簡易な多重モデル推定手法を提案する。
次に、推定密度作用素 \( \hat{\rho} \) を再構成し、システムの完全な状態を記述する。
提案したスイッチングベースのリアプノフ制御スキームは, 推定誤差の分散に関して, 所望の定常目標セットの確率において, ノイズ・ツー・ステートを実質的に安定的に保証する。
共振周波数の不確実性の存在下でのホモダイン検出において, 漏洩キャビティに結合したキュービットを安定化させる方法の有効性を実証した。
This paper introduces a Lyapunov-based control approach with homodyne measurement. We study two filtering approaches: (i) the traditional quantum filtering and (ii) a modified version of the extended Kalman filtering. We examine both methods in order to directly estimate the evolution of the coherence vector elements, using sequential homodyne current measurements. The latter case explicitly addresses the dynamics of a stochastic master equation with correlated noise, transformed into a state-space representation, ensuring by construction the quantum properties of the estimated state variable. In addition, we consider the case where the quantum-mechanical Hamiltonian is unknown, and the system experiences uncertainties. In this case, we show as expected that both filters lose performance, exhibiting large expected estimation errors. To address this problem, we propose a simple multiple model estimation scheme that can be directly applied to any of the studied filters. We then reconstruct the estimated density operator \( \hat{\rho} \), describing the full state of the system, and subject it to a control scheme. The proposed switching-based Lyapunov control scheme, which is fed with \( \hat{\rho} \), guarantees noise-to-state practically stable in probability of the desired stationary target set with respect to the estimation error variance. We demonstrate our approach's efficacy in stabilizing a qubit coupled to a leaky cavity under homodyne detection in the presence of uncertainty in resonance frequency. | 翻訳日:2024-07-10 02:19:20 公開日:2024-07-07 |
# SMART:インストラクションチューニングのためのサブモジュールデータ混合戦略
SMART: Submodular Data Mixture Strategy for Instruction Tuning ( http://arxiv.org/abs/2403.08370v2 ) ライセンス: Link先を確認 | H S V N S Kowndinya Renduchintala, Sumit Bhatia, Ganesh Ramakrishnan, | (参考訳) インストラクションチューニングは、予測できないタスクへのモデルの一般化性を高めるために、命令形式データセットの集合上の言語モデルを微調整する。
研究では、微調整中に異なるタスク比率のバランスをとることの重要性が示されているが、適切なバランスを見つけることは依然として困難である。
残念ながら、現在手作業のチューニングや実践者の直感に頼るような体系的な方法はありません。
本稿では,SMART(Submodular Data Mixture strAtegy for InstRuction Tuning)について紹介する。
微調整の予算が与えられると、SMARTはタスク間で予算を再分配し、各タスクから非冗長サンプルを選択する。
実験の結果,SMARTは比例混合や等混合など従来の手法よりも有意に優れていた。
さらに,SMARTは,タスクの代表的なサブセットのみに基づくデータミックスの作成を容易にし,タスクプルーニング分析を通じて,限られた予算設定において,代表タスクのサブセットに予算を割り当てることで,すべてのタスクに予算を分配するよりも優れたパフォーマンスが得られることを明らかにした。
結果の再現コードはhttps://github.com/kowndinya-renduchintala/SMART.comで公開されている。
Instruction Tuning involves finetuning a language model on a collection of instruction-formatted datasets in order to enhance the generalizability of the model to unseen tasks. Studies have shown the importance of balancing different task proportions during finetuning, but finding the right balance remains challenging. Unfortunately, there's currently no systematic method beyond manual tuning or relying on practitioners' intuition. In this paper, we introduce SMART (Submodular data Mixture strAtegy for instRuction Tuning) - a novel data mixture strategy which makes use of a submodular function to assign importance scores to tasks which are then used to determine the mixture weights. Given a fine-tuning budget, SMART redistributes the budget among tasks and selects non-redundant samples from each task. Experimental results demonstrate that SMART significantly outperforms traditional methods such as examples proportional mixing and equal mixing. Furthermore, SMART facilitates the creation of data mixtures based on a few representative subsets of tasks alone and through task pruning analysis, we reveal that in a limited budget setting, allocating budget among a subset of representative tasks yields superior performance compared to distributing the budget among all tasks. The code for reproducing our results is open-sourced at https://github.com/kowndinya-renduchintala/SMART. | 翻訳日:2024-07-10 02:19:20 公開日:2024-07-07 |
# ハイブリッド・プロパゲーションによるオフボード運転改善
Offboard Occupancy Refinement with Hybrid Propagation for Autonomous Driving ( http://arxiv.org/abs/2403.08504v3 ) ライセンス: Link先を確認 | Hao Shi, Song Wang, Jiaming Zhang, Xiaoting Yin, Zhongdao Wang, Guangming Wang, Jianke Zhu, Kailun Yang, Kaiwei Wang, | (参考訳) 3Dセマンティックシーンコンプリート(3D Semantic Scene Completion, SSC)は、コンピュータビジョンにおいて重要な課題である。
従来の手法は、オンボード処理に限られており、同時幾何的および意味的推定、様々な視点における連続性、単一視点の排他性に苦慮していた。
OccFinerは,視覚による占有率予測の精度を高めるために設計された,新しいオフボードフレームワークである。
OccFinerは2つのハイブリッドフェーズで動作します。
1)複数の局所的フレームを暗黙的に整列処理してモデルエラーを訂正し、全距離にわたって占有精度を一貫して向上するマルチ・マルチ・ローカル・プロパゲーションネットワーク。
2) 地域中心のグローバルな伝播は, 明示的なマルチビュー幾何を用いてラベルを精細化し, センサバイアスを統合することに焦点を当てている。
大規模な実験により、OccFinerは様々な種類の粗い占有領域における幾何学的および意味論的精度を向上し、SemanticKITTIデータセットに新しい最先端のパフォーマンスを設定できることを示した。
特に、OccFinerは視覚ベースのSSCモデルをLiDARベースのSSCモデルよりも高いレベルに引き上げている。
さらに、OccFinerは、純粋に視覚に基づくアプローチでSSCの自動アノテーションを初めて達成した。
定量的実験によると、OccFinerは自動運転における占有データループ閉鎖をうまく促進している。
さらに,都市レベルのSSC静的マップにおけるオフボードアプローチの優位性を定量的かつ定性的に検証した。
ソースコードはhttps://github.com/MasterHow/OccFiner.comで公開されている。
Vision-based occupancy prediction, also known as 3D Semantic Scene Completion (SSC), presents a significant challenge in computer vision. Previous methods, confined to onboard processing, struggle with simultaneous geometric and semantic estimation, continuity across varying viewpoints, and single-view occlusion. Our paper introduces OccFiner, a novel offboard framework designed to enhance the accuracy of vision-based occupancy predictions. OccFiner operates in two hybrid phases: 1) a multi-to-multi local propagation network that implicitly aligns and processes multiple local frames for correcting onboard model errors and consistently enhancing occupancy accuracy across all distances. 2) the region-centric global propagation, focuses on refining labels using explicit multi-view geometry and integrating sensor bias, especially to increase the accuracy of distant occupied voxels. Extensive experiments demonstrate that OccFiner improves both geometric and semantic accuracy across various types of coarse occupancy, setting a new state-of-the-art performance on the SemanticKITTI dataset. Notably, OccFiner elevates vision-based SSC models to a level even surpassing that of LiDAR-based onboard SSC models. Furthermore, OccFiner is the first to achieve automatic annotation of SSC in a purely vision-based approach. Quantitative experiments prove that OccFiner successfully facilitates occupancy data loop-closure in autonomous driving. Additionally, we quantitatively and qualitatively validate the superiority of the offboard approach on city-level SSC static maps. The source code will be made publicly available at https://github.com/MasterHow/OccFiner. | 翻訳日:2024-07-10 02:19:20 公開日:2024-07-07 |
# 液体抵抗型液体キャパシタンスネットワーク
Liquid Resistance Liquid Capacitance Networks ( http://arxiv.org/abs/2403.08791v2 ) ライセンス: Link先を確認 | Mónika Farsang, Sophie A. Neubauer, Radu Grosu, | (参考訳) 本稿では, 電気等価回路 (EEC) , 液時定数ネットワーク (LTC) および飽和液時定数ネットワーク (STC) のスムーズ性, 精度, 生物学的妥当性を向上するニューラル-ODEモデルである液体抵抗型液体容量ニューラルネットワーク (LRC) を紹介する。
また、LRCユニット(LRCU)を非常に効率的かつ正確なゲート付きRNNモデルとして導入し、1つの展開だけを用いて明示的なオイラースキームでRCを解く結果を得た。
我々は,LCCの液容量がLCCとSTCの振動を著しく抑制すると同時に,安価なソルバにおいても劇的に精度を高めていることを実証し,正式に証明した。
我々は、従来の時系列ベンチマークと複雑な自律走行車線維持タスクにおいて、LRCが一般的なニューラルODEやゲートRNNの競争力の高い代替品であることを実験的に実証した。
We introduce liquid-resistance liquid-capacitance neural networks (LRCs), a neural-ODE model which considerably improves the smoothness, accuracy, and biological plausibility of electrical equivalent circuits (EECs), liquid time-constant networks (LTCs), and saturated liquid time-constant networks (STCs), respectively. We also introduce LRC units (LRCUs), as a very efficient and accurate gated RNN-model, which results from solving LRCs with an explicit Euler scheme using just one unfolding. We empirically show and formally prove that the liquid capacitance of LRCs considerably dampens the oscillations of LTCs and STCs, while at the same time dramatically increasing accuracy even for cheap solvers. We experimentally demonstrate that LRCs are a highly competitive alternative to popular neural ODEs and gated RNNs in terms of accuracy, efficiency, and interpretability, on classic time-series benchmarks and a complex autonomous-driving lane-keeping task. | 翻訳日:2024-07-10 02:19:20 公開日:2024-07-07 |
# 量子基礎への新しいアプローチといくつかの結果
A new approach towards quantum foundation and some consequences ( http://arxiv.org/abs/2403.09224v4 ) ライセンス: Link先を確認 | Inge S. Helland, | (参考訳) 6つの仮定に基づく一般的な理論が紹介される。
基本的な概念は、観測者または通信観測者のグループと関連付けられた理論変数である。
これらの変数はアクセス可能かアクセス不能である。
これらの仮定から、量子論の通常の形式主義が導かれる。
数学の導出はこの記事には書かれていないが、最近の記事[9, 10]を参照しよう。
一般理論の3つの可能な応用が与えられる。
1) 変数は,人又は人の集団の決定に関連する変数を判断することができる。
2) 変数は統計的パラメータや将来のデータかもしれない。
3)変数は、あるコンテキストにおける物理変数である。
この最後の応用は、量子力学の全く新しい基盤を与える。これは私の意見では、通常の形式論よりも理解しやすい基礎であり、他の応用もこのアプローチの興味深い結果をもたらすように思える。
Schr\"odinger's cat"のようないわゆるパラドックスは、この理論の下で解明することができる。
デービッド・ボームのEPR実験の結果とベル実験の結果について解説する。
最後に、相対論と場の量子論へのリンクへの参照が与えられる。
結論はさらなる発展を示唆している。
A general theory based upon 6 postulates is introduced. The basical notions are theoretical variables that are associated with an observer or with a group of communicating observers. These variables may be accessible or inaccessible. From these postulates, the ordinary formalism of quantum theory is derived. The mathematical derivations are not given in this article, but I refer to the recent articles [9, 10]. Three possible applications of the general theory can be given; 1) The variables may decision variables connected to the decisions of a person or of a group of persons. 2) The variables may be statistical parameters or future data, But most importantly here: 3) The variables are physical variables in some context. This last application gives a completely new foundation of quantum mechanics, a foundation which in my opinion is much more easy to understand than the ordinary formalism.The other applications seem also to give interesting consequences of the approach. Socalled paradoxes like that of Schr\"odinger's cat can be clarified under the theory. Explanations of the outcomes of David Bohm's version of the EPR experiment and of the Bell experiment are provided. Finally, references to links towards relativity theory and to quantum field theory are given. The concluding remarks point at further possible developments. | 翻訳日:2024-07-10 02:19:20 公開日:2024-07-07 |
# 医用未学習例:スポーサリティを意識した局所マスキングによる無許可トレーニングからの医療データ保護
Medical Unlearnable Examples: Securing Medical Data from Unauthorized Training via Sparsity-Aware Local Masking ( http://arxiv.org/abs/2403.10573v2 ) ライセンス: Link先を確認 | Weixiang Sun, Yixin Liu, Zhiling Yan, Kaidi Xu, Lichao Sun, | (参考訳) 医療におけるAIの急速な拡大により、医療データ生成とストレージが急増し、医療AIの開発が加速した。
しかし、商用AIモデルのトレーニングのような不正使用の恐れは、研究者が貴重なデータセットを共有することを妨げている。
データ共有を促進するために、ある有望な解決策は、データに知覚不可能なノイズを導入することである。
本手法は、訓練されたモデルの一般化能力の劣化を誘導することにより、不正なトレーニングに対してデータを保護することを目的とする。
しかし, 医用データに適用した場合, 医用画像のスパースな性質の欠如が主な原因であり, 有効かつ効率的ではない。
この問題に対処するために,従来の画像全体ではなく,重要なピクセル領域を選択的に摂動する新しい手法であるSALM法を提案する。
この単純で効果的なアプローチは、局所的な領域に焦点をあてることで、外乱の探索空間を著しく狭め、空間の性質を完全に活用する。
各種データセットおよびモデルアーキテクチャにわたる広範な実験により、SALMは、異なるモデルの不正なトレーニングを効果的に防止し、従来のSoTAデータ保護手法より優れていることを示す。
The rapid expansion of AI in healthcare has led to a surge in medical data generation and storage, boosting medical AI development. However, fears of unauthorized use, like training commercial AI models, hinder researchers from sharing their valuable datasets. To encourage data sharing, one promising solution is to introduce imperceptible noise into the data. This method aims to safeguard the data against unauthorized training by inducing degradation in the generalization ability of the trained model. However, they are not effective and efficient when applied to medical data, mainly due to the ignorance of the sparse nature of medical images. To address this problem, we propose the Sparsity-Aware Local Masking (SALM) method, a novel approach that selectively perturbs significant pixel regions rather than the entire image as previously. This simple yet effective approach, by focusing on local areas, significantly narrows down the search space for disturbances and fully leverages the characteristics of sparsity. Our extensive experiments across various datasets and model architectures demonstrate that SALM effectively prevents unauthorized training of different models and outperforms previous SoTA data protection methods. | 翻訳日:2024-07-10 02:19:20 公開日:2024-07-07 |
# DIALECTBENCH: 方言、変種および近縁言語のためのNLPベンチマーク
DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages ( http://arxiv.org/abs/2403.11009v2 ) ライセンス: Link先を確認 | Fahim Faisal, Orevaoghene Ahia, Aarohi Srivastava, Kabir Ahuja, David Chiang, Yulia Tsvetkov, Antonios Anastasopoulos, | (参考訳) 言語技術は、実世界のユースケースにおけるそれらの有用性に基づいて判断されるべきである。
自然言語処理(NLP)の研究と評価において、しばしば見落とされがちな側面は、非標準方言または言語多様体(以下、変種)の形の言語変化である。
ほとんどのNLPベンチマークは標準言語に限られている。
このギャップを埋めるために、DIALECTBENCHを提案する。DIALECTBENCHは、NLPの多種多様なデータセット(281種類をカバーする10のテキストレベルタスク)を集約した、多様体上で初めての大規模ベンチマークである。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
我々は,標準言語と非標準言語間の性能格差の相当な証拠を提供するとともに,タスク間の性能差が大きい言語クラスタも同定する。
我々は、DIALECTBENCHが言語品種のNLPの現状を包括的に把握し、さらに進むための一歩だと信じている。
コード/データ:https://github.com/ffaisal93/DialectBench
Language technologies should be judged on their usefulness in real-world use cases. An often overlooked aspect in natural language processing (NLP) research and evaluation is language variation in the form of non-standard dialects or language varieties (hereafter, varieties). Most NLP benchmarks are limited to standard language varieties. To fill this gap, we propose DIALECTBENCH, the first-ever large-scale benchmark for NLP on varieties, which aggregates an extensive set of task-varied variety datasets (10 text-level tasks covering 281 varieties). This allows for a comprehensive evaluation of NLP system performance on different language varieties. We provide substantial evidence of performance disparities between standard and non-standard language varieties, and we also identify language clusters with large performance divergence across tasks. We believe DIALECTBENCH provides a comprehensive view of the current state of NLP for language varieties and one step towards advancing it further. Code/data: https://github.com/ffaisal93/DialectBench | 翻訳日:2024-07-10 02:09:29 公開日:2024-07-07 |
# テンプレート抽出によるJava JITテスト
Java JIT Testing with Template Extraction ( http://arxiv.org/abs/2403.11281v3 ) ライセンス: Link先を確認 | Zhiqiang Zang, Fu-Yao Yu, Aditya Thimmaiah, August Shi, Milos Gligoric, | (参考訳) Javaのジャスト・イン・タイム(JIT)コンパイラをテストするためのテンプレートベースのフレームワークであるLeJitを紹介します。
最近のテンプレートベースのフレームワークと同様に、LeJitはJava JITコンパイラへのインプットとして与えられた具体的なプログラムを生成するテンプレートを実行する。
LeJitは、式を穴に変換することで既存のJavaコードからテンプレートプログラムを自動的に生成し、生成したテンプレートを実行可能なものにするために必要なグルーコード(非プリミティブな型のインスタンスを生成するコード)を生成する。
私たちは、さまざまな人気のあるJava JITコンパイラのテストにLeJitを使い、HotSpotの5つのバグ、OpenJ9の9つのバグ、GraalVMの1つのバグを明らかにしました。
これらのバグはすべてOracleとIBMの開発者によって確認されており、以前はCVE(Common Vulnerabilities and Exposures)を含む11のバグが不明であった。
既存のいくつかのアプローチと比較すると、LeJitはそれらと相補的であり、Java JITコンパイラの正確性を保証するための強力なテクニックであることがわかる。
We present LeJit, a template-based framework for testing Java just-in-time (JIT) compilers. Like recent template-based frameworks, LeJit executes a template -- a program with holes to be filled -- to generate concrete programs given as inputs to Java JIT compilers. LeJit automatically generates template programs from existing Java code by converting expressions to holes, as well as generating necessary glue code (i.e., code that generates instances of non-primitive types) to make generated templates executable. We have successfully used LeJit to test a range of popular Java JIT compilers, revealing five bugs in HotSpot, nine bugs in OpenJ9, and one bug in GraalVM. All of these bugs have been confirmed by Oracle and IBM developers, and 11 of these bugs were previously unknown, including two CVEs (Common Vulnerabilities and Exposures). Our comparison with several existing approaches shows that LeJit is complementary to them and is a powerful technique for ensuring Java JIT compiler correctness. | 翻訳日:2024-07-10 02:09:29 公開日:2024-07-07 |
# Larimar: エピソードメモリ制御を備えた大規模言語モデル
Larimar: Large Language Models with Episodic Memory Control ( http://arxiv.org/abs/2403.11901v3 ) ライセンス: Link先を確認 | Payel Das, Subhajit Chaudhury, Elliot Nelson, Igor Melnyk, Sarath Swaminathan, Sihui Dai, Aurélie Lozano, Georgios Kollias, Vijil Chenthamarakshan, Jiří, Navrátil, Soham Dan, Pin-Yu Chen, | (参考訳) LLM(Large Language Models)に格納された知識の効率的かつ正確な更新は、今日の最も急進的な研究課題の1つである。
本稿では,Larimarについて述べる。Larimarは,分散エピソードメモリを用いてLLMを拡張するための,脳にインスパイアされた新しいアーキテクチャである。
Larimarのメモリは、計算コストのかかるリトレーニングや微調整を必要とせずに、動的でワンショットの知識更新を可能にする。
複数のファクト編集ベンチマークの実験結果から、Larimarは、挑戦的なシーケンシャルな編集セットアップであっても、最も競争力のあるベースラインに匹敵する精度を達成できただけでなく、ベースLLMに依存して8~10倍のスピードアップを実現している。
さらに,Larimarを用いた情報漏洩防止,入力コンテキスト長の一般化のメカニズムを提案し,その有効性を示す。
私たちのコードはhttps://github.com/IBM/larimarで利用可能です。
Efficient and accurate updating of knowledge stored in Large Language Models (LLMs) is one of the most pressing research challenges today. This paper presents Larimar - a novel, brain-inspired architecture for enhancing LLMs with a distributed episodic memory. Larimar's memory allows for dynamic, one-shot updates of knowledge without the need for computationally expensive re-training or fine-tuning. Experimental results on multiple fact editing benchmarks demonstrate that Larimar attains accuracy comparable to most competitive baselines, even in the challenging sequential editing setup, but also excels in speed - yielding speed-ups of 8-10x depending on the base LLM - as well as flexibility due to the proposed architecture being simple, LLM-agnostic, and hence general. We further provide mechanisms for selective fact forgetting, information leakage prevention, and input context length generalization with Larimar and show their effectiveness. Our code is available at https://github.com/IBM/larimar | 翻訳日:2024-07-10 02:09:29 公開日:2024-07-07 |
# 確信するまでの探索: 身体的質問回答の効率的な探索
Explore until Confident: Efficient Exploration for Embodied Question Answering ( http://arxiv.org/abs/2403.15941v3 ) ライセンス: Link先を確認 | Allen Z. Ren, Jaden Clark, Anushri Dixit, Masha Itkina, Anirudha Majumdar, Dorsa Sadigh, | (参考訳) 本研究では,ロボットなどの具体的エージェントが,質問に対する回答に自信を持つまで情報収集を行う環境を積極的に探究する必要がある場合の,身体的質問回答(EQA)の問題について考察する。
本研究では,大規模視覚言語モデル(VLM)の強い意味論的推論機能を活用し,これらの質問を効率的に探索し,回答する。
しかし、EQAでVLMを使用する場合の主な課題は2つある: 時間とともに探索する方法を計画できるようにシーンをマッピングするための内部記憶がなく、その信頼性が誤って評価され、ロボットが早期に探索や過度に探索を停止させる可能性がある。
深度情報とVLMの視覚的プロンプトに基づいてシーンのセマンティックマップを最初に構築する手法を提案する。
次に、コンフォメーション予測を用いて、自信に答えるVLMの質問をキャリブレーションし、ロボットがいつ探索をやめるかを知ることができるようにし、よりキャリブレーションされ効率的な探索戦略をもたらす。
シミュレーションでフレームワークをテストするために,Habitat-Matterport 3D Research Dataset (HM3D)上に構築された,多種多様なリアルなロボットシナリオとシーンを備えた新しいEQAデータセットも提供します。
シミュレーションと実際のロボット実験の両方で、提案手法は、VLMを探索に利用せず、信頼性を調整しないベースラインよりも性能と効率を向上することを示す。
webpage with experiment video and code: https://explore-eqa.github.io/
We consider the problem of Embodied Question Answering (EQA), which refers to settings where an embodied agent such as a robot needs to actively explore an environment to gather information until it is confident about the answer to a question. In this work, we leverage the strong semantic reasoning capabilities of large vision-language models (VLMs) to efficiently explore and answer such questions. However, there are two main challenges when using VLMs in EQA: they do not have an internal memory for mapping the scene to be able to plan how to explore over time, and their confidence can be miscalibrated and can cause the robot to prematurely stop exploration or over-explore. We propose a method that first builds a semantic map of the scene based on depth information and via visual prompting of a VLM - leveraging its vast knowledge of relevant regions of the scene for exploration. Next, we use conformal prediction to calibrate the VLM's question answering confidence, allowing the robot to know when to stop exploration - leading to a more calibrated and efficient exploration strategy. To test our framework in simulation, we also contribute a new EQA dataset with diverse, realistic human-robot scenarios and scenes built upon the Habitat-Matterport 3D Research Dataset (HM3D). Both simulated and real robot experiments show our proposed approach improves the performance and efficiency over baselines that do no leverage VLM for exploration or do not calibrate its confidence. Webpage with experiment videos and code: https://explore-eqa.github.io/ | 翻訳日:2024-07-10 02:09:29 公開日:2024-07-07 |
# MUTE-SLAM:複数平面ハッシュ表現を用いたリアルタイムニューラルネットワークSLAM
MUTE-SLAM: Real-Time Neural SLAM with Multiple Tri-Plane Hash Representations ( http://arxiv.org/abs/2403.17765v2 ) ライセンス: Link先を確認 | Yifan Yan, Ruomin He, Zhenghua Liu, | (参考訳) 本稿では,複数平面のハッシュエンコーディングを用いたリアルタイムニューラルネットワークRGB-D SLAMシステムMUTE-SLAMについて紹介する。
MUTE-SLAMは、カメラの位置を効果的に追跡し、小型および大型の屋内環境のためのスケーラブルなマルチマップ表現を漸進的に構築する。
MUTE-SLAMは事前に定義されたシーン境界を必要とすることが多いため、新たに観測されたローカル領域のサブマップを動的に割り当て、事前のシーン情報なしで制約のないマッピングを可能にする。
従来の格子法とは異なり、3つの直交軸整列平面をハッシュ符号化シーン特性に用いて、ハッシュ衝突とトレーニング可能なパラメータの数を大幅に削減する。
このハイブリッドアプローチは、リアルタイム性能を保証するだけでなく、表面再構成の忠実性を高める。
さらに、我々の最適化戦略は、現在のカメラフラストラムと交わる全てのサブマップを同時に最適化し、グローバルな一貫性を確保する。
実世界のデータセットと合成データセットの大規模なテストにより、MUTE-SLAMは様々な屋内環境において、最先端の表面再構成品質と競合追跡性能を提供することが示された。
コードは、論文の受理時に公表される。
We introduce MUTE-SLAM, a real-time neural RGB-D SLAM system employing multiple tri-plane hash-encodings for efficient scene representation. MUTE-SLAM effectively tracks camera positions and incrementally builds a scalable multi-map representation for both small and large indoor environments. As previous methods often require pre-defined scene boundaries, MUTE-SLAM dynamically allocates sub-maps for newly observed local regions, enabling constraint-free mapping without prior scene information. Unlike traditional grid-based methods, we use three orthogonal axis-aligned planes for hash-encoding scene properties, significantly reducing hash collisions and the number of trainable parameters. This hybrid approach not only ensures real-time performance but also enhances the fidelity of surface reconstruction. Furthermore, our optimization strategy concurrently optimizes all sub-maps intersecting with the current camera frustum, ensuring global consistency. Extensive testing on both real-world and synthetic datasets has shown that MUTE-SLAM delivers state-of-the-art surface reconstruction quality and competitive tracking performance across diverse indoor settings. The code will be made public upon acceptance of the paper. | 翻訳日:2024-07-10 02:09:29 公開日:2024-07-07 |
# EventGround: 事象中心の知識グラフのグラウンディングによるナラティブ推論
EventGround: Narrative Reasoning by Grounding to Eventuality-centric Knowledge Graphs ( http://arxiv.org/abs/2404.00209v2 ) ライセンス: Link先を確認 | Cheng Jiayang, Lin Qiu, Chunkit Chan, Xin Liu, Yangqiu Song, Zheng Zhang, | (参考訳) 物語的推論は、背景世界の豊富な知識を必要とするストーリーコンテキストにおける結果の理解に依存している。
このような知識を活用するために、既存のソリューションは2つのグループに分類することができる。
言語モデル(LM)と結果認識の目的を事前学習することで、最終的な知識を暗黙的にモデル化することに焦点を当てるものもある。
しかし、このアプローチは知識構造を分解し、解釈可能性に欠ける。
結果性に関する世界的知識を構造化された結果性中心知識グラフ(KG)に明示的に収集する者もいる。
しかし、これらの知識源を自由テキストに活用する研究は限られている。
本研究では,文脈化された物語推論のための自由文から結果中心のKGへの基底化問題に取り組むことを目的とした,EventGroundと呼ばれる初期包括的フレームワークを提案する。
この方向における2つの重要な問題、すなわちイベント表現とスパーシティ問題を特定する。
これらの問題に対処するために、単純で効果的な解析と部分的な情報抽出方法を提案する。
実験の結果,グラフニューラルネットワーク (GNN) や大規模言語モデル (LLM) を用いたグラフ推論モデルと組み合わせた場合,提案手法はベースラインモデルより一貫して優れていた。
基礎知識を取り入れた我々の枠組みは、解釈可能な証拠を提供しながら最先端のパフォーマンスを達成する。
Narrative reasoning relies on the understanding of eventualities in story contexts, which requires a wealth of background world knowledge. To help machines leverage such knowledge, existing solutions can be categorized into two groups. Some focus on implicitly modeling eventuality knowledge by pretraining language models (LMs) with eventuality-aware objectives. However, this approach breaks down knowledge structures and lacks interpretability. Others explicitly collect world knowledge of eventualities into structured eventuality-centric knowledge graphs (KGs). However, existing research on leveraging these knowledge sources for free-texts is limited. In this work, we propose an initial comprehensive framework called EventGround, which aims to tackle the problem of grounding free-texts to eventuality-centric KGs for contextualized narrative reasoning. We identify two critical problems in this direction: the event representation and sparsity problems. We provide simple yet effective parsing and partial information extraction methods to tackle these problems. Experimental results demonstrate that our approach consistently outperforms baseline models when combined with graph neural network (GNN) or large language model (LLM) based graph reasoning models. Our framework, incorporating grounded knowledge, achieves state-of-the-art performance while providing interpretable evidence. | 翻訳日:2024-07-10 02:09:29 公開日:2024-07-07 |
# T-VSL:混合音におけるテキストガイド型視覚音源定位
T-VSL: Text-Guided Visual Sound Source Localization in Mixtures ( http://arxiv.org/abs/2404.01751v2 ) ライセンス: Link先を確認 | Tanvir Mahmud, Yapeng Tian, Diana Marculescu, | (参考訳) 視覚的音源定位は、ビデオ内の各音源の意味領域を特定する上で重要な課題となる。
既存の教師付きおよび弱教師付きソースローカライゼーション手法は、特にマルチソース混合において、各サウンドオブジェクトのセマンティック領域を正確に区別するのに苦労する。
これらの手法は、複雑なマルチソースのローカライゼーションシナリオにおいて、大きなパフォーマンス低下につながるであろうガイダンスとして、音声と視覚の対応に依存することが多い。
トレーニング中の複数音源混合音に対する個々の音源音へのアクセスの欠如は、ローカライゼーションのための効果的な音声-視覚対応の学習の困難さを増す。
この制限に対処するため、本論文では、テキストモダリティを3モーダル結合埋め込みモデル(例:AudioCLIP)を用いて中間的特徴ガイドとして組み込むことにより、マルチソースミックスにおける意味的音声-視覚的ソース対応を解消する。
我々のフレームワークは、T-VSLと呼ばれ、混合物中の音素のクラスを予測することから始まります。
その後、マルチソース混合物から微細なオーディオ・ビジュアル・ソース・コンパレンスを切り離し、トリモーダルAudioCLIP埋め込みを利用するためのガイダンスとして、各音源のテキスト表現を用いる。
このアプローチにより、当社のフレームワークは、フレキシブルな数のソースを処理でき、テスト期間中に見つからないクラスに対して、期待できるゼロショット転送可能性を示すことができます。
MUSIC、VGGSound、VGGSound-Instrumentsデータセットで実施された大規模な実験は、最先端の手法よりも大幅に性能が向上したことを示している。
コードはhttps://github.com/enyac-group/T-VSL/tree/mainでリリースされる
Visual sound source localization poses a significant challenge in identifying the semantic region of each sounding source within a video. Existing self-supervised and weakly supervised source localization methods struggle to accurately distinguish the semantic regions of each sounding object, particularly in multi-source mixtures. These methods often rely on audio-visual correspondence as guidance, which can lead to substantial performance drops in complex multi-source localization scenarios. The lack of access to individual source sounds in multi-source mixtures during training exacerbates the difficulty of learning effective audio-visual correspondence for localization. To address this limitation, in this paper, we propose incorporating the text modality as an intermediate feature guide using tri-modal joint embedding models (e.g., AudioCLIP) to disentangle the semantic audio-visual source correspondence in multi-source mixtures. Our framework, dubbed T-VSL, begins by predicting the class of sounding entities in mixtures. Subsequently, the textual representation of each sounding source is employed as guidance to disentangle fine-grained audio-visual source correspondence from multi-source mixtures, leveraging the tri-modal AudioCLIP embedding. This approach enables our framework to handle a flexible number of sources and exhibits promising zero-shot transferability to unseen classes during test time. Extensive experiments conducted on the MUSIC, VGGSound, and VGGSound-Instruments datasets demonstrate significant performance improvements over state-of-the-art methods. Code is released at https://github.com/enyac-group/T-VSL/tree/main | 翻訳日:2024-07-10 02:09:29 公開日:2024-07-07 |
# 言語誘導型医用画像分割のためのクロスモーダルコンディショニング
Cross-Modal Conditioned Reconstruction for Language-guided Medical Image Segmentation ( http://arxiv.org/abs/2404.02845v2 ) ライセンス: Link先を確認 | Xiaoshuang Huang, Hongxiang Li, Meng Cao, Long Chen, Chenyu You, Dong An, | (参考訳) 近年の進歩は、医学的な視覚的意味論をより深く理解するために、学習モデルの強化におけるテキスト情報の可能性を強調している。
しかし、言語誘導型医療画像のセグメンテーションは依然として困難な問題に直面している。
以前の作品では、暗黙的かつ曖昧なアーキテクチャを使ってテキスト情報を埋め込んでいる。
これにより、セグメンテーションの結果は、言語によって表現されるセグメンテーションと矛盾し、時には大きく変化する。
そこで本研究では,言語誘導型医用画像分割のためのクロスモーダルコンディショニング(RecLMIS)を提案する。
我々は、関心のパッチや単語を適応的に予測するために条件付き相互作用を導入する。
その後、医療ノートに記載されている地域と整合する相互再建の条件付け因子として活用される。
大規模な実験では、公開されているMosMedData+データセット上でLViTを3.74%上回り、QATA-CoV19データセット上でのクロスドメインテストにおいて平均1.89%のmIoUを達成するという、RecLMISの優位性を実証している。
同時にパラメータ数を20.2%、計算負荷を55.5%削減する。
コードはhttps://github.com/ShashankHuang/RecLMIS.comで入手できる。
Recent developments underscore the potential of textual information in enhancing learning models for a deeper understanding of medical visual semantics. However, language-guided medical image segmentation still faces a challenging issue. Previous works employ implicit and ambiguous architectures to embed textual information. This leads to segmentation results that are inconsistent with the semantics represented by the language, sometimes even diverging significantly. To this end, we propose a novel cross-modal conditioned Reconstruction for Language-guided Medical Image Segmentation (RecLMIS) to explicitly capture cross-modal interactions, which assumes that well-aligned medical visual features and medical notes can effectively reconstruct each other. We introduce conditioned interaction to adaptively predict patches and words of interest. Subsequently, they are utilized as conditioning factors for mutual reconstruction to align with regions described in the medical notes. Extensive experiments demonstrate the superiority of our RecLMIS, surpassing LViT by 3.74% mIoU on the publicly available MosMedData+ dataset and achieving an average increase of 1.89% mIoU for cross-domain tests on our QATA-CoV19 dataset. Simultaneously, we achieve a relative reduction of 20.2% in parameter count and a 55.5% decrease in computational load. The code will be available at https://github.com/ShashankHuang/RecLMIS. | 翻訳日:2024-07-10 01:59:35 公開日:2024-07-07 |
# マルチビュークラスタリングにおけるインプレクションの特徴付け
How to characterize imprecision in multi-view clustering? ( http://arxiv.org/abs/2404.04970v2 ) ライセンス: Link先を確認 | Jinyi Xu, Zuowei Zhang, Ze Lin, Yixiang Chen, Zhe Liu, Weiping Ding, | (参考訳) 既存のメソッドでは、異なるビュー情報を組み合わせる際にのみ、特定の(シングルトン)クラスタにオブジェクトを割り当てることができるため、マルチビューデータのクラスタ化は依然として困難である。
その結果、異なるクラスタの重なり合う領域におけるオブジェクトのインプレクションを特徴付けることができず、エラーのリスクが高くなる。
そこで,本稿では,マルチビュークラスタリングにおける不正確性をどう特徴付けるか,という疑問に答えたい。
そこで本研究では,エントロピー制約(MvLRECM)に基づく多視点低ランクのc-meansを提案する。
提案したMvLRECMは、信念関数の理論に基づく明らかなc-平均の多視点版とみなすことができる。
MvLRECMでは、各オブジェクトは様々な支持度(信念の質量)を持つ異なるクラスタに属し、意思決定時の不確実性を特徴づける。
さらに、オブジェクトが複数のシングルトンクラスタの重なり合う領域にある場合、これらのシングルトンクラスタの結合として定義されたメタクラスタに割り当てられ、その結果の局所的なインプレクションを特徴づけることができる。
さらに、エントロピー重み付けと低ランク制約を用いて、インプレクションの低減と精度の向上を図る。
最先端の手法と比較して,MvLRECMの有効性は,いくつかの玩具およびUCI実データに基づいて示される。
It is still challenging to cluster multi-view data since existing methods can only assign an object to a specific (singleton) cluster when combining different view information. As a result, it fails to characterize imprecision of objects in overlapping regions of different clusters, thus leading to a high risk of errors. In this paper, we thereby want to answer the question: how to characterize imprecision in multi-view clustering? Correspondingly, we propose a multi-view low-rank evidential c-means based on entropy constraint (MvLRECM). The proposed MvLRECM can be considered as a multi-view version of evidential c-means based on the theory of belief functions. In MvLRECM, each object is allowed to belong to different clusters with various degrees of support (masses of belief) to characterize uncertainty when decision-making. Moreover, if an object is in the overlapping region of several singleton clusters, it can be assigned to a meta-cluster, defined as the union of these singleton clusters, to characterize the local imprecision in the result. In addition, entropy-weighting and low-rank constraints are employed to reduce imprecision and improve accuracy. Compared to state-of-the-art methods, the effectiveness of MvLRECM is demonstrated based on several toy and UCI real datasets. | 翻訳日:2024-07-10 01:59:35 公開日:2024-07-07 |
# 発明政策のVC理論
VC Theory for Inventory Policies ( http://arxiv.org/abs/2404.11509v2 ) ライセンス: Link先を確認 | Yaqi Xie, Will Ma, Linwei Xin, | (参考訳) 計算能力とAIの進歩は、在庫管理に対する強化学習アプローチへの関心を高めている。
本稿では,これらのアプローチの理論的基盤を提供し,在庫理論によって確立された政策構造に制限を加えることの利点について考察する。
特に,有望なVapnik-Chervonenkis(VC)理論を活用することで,在庫政策や(s,S)政策など,よく知られたいくつかの在庫政策のクラスを学ぶための一般化保証を証明した。
本稿では,VC理論からPseudo-dimension と Fat-shattering の次元を適用し,在庫政策の一般化誤差,すなわちトレーニングデータにおける在庫政策のパフォーマンスと予期しないデータにおける期待性能の差を決定する。
我々は、コンテキストのない古典的な設定に重点を置いているが、要求シーケンス上の任意の分布を許容し、時間とともに独立性のような仮定は行わない。
数値シミュレーションを用いて教師付き学習結果の相関付けを行う。
管理面では、我々の理論とシミュレーションは以下の知見に変換される。
まず、在庫管理の‘より少ない学習’という原則があります。利用可能なデータの量によっては、過度に適合するエラーを最小限に抑えるために、よりシンプルで最適な在庫ポリシーのクラスに自分自身を制限することは有益かもしれません。
第二に、ポリシークラスにおけるパラメータの数は、過適合エラーの正しい尺度ではないかもしれない: 実際、T の時間変化ベースストックレベルによって定義されるポリシーのクラスは、一般化エラーを2パラメータ (s, S) ポリシークラスよりも桁違いに低い順序で示している。
最後に,本研究では,これらの機械が注文量を直接学習する代わりに,ベースストックと在庫位置の概念をブラックボックス学習マシンに組み込むことが有用であることを示唆している。
Advances in computational power and AI have increased interest in reinforcement learning approaches to inventory management. This paper provides a theoretical foundation for these approaches and investigates the benefits of restricting to policy structures that are well-established by inventory theory. In particular, we prove generalization guarantees for learning several well-known classes of inventory policies, including base-stock and (s, S) policies, by leveraging the celebrated Vapnik-Chervonenkis (VC) theory. We apply the Pseudo-dimension and Fat-shattering dimension from VC theory to determine the generalization error of inventory policies, that is, the difference between an inventory policy's performance on training data and its expected performance on unseen data. We focus on a classical setting without contexts, but allow for an arbitrary distribution over demand sequences and do not make any assumptions such as independence over time. We corroborate our supervised learning results using numerical simulations. Managerially, our theory and simulations translate to the following insights. First, there is a principle of ``learning less is more'' in inventory management: depending on the amount of data available, it may be beneficial to restrict oneself to a simpler, albeit suboptimal, class of inventory policies to minimize overfitting errors. Second, the number of parameters in a policy class may not be the correct measure of overfitting error: in fact, the class of policies defined by T time-varying base-stock levels exhibits a generalization error an order of magnitude lower than that of the two-parameter (s, S) policy class. Finally, our research suggests situations in which it could be beneficial to incorporate the concepts of base-stock and inventory position into black-box learning machines, instead of having these machines directly learn the order quantity actions. | 翻訳日:2024-07-10 01:59:35 公開日:2024-07-07 |
# Shard Automated Electric Mobility System の合成参加計画
Synthetic Participatory Planning of Shard Automated Electric Mobility Systems ( http://arxiv.org/abs/2404.12317v4 ) ライセンス: Link先を確認 | Jiangbo Yu, Graeme McKinley, | (参考訳) 都市交通問題に対処するための特異な課題と機会を提示するマルチステークホルダー設定において、急速に発展するモビリティ技術間の相乗効果を開放する。
本稿では,大規模言語モデル(LLM)を批判的に活用し,多様な利害関係者を代表するデジタルアバターを作成し,共有電気移動システム(SAEMS)を計画する新しい合成参加手法を提案する。
これらの調整可能なエージェントは、目標を共同で識別し、SAEMS代替案を構想し、評価し、リスクと制約の下で実施をストラテジズする。
モントリオールのケーススタディの結果は、構造化されたパラメータ化されたワークフローが、単一のLSM対応の専門家エージェントを使用して生成されたものよりも、SAEMSプランの制御性と包括性の高い出力を提供することを示している。
このアプローチは、多目的輸送計画の傾きと解釈可能性を向上させるためのコスト効率向上のための有望な道を提供し、持続可能な輸送システムの構想と戦略のパラダイムシフトを示唆する。
Unleashing the synergies among rapidly evolving mobility technologies in a multi-stakeholder setting presents unique challenges and opportunities for addressing urban transportation problems. This paper introduces a novel synthetic participatory method that critically leverages large language models (LLMs) to create digital avatars representing diverse stakeholders to plan shared automated electric mobility systems (SAEMS). These calibratable agents collaboratively identify objectives, envision and evaluate SAEMS alternatives, and strategize implementation under risks and constraints. The results of a Montreal case study indicate that a structured and parameterized workflow provides outputs with higher controllability and comprehensiveness on an SAEMS plan than that generated using a single LLM-enabled expert agent. Consequently, this approach provides a promising avenue for cost-efficiently improving the inclusivity and interpretability of multi-objective transportation planning, suggesting a paradigm shift in how we envision and strategize for sustainable transportation systems. | 翻訳日:2024-07-10 01:59:35 公開日:2024-07-07 |
# FinLangNet:金融データにおける言語分析を用いた信用リスク予測のための新しいディープラーニングフレームワーク
FinLangNet: A Novel Deep Learning Framework for Credit Risk Prediction Using Linguistic Analogy in Financial Data ( http://arxiv.org/abs/2404.13004v2 ) ライセンス: Link先を確認 | Yu Lei, Zixuan Wang, Chu Liu, Tongyao Wang, Dongyang Lee, | (参考訳) リスク予測の最近の産業応用は、手動で調整された統計的学習手法に大きく依存している。
高次元性、疎性、高ノイズレベル、重大な不均衡を特徴とする実世界の財務データは、ディープニューラルネットワークモデルの効果的な適用にユニークな課題を提起する。
本研究では,言語構造を反映した構造において,信用融資の軌跡を概念化する新たなディープラーニングリスク予測フレームワークFinLangNetを紹介する。
このフレームワークは、自然言語処理技術を適用して、言語の構造的類似性に基づいて、現実世界の財務データを用いた信用リスク予測に最適化されている。
特に、マルチヘッドおよび詳細な金融イベントのシーケンスを通じて、中期信用履歴の開発と予測可能性の分析に重点を置いている。
我々の研究は、FinLangNetが信用リスク予測における従来の統計手法を超越し、これらの手法との統合により信用過渡予測モデルが強化され、コルモゴロフ・スミルノフ計量の4.24倍以上の大幅な改善が達成されることを示した。
Recent industrial applications in risk prediction still heavily rely on extensively manually-tuned, statistical learning methods. Real-world financial data, characterized by its high dimensionality, sparsity, high noise levels, and significant imbalance, poses unique challenges for the effective application of deep neural network models. In this work, we introduce a novel deep learning risk prediction framework, FinLangNet, which conceptualizes credit loan trajectories in a structure that mirrors linguistic constructs. This framework is tailored for credit risk prediction using real-world financial data, drawing on structural similarities to language by adapting natural language processing techniques. It particularly emphasizes analyzing the development and forecastability of mid-term credit histories through multi-head and sequences of detailed financial events. Our research demonstrates that FinLangNet surpasses traditional statistical methods in predicting credit risk and that its integration with these methods enhances credit overdue prediction models, achieving a significant improvement of over 4.24\% in the Kolmogorov-Smirnov metric. | 翻訳日:2024-07-10 01:49:35 公開日:2024-07-07 |
# 経済的成功に影響する要因を深く掘り下げる:機械学習のアプローチ
A Deep Dive into the Factors Influencing Financial Success: A Machine Learning Approach ( http://arxiv.org/abs/2405.08233v3 ) ライセンス: Link先を確認 | Michael Zhou, Ramin Ramezani, | (参考訳) 本稿では、機械学習アルゴリズムとアプローチを用いて、個別の経済的成功に寄与する様々な社会経済的要因について考察する。
経済的成功は、すべての個人の幸福にとって重要な側面であり、様々な要因に影響された複雑な概念である。
本研究は、金融成功の決定要因を理解することを目的としている。
労働統計局による1997年全国縦断調査(1997年全国縦断調査)の調査結果を, 年間8,984人を対象に調査した。
このデータセットは、収入変数と個人の社会経済変数からなる。
詳細な分析では、金融成功研究における機械学習アルゴリズムの有効性を示し、予測精度を高めるために長手データを活用する可能性を強調し、様々な社会経済的要因が金融成功にどのように影響するかについての貴重な洞察を提供する。
調査対象となった社会経済的要因のうち, 個人所得の上位3因子として, 高等教育, 職業, 性別の有意な影響が示された。
就業時間、年齢、就業期間は3つの二次的影響要因であり、親の世帯所得、産業、両親の最高等級、その他すべての要因が第三次要因として同定される。
これらの洞察は、研究者が財政的成功の複雑な性質をよりよく理解することを可能にし、また、意思決定過程における政策立案者への洞察を提供することによって、個人間の経済的成功を促進し、より広範な社会的幸福を促進するためにも不可欠である。
This paper explores various socioeconomic factors that contribute to individual financial success using machine learning algorithms and approaches. Financial success, a critical aspect of all individual's well-being, is a complex concept influenced by various factors. This study aims to understand the determinants of financial success. It examines the survey data from the National Longitudinal Survey of Youth 1997 by the Bureau of Labor Statistics (1), consisting of a sample of 8,984 individuals's longitudinal data over years. The dataset comprises income variables and a large set of socioeconomic variables of individuals. An in-depth analysis shows the effectiveness of machine learning algorithms in financial success research, highlights the potential of leveraging longitudinal data to enhance prediction accuracy, and provides valuable insights into how various socioeconomic factors influence financial success. The findings highlight the significant influence of highest education degree, occupation and gender as the top three determinants of individual income among socioeconomic factors examined. Yearly working hours, age and work tenure follow as three secondary influencing factors, and all other factors including parental household income, industry, parents' highest grade and others are identified as tertiary factors. These insights allow researchers to better understand the complex nature of financial success, and are also crucial for fostering financial success among individuals and advancing broader societal well-being by providing insights for policymakers during decision-making process. | 翻訳日:2024-07-10 01:39:50 公開日:2024-07-07 |
# 静的AI評価を超えて: LLMの害とリスクに対する人間のインタラクション評価を前進させる
Beyond static AI evaluations: advancing human interaction evaluations for LLM harms and risks ( http://arxiv.org/abs/2405.10632v4 ) ライセンス: Link先を確認 | Lujain Ibrahim, Saffron Huang, Lama Ahmad, Markus Anderljung, | (参考訳) モデル評価は、AIシステムの安全性、リスク、社会的影響を理解する上で重要である。
ほとんどの実世界のAIアプリケーションは人間とAIのインタラクションを含んでいるが、AIモデルの現在の評価(例えば、一般的なベンチマーク)はそうではない。
その代わりに、人間的要因を限定的に組み込んで、モデルの安全性を個別に評価することで、人間とモデルの相互作用の複雑さを捉えることができない。
本稿では,人-モデルインタラクションの評価や,モデルを用いた人-モデルインタラクションのプロセスと結果に焦点をあてた,新たな評価カテゴリ"ヒューマンインタラクション評価" (HIEs) の定義と運用について論じる。
まず、HIEは安全性評価の妥当性を高め、直接人的影響と相互作用特異的害を評価し、モデルによる社会的影響の今後の評価を導くために使用できると論じる。
第2に,安全性を重視したHIE設計フレームワーク(人-LLM相互作用分類を含む)について,(1)危険領域の同定,(2)使用状況の特徴付け,(3)評価パラメータの選択の3段階について提案する。
第3に、過信と説得リスクの2つの潜在的評価に我々の枠組みを適用します。
最後に,HIEのコスト,複製性,非表現性に関する懸念に対処するための具体的な勧告を述べる。
Model evaluations are central to understanding the safety, risks, and societal impacts of AI systems. While most real-world AI applications involve human-AI interaction, most current evaluations (e.g., common benchmarks) of AI models do not. Instead, they incorporate human factors in limited ways, assessing the safety of models in isolation, thereby falling short of capturing the complexity of human-model interactions. In this paper, we discuss and operationalize a definition of an emerging category of evaluations -- "human interaction evaluations" (HIEs) -- which focus on the assessment of human-model interactions or the process and the outcomes of humans using models. First, we argue that HIEs can be used to increase the validity of safety evaluations, assess direct human impact and interaction-specific harms, and guide future assessments of models' societal impact. Second, we propose a safety-focused HIE design framework -- containing a human-LLM interaction taxonomy -- with three stages: (1) identifying the risk or harm area, (2) characterizing the use context, and (3) choosing the evaluation parameters. Third, we apply our framework to two potential evaluations for overreliance and persuasion risks. Finally, we conclude with tangible recommendations for addressing concerns over costs, replicability, and unrepresentativeness of HIEs. | 翻訳日:2024-07-10 01:39:50 公開日:2024-07-07 |
# CoLeaF: 弱めに監督されたオーディオ・ビジュアル・ビデオ・パーシングのためのコントラスト協調学習フレームワーク
CoLeaF: A Contrastive-Collaborative Learning Framework for Weakly Supervised Audio-Visual Video Parsing ( http://arxiv.org/abs/2405.10690v3 ) ライセンス: Link先を確認 | Faegheh Sardari, Armin Mustafa, Philip J. B. Jackson, Adrian Hilton, | (参考訳) 弱教師付きオーディオ視覚ビデオ解析(AVVP)手法は、ビデオレベルラベルのみを用いて、可聴性のみ、可視性のみ、可聴性のみを検出することを目的としている。
既存のアプローチでは、単調なコンテキストとクロスモーダルなコンテキストを活用することで、この問題に対処している。
しかし, クロスモーダル学習は, 可聴事象の検出に有用であるが, 弱教師付きシナリオでは, 無関係なモダリティ情報を導入することにより, 不整合性事象や可視性事象に悪影響を及ぼすと論じている。
本稿では,組込み空間におけるクロスモーダルコンテキストの統合を最適化する新しい学習フレームワークであるCoLeaFを提案する。
さらに、ビデオは複雑なクラス関係を伴うことが多いため、それらをモデル化することでパフォーマンスが向上する。
しかし、これはネットワークに余分な計算コストをもたらす。
我々のフレームワークは、推論時に余分な計算を発生させることなく、トレーニング中にクラス間の関係を活用するように設計されている。
さらに,AVVPを実行する際の手法の能力を評価するための新しい指標を提案する。
我々の広範な実験により、CoLeaF は LLP と UnAV-100 のデータセットでそれぞれ平均 1.9% と 2.4% のFスコアで最先端の結果を大幅に改善することが示された。
Weakly supervised audio-visual video parsing (AVVP) methods aim to detect audible-only, visible-only, and audible-visible events using only video-level labels. Existing approaches tackle this by leveraging unimodal and cross-modal contexts. However, we argue that while cross-modal learning is beneficial for detecting audible-visible events, in the weakly supervised scenario, it negatively impacts unaligned audible or visible events by introducing irrelevant modality information. In this paper, we propose CoLeaF, a novel learning framework that optimizes the integration of cross-modal context in the embedding space such that the network explicitly learns to combine cross-modal information for audible-visible events while filtering them out for unaligned events. Additionally, as videos often involve complex class relationships, modelling them improves performance. However, this introduces extra computational costs into the network. Our framework is designed to leverage cross-class relationships during training without incurring additional computations at inference. Furthermore, we propose new metrics to better evaluate a method's capabilities in performing AVVP. Our extensive experiments demonstrate that CoLeaF significantly improves the state-of-the-art results by an average of 1.9% and 2.4% F-score on the LLP and UnAV-100 datasets, respectively. | 翻訳日:2024-07-10 01:39:50 公開日:2024-07-07 |
# コンフォーマル予測による戦略証明オークション
Strategy-Proof Auctions through Conformal Prediction ( http://arxiv.org/abs/2405.12016v3 ) ライセンス: Link先を確認 | Roy Maor Lotan, Inbal Talgam-Cohen, Yaniv Romano, | (参考訳) 競売は売り手の収益を最大化し、買い手の間で真剣な入札を確保するための鍵である。
近年、深層学習に基づく微分経済学として知られるアプローチは、複数の項目や参加者に対して最適な競売メカニズムを学習する上で有望であることを示している。
しかし、このアプローチはテスト時に戦略の安全性を保証するものではありません。
戦略保護は、買い手が真のバリュエーションの入札にインセンティブを与えられることを保証し、操作のリスクを伴わずに最適かつ公正なオークションの結果をもたらすため、極めて重要である。
整合予測に基づいて,厳密な統計的保証で戦略の安全性を実現するための新しいアプローチを導入する。
我々の方法の主な特徴は次のとおりである。
一 戦略保護の試験時違反の定量化に使用する後悔予測モデルの定式化及び
(II)新たなオークションにおいて、データ駆動機構が高い確率(例:99\%)で戦略保護要件を満たすことを保証するために、予測された後悔を利用するオークション受理規則。
数値実験により,厳密な保証の必要性,理論結果の有効性,提案手法の適用性が確認された。
Auctions are key for maximizing sellers' revenue and ensuring truthful bidding among buyers. Recently, an approach known as differentiable economics based on deep learning shows promise in learning optimal auction mechanisms for multiple items and participants. However, this approach has no guarantee of strategy-proofness at test time. Strategy-proofness is crucial as it ensures that buyers are incentivized to bid their true valuations, leading to optimal and fair auction outcomes without the risk of manipulation. Building on conformal prediction, we introduce a novel approach to achieve strategy-proofness with rigorous statistical guarantees. The key novelties of our method are: (i) the formulation of a regret prediction model, used to quantify at test time violations of strategy-proofness; and (ii) an auction acceptance rule that leverages the predicted regret to ensure that for a new auction, the data-driven mechanism meets the strategy-proofness requirement with high probability (e.g., 99\%). Numerical experiments demonstrate the necessity for rigorous guarantees, the validity of our theoretical results, and the applicability of our proposed method. | 翻訳日:2024-07-10 01:39:50 公開日:2024-07-07 |
# G-DIG:機械翻訳のためのグラディエントベースディバースと高品質インストラクションデータ選択を目指して
G-DIG: Towards Gradient-based Diverse and High-quality Instruction Data Selection for Machine Translation ( http://arxiv.org/abs/2405.12915v2 ) ライセンス: Link先を確認 | Xingyuan Pan, Luyang Huang, Liyan Kang, Zhicheng Liu, Yu Lu, Shanbo Cheng, | (参考訳) 大規模言語モデル(LLM)は、一般的なシナリオにおいて顕著な能力を示している。
インストラクションの微調整は、様々なタスクにおいて人間と協調する権限を与える。
それでも、命令データの多様性と品質は、命令の微調整の2つの主要な課題である。
そこで本研究では,機械翻訳のための高品質かつ多様な命令微調整データを自動的に選択するための,勾配に基づく新しい手法を提案する。
私たちの重要なイノベーションは、個々のトレーニング例がトレーニング中にモデルにどのように影響するかを分析することです。
具体的には、そのモデルに優れた影響を及ぼす訓練例を、影響関数と小さな高品質なシードデータセットを用いて選択する。
さらに、トレーニングデータの多様性を高めるために、モデルの勾配や再サンプリングをクラスタリングすることで、モデルに与えるさまざまな影響を最大化する。
WMT22およびFLORES翻訳タスクの広範囲にわたる実験は,本手法の優位性を実証し,詳細な解析により,その妥当性と一般化がさらに検証された。
Large Language Models (LLMs) have demonstrated remarkable abilities in general scenarios. Instruction finetuning empowers them to align with humans in various tasks. Nevertheless, the Diversity and Quality of the instruction data remain two main challenges for instruction finetuning. With regard to this, in this paper, we propose a novel gradient-based method to automatically select high-quality and diverse instruction finetuning data for machine translation. Our key innovation centers around analyzing how individual training examples influence the model during training. Specifically, we select training examples that exert beneficial influences on the model as high-quality ones by means of Influence Function plus a small high-quality seed dataset. Moreover, to enhance the diversity of the training data we maximize the variety of influences they have on the model by clustering on their gradients and resampling. Extensive experiments on WMT22 and FLORES translation tasks demonstrate the superiority of our methods, and in-depth analysis further validates their effectiveness and generalization. | 翻訳日:2024-07-10 01:29:45 公開日:2024-07-07 |
# フリーハンド2次元超音波映像からの3次元胎児脳電位予測のための幾何学的変換不確かさ
Geometric Transformation Uncertainty for Improving 3D Fetal Brain Pose Prediction from Freehand 2D Ultrasound Videos ( http://arxiv.org/abs/2405.13235v2 ) ライセンス: Link先を確認 | Jayroop Ramesh, Nicola K Dinsdale, the INTERGROWTH-21st Consortium, Pak-Hei Yeung, Ana IL Namburete, | (参考訳) 3次元脳内の2次元超音波(US)の正確な局所化は、最小限の計算資源を用いて、胎児の成長と発達を自動解析するための重要な課題である。
2次元胎児脳画像における3次元面の自動位置決めのための不確実性を考慮した深層学習モデルを提案する。
具体的には、異なる幾何学的変換の観点から、2次元画像から3次元平面を合成する多頭部ネットワークを訓練する。
モデルは、不確実性を予測して、異なる変換間で低分散の入力により高い重みを割り当て、パフォーマンスを向上させることを明示的に学習する。
提案手法であるQAERTSは, 現状と不確実性に基づくアプローチよりも優れたポーズ推定精度を示し, 局所化精度は平面角 (PA) が9%, サンプル画像品質は正規化相互相関 (NCC) が8%向上した。
QAERTSは効率性も示しており、アンサンブルベースのアプローチよりも5$\times$パラメータが少ないため、リソース制約された設定で有利である。
さらに、QAERTSは、回転の不連続性と明示的な出力不確実性を利用して、フリーハンドUSスキャンで観測されたノイズ効果に対してより堅牢であることが証明された。
Accurately localizing two-dimensional (2D) ultrasound (US) fetal brain images in the 3D brain, using minimal computational resources, is an important task for automated US analysis of fetal growth and development. We propose an uncertainty-aware deep learning model for automated 3D plane localization in 2D fetal brain images. Specifically, a multi-head network is trained to jointly regress 3D plane pose from 2D images in terms of different geometric transformations. The model explicitly learns to predict uncertainty to allocate higher weight to inputs with low variances across different transformations to improve performance. Our proposed method, QAERTS, demonstrates superior pose estimation accuracy than the state-of-the-art and most of the uncertainty-based approaches, leading to 9% improvement on plane angle (PA) for localization accuracy, and 8% on normalized cross-correlation (NCC) for sampled image quality. QAERTS also demonstrates efficiency, containing 5$\times$ fewer parameters than ensemble-based approach, making it advantageous in resource-constrained settings. In addition, QAERTS proves to be more robust to noise effects observed in freehand US scanning by leveraging rotational discontinuities and explicit output uncertainties. | 翻訳日:2024-07-10 01:29:45 公開日:2024-07-07 |
# TrojanRAG: 大規模言語モデルでは,検索可能な生成がバックドアドライバになる
TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models ( http://arxiv.org/abs/2405.13401v4 ) ライセンス: Link先を確認 | Pengzhou Cheng, Yidong Ding, Tianjie Ju, Zongru Wu, Wei Du, Ping Yi, Zhuosheng Zhang, Gongshen Liu, | (参考訳) 大規模言語モデル (LLM) は、自然言語処理 (NLP) で顕著なパフォーマンスにもかかわらず、潜在的なセキュリティ脅威に対する懸念を提起している。
バックドア攻撃は当初、LLMがあらゆる段階で重大な損害を受けていることを証明したが、コストとロバスト性は批判されている。
LLMを攻撃することは、セキュリティレビューにおいて本質的に危険であるが、違法に高価である。
さらに、LLMの連続的なイテレーションは、バックドアの堅牢性を低下させます。
本稿では,Retrieval-Augmented Generationにおける共同バックドア攻撃を利用したTrojanRAGを提案する。
具体的には、敵は、精巧なターゲットコンテキストとトリガーセットを構成する。
複数のバックドアショートカットは、コントラスト学習によって直交的に最適化されるため、トリガー条件をパラメータ部分空間に制約し、マッチングを改善する。
対象コンテキストに対するRAGのリコールを改善するため,構造化データを構築するための知識グラフを導入し,きめ細かいレベルでのハードマッチングを実現する。
さらに, LLMのバックドアシナリオを正規化し, 攻撃者の視点とユーザ視点の両方からバックドアが引き起こす本当の害を分析し, さらに, ジェイルブレイクモデルに適したツールであるかどうかを検証した。
真理性、言語理解、有害性に関する広範な実験結果から、TrojanRAGは通常のクエリの検索能力を保ちながら、万能性の脅威を示すことが示された。
Large language models (LLMs) have raised concerns about potential security threats despite performing significantly in Natural Language Processing (NLP). Backdoor attacks initially verified that LLM is doing substantial harm at all stages, but the cost and robustness have been criticized. Attacking LLMs is inherently risky in security review, while prohibitively expensive. Besides, the continuous iteration of LLMs will degrade the robustness of backdoors. In this paper, we propose TrojanRAG, which employs a joint backdoor attack in the Retrieval-Augmented Generation, thereby manipulating LLMs in universal attack scenarios. Specifically, the adversary constructs elaborate target contexts and trigger sets. Multiple pairs of backdoor shortcuts are orthogonally optimized by contrastive learning, thus constraining the triggering conditions to a parameter subspace to improve the matching. To improve the recall of the RAG for the target contexts, we introduce a knowledge graph to construct structured data to achieve hard matching at a fine-grained level. Moreover, we normalize the backdoor scenarios in LLMs to analyze the real harm caused by backdoors from both attackers' and users' perspectives and further verify whether the context is a favorable tool for jailbreaking models. Extensive experimental results on truthfulness, language understanding, and harmfulness show that TrojanRAG exhibits versatility threats while maintaining retrieval capabilities on normal queries. | 翻訳日:2024-07-10 01:29:45 公開日:2024-07-07 |
# タンパク質リガンドドッキングの深層学習:まだ存在するか?
Deep Learning for Protein-Ligand Docking: Are We There Yet? ( http://arxiv.org/abs/2405.14108v3 ) ライセンス: Link先を確認 | Alex Morehead, Nabin Giri, Jian Liu, Jianlin Cheng, | (参考訳) リガンド結合がタンパク質の構造と生体機能に与える影響は、現代の生物医学研究や薬物発見のようなバイオテクノロジー開発に多くの意味を持つ。
タンパク質-リガンドドッキング用に設計されたいくつかの深層学習(DL)手法やベンチマークが近年導入されているが、(1)ドッキングに予測された(apo)タンパク質構造(例えば、広い適用性)を使用すること、(2)特定の標的タンパク質(例えば、酵素設計)と同時に複数のリガンドをドッキングすること、(3)結合ポケット(例えば、ポケットの一般化)について事前の知識を持たないこと、といった実践的な文脈においてドッキング手法の挙動を体系的に研究する以前の研究は行われていない。
ドッキング手法の実用性についてより深く理解するために,実用的タンパク質リガンドドッキングのための最初の包括的なベンチマークであるPoseBenchを紹介した。
PoseBenchは、単一およびマルチリガンドベンチマークデータセットを用いて、Apo-to-holoタンパク-リガンドドッキングとタンパク質-リガンド構造生成のためのDLドッキング手法を厳格かつ体系的に評価することを可能にする。
実証的にPoseBenchを用いた場合,最近のDLドッキング手法はすべてマルチリガンドタンパク質ターゲットへの一般化に失敗し,テンプレートベースのドッキングアルゴリズムは最近の単一リガンドDLドッキング法と同様に,マルチリガンドドドッキングに対して等しく,あるいは良好に動作し,今後の作業改善の領域を示唆している。
コード、データ、チュートリアル、ベンチマーク結果はhttps://github.com/BioinfoMachineLearning/PoseBench.comで公開されている。
The effects of ligand binding on protein structures and their in vivo functions carry numerous implications for modern biomedical research and biotechnology development efforts such as drug discovery. Although several deep learning (DL) methods and benchmarks designed for protein-ligand docking have recently been introduced, to date no prior works have systematically studied the behavior of docking methods within the practical context of (1) using predicted (apo) protein structures for docking (e.g., for broad applicability); (2) docking multiple ligands concurrently to a given target protein (e.g., for enzyme design); and (3) having no prior knowledge of binding pockets (e.g., for pocket generalization). To enable a deeper understanding of docking methods' real-world utility, we introduce PoseBench, the first comprehensive benchmark for practical protein-ligand docking. PoseBench enables researchers to rigorously and systematically evaluate DL docking methods for apo-to-holo protein-ligand docking and protein-ligand structure generation using both single and multi-ligand benchmark datasets, the latter of which we introduce for the first time to the DL community. Empirically, using PoseBench, we find that all recent DL docking methods but one fail to generalize to multi-ligand protein targets and also that template-based docking algorithms perform equally well or better for multi-ligand docking as recent single-ligand DL docking methods, suggesting areas of improvement for future work. Code, data, tutorials, and benchmark results are available at https://github.com/BioinfoMachineLearning/PoseBench. | 翻訳日:2024-07-10 01:29:45 公開日:2024-07-07 |
# Sync4D:物理ベースの4D生成のためのビデオガイド制御可能なダイナミクス
Sync4D: Video Guided Controllable Dynamics for Physics-Based 4D Generation ( http://arxiv.org/abs/2405.16849v3 ) ライセンス: Link先を確認 | Zhoujie Fu, Jiacheng Wei, Wenhao Shen, Chaoyue Song, Xiaofeng Yang, Fayao Liu, Xulei Yang, Guosheng Lin, | (参考訳) 本研究では, カジュアルにキャプチャした参照ビデオを用いて, 3次元ガウシアンに制御可能なダイナミックスを作成する手法を提案する。
提案手法は,オブジェクトの動作を参照ビデオから様々なカテゴリで生成した様々な3Dガウスに転送することで,高精度かつカスタマイズ可能なモーション転送を実現する。
本研究では, 混合スキンを用いた非パラメトリック形状再構成を用いて, 参照物体の形状と動きを抽出する。
このプロセスでは、参照対象をスキンウェイトに基づいて動作関連部分に分割し、生成されたターゲット形状と形状対応を確立する。
既存の手法では, 形状と時間的矛盾に対処するため, 物理シミュレーションを統合し, 目標形状を一致運動で駆動する。
この積分は、信頼性と真のダイナミクスを保証するために変位損失によって最適化される。
提案手法は,人間,四重奏曲,明瞭な対象を含む多様な参照入力をサポートし,任意の長さのダイナミックスを生成し,忠実度と適用性を向上させる。
拡散ビデオ生成モデルに大きく依存する手法とは異なり,本手法は,形状整合性と時間整合性の両方を維持しつつ,特定かつ高品質なモーショントランスファーを提供する。
In this work, we introduce a novel approach for creating controllable dynamics in 3D-generated Gaussians using casually captured reference videos. Our method transfers the motion of objects from reference videos to a variety of generated 3D Gaussians across different categories, ensuring precise and customizable motion transfer. We achieve this by employing blend skinning-based non-parametric shape reconstruction to extract the shape and motion of reference objects. This process involves segmenting the reference objects into motion-related parts based on skinning weights and establishing shape correspondences with generated target shapes. To address shape and temporal inconsistencies prevalent in existing methods, we integrate physical simulation, driving the target shapes with matched motion. This integration is optimized through a displacement loss to ensure reliable and genuine dynamics. Our approach supports diverse reference inputs, including humans, quadrupeds, and articulated objects, and can generate dynamics of arbitrary length, providing enhanced fidelity and applicability. Unlike methods heavily reliant on diffusion video generation models, our technique offers specific and high-quality motion transfer, maintaining both shape integrity and temporal consistency. | 翻訳日:2024-07-10 01:29:45 公開日:2024-07-07 |
# 詳細な画像キャプションのベンチマークと改善
Benchmarking and Improving Detail Image Caption ( http://arxiv.org/abs/2405.19092v4 ) ライセンス: Link先を確認 | Hongyuan Dong, Jiawen Li, Bohong Wu, Jiacong Wang, Yuan Zhang, Haoyuan Guo, | (参考訳) 画像キャプションは視覚的理解の基本的な課題として長い間見なされてきた。
しかし,近年,古くなったショートキャプションベンチマークと信頼性の低い評価指標により,画像キャプション性能に関する大規模視覚言語モデル (LVLM) の研究はほとんど行われていない。
そこで本研究では,GPT-4V と Gemini-1.5-Pro がアノテートした高品質な評価データセットを算出し,画像キャプションタスクのベンチマークを行う。
CAPTURE(exTracting and coupling coRE information)と呼ばれる,より信頼性の高いキャプション評価指標も設計する。
CAPTUREは、字幕から視覚的要素、例えばオブジェクト、属性、関係を抽出し、これらの要素を3段階を通してマッチングし、他のルールベースのまたはモデルベースのキャプションメトリクスよりも専門家の判断と最高の一貫性を達成する。
提案したベンチマークとメトリクスは,LVLMの詳細な画像キャプション能力の信頼性評価を提供する。
この評価によって,5段階のデータ構築パイプラインを通じて高品質なデータを合成することにより,LVLMの詳細なキャプション機能を解き放つことを探る。
私たちのパイプラインは、ループ内に人間やGPT-4Vアノテーションなしで、与えられたLVLM自身や他のオープンソースツールのみを使用します。
実験により,提案したデータ構築戦略により,LVLMのモデル生成の詳細キャプションデータの品質が向上し,自己ループ方式でデータ品質がさらに向上することが示された。
すべてのコードとデータセットはhttps://github.com/foundation-multimodal-models/CAPTUREで公開される。
Image captioning has long been regarded as a fundamental task in visual understanding. Recently, however, few large vision-language model (LVLM) research discusses model's image captioning performance because of the outdated short-caption benchmarks and unreliable evaluation metrics. In this work, we propose to benchmark detail image caption task by curating high-quality evaluation datasets annotated by human experts, GPT-4V and Gemini-1.5-Pro. We also design a more reliable caption evaluation metric called CAPTURE (CAPtion evaluation by exTracting and coUpling coRE information). CAPTURE extracts visual elements, e.g., objects, attributes and relations from captions, and then matches these elements through three stages, achieving the highest consistency with expert judgements over other rule-based or model-based caption metrics. The proposed benchmark and metric provide reliable evaluation for LVLM's detailed image captioning ability. Guided by this evaluation, we further explore to unleash LVLM's detail caption capabilities by synthesizing high-quality data through a five-stage data construction pipeline. Our pipeline only uses a given LVLM itself and other open-source tools, without any human or GPT-4V annotation in the loop. Experiments show that the proposed data construction strategy significantly improves model-generated detail caption data quality for LVLMs with leading performance, and the data quality can be further improved in a self-looping paradigm. All code and dataset will be publicly available at https://github.com/foundation-multimodal-models/CAPTURE. | 翻訳日:2024-07-10 01:29:45 公開日:2024-07-07 |
# EffiQA:知識グラフに基づく戦略的多モデルコラボレーションによる効率的な質問応答
EffiQA: Efficient Question-Answering with Strategic Multi-Model Collaboration on Knowledge Graphs ( http://arxiv.org/abs/2406.01238v2 ) ライセンス: Link先を確認 | Zixuan Dong, Baoyun Peng, Yufei Wang, Jia Fu, Xiaodong Wang, Yongxue Shan, Xin Zhou, | (参考訳) 大規模言語モデル(LLM)は自然言語処理において顕著な能力を示してきたが、知識グラフ(KG)を含む複雑な多段階推論タスクに苦慮している。
LLMとKGを統合する既存のアプローチは、LLMの推論能力の不足や、密結合による計算コストの制限に悩まされている。
これらの制約に対処するため、反復的パラダイムを通じて性能と効率のバランスをとることができる、EffiQAという新しい協調フレームワークを提案する。
EffiQAは、グローバルプランニング、効率的なKG探査、自己回帰という3つの段階から構成される。
特に、EffiQAはLLMのコモンセンス能力を活用し、グローバルプランニングを通じて潜在的推論経路を探索する。
そして、効率的なKG探索のために、セマンティックプルーニングを小さなプラグインモデルにオフロードする。
最後に, 探査結果を自己回帰のためにLLMに供給し, グローバルプランニングと効率的なKG探査をさらに改善する。
複数のKBQAベンチマークに関する実証的な証拠は、EffiQAの有効性を示し、推論精度と計算コストの最適バランスを達成している。
我々は、LLMとKGの統合を再定義し、知識に基づく質問応答に関する今後の研究を促進することにより、より効率的で知識集約的なクエリの道を開くことを期待する。
While large language models (LLMs) have shown remarkable capabilities in natural language processing, they struggle with complex, multi-step reasoning tasks involving knowledge graphs (KGs). Existing approaches that integrate LLMs and KGs either underutilize the reasoning abilities of LLMs or suffer from prohibitive computational costs due to tight coupling. To address these limitations, we propose a novel collaborative framework named EffiQA that can strike a balance between performance and efficiency via an iterative paradigm. EffiQA consists of three stages: global planning, efficient KG exploration, and self-reflection. Specifically, EffiQA leverages the commonsense capability of LLMs to explore potential reasoning pathways through global planning. Then, it offloads semantic pruning to a small plug-in model for efficient KG exploration. Finally, the exploration results are fed to LLMs for self-reflection to further improve the global planning and efficient KG exploration. Empirical evidence on multiple KBQA benchmarks shows EffiQA's effectiveness, achieving an optimal balance between reasoning accuracy and computational costs. We hope the proposed new framework will pave the way for efficient, knowledge-intensive querying by redefining the integration of LLMs and KGs, fostering future research on knowledge-based question answering. | 翻訳日:2024-07-10 01:20:00 公開日:2024-07-07 |
# Re-ReST: 言語エージェントのための反射強化自己学習
Re-ReST: Reflection-Reinforced Self-Training for Language Agents ( http://arxiv.org/abs/2406.01495v2 ) ライセンス: Link先を確認 | Zi-Yi Dou, Cheng-Fu Yang, Xueqing Wu, Kai-Wei Chang, Nanyun Peng, | (参考訳) 推論的軌跡を持つ言語エージェントは効果的であるが、人間のアノテーションやより強力なモデルからこれらの軌跡を得るのは費用がかかり、時には実用的ではない。
本稿では,言語エージェントにおける自己学習の利用について検討し,エージェント自体からエージェントを監督し,人間やより強力なモデルデモに頼ることなく,有望な代替手段を提供する。
しかし、自己学習には高品質なモデル生成サンプルが必要である。
これを解決するために,リフレクション強化自己訓練(Rerelection-Reinforced Self-Training, Re-ReST)を提案する。
リフレクタは、外部環境(例えば、コード生成の単体テスト結果)からエージェントの出力とフィードバックを受け取り、改善されたサンプルを生成する。
この技術は、劣悪なサンプルの品質を高め、高品質なサンプルで自己学習データセットを効率的に強化する。
我々は,マルチホップ質問応答,シーケンシャルな意思決定,コード生成,視覚的質問応答,テキスト・ツー・イメージ生成など,タスクにまたがるオープンソースの言語エージェントに関する広範な実験を行った。
その結果、言語エージェントタスクにおける自己学習とRe-ReSTの有効性が示され、HotpotQAでは7.6\%、AlfWorldでは28.4\%、Re-ReSTではさらにパフォーマンスが2.0\%、14.1\%向上した。
また,リフレクタを用いた自己学習のための高品質なサンプル作成の効率性についても検証した。
さらに,従来のリフレクション作業の限界に対処するため,地絡フィードバックを伴わずに推論中にリフレクションを利用する手法を実証した。
私たちのコードはhttps://github.com/PlusLabNLP/Re-ReSTでリリースされています。
Finetuning language agents with reasoning-action trajectories is effective, but obtaining these trajectories from human annotations or stronger models is costly and sometimes impractical. In this paper, we investigate the use of self-training in language agents, which can generate supervision from the agent itself, offering a promising alternative without relying on human or stronger model demonstrations. Self-training, however, requires high-quality model-generated samples, which are hard to obtain for challenging language agent tasks. To address this, we present Reflection-Reinforced Self-Training (Re-ReST), which uses a \textit{reflector} to refine low-quality generated samples during self-training. The reflector takes the agent's output and feedback from an external environment (e.g., unit test results in code generation) to produce improved samples. This technique enhances the quality of inferior samples and efficiently enriches the self-training dataset with higher-quality samples. We conduct extensive experiments on open-source language agents across tasks, including multi-hop question answering, sequential decision-making, code generation, visual question answering, and text-to-image generation. The results demonstrate the effectiveness of self-training and Re-ReST in language agent tasks, with self-training improving baselines by 7.6\% on HotpotQA and 28.4\% on AlfWorld, and Re-ReST further boosting performance by 2.0\% and 14.1\%, respectively. Our studies also confirm the efficiency of using a reflector to generate high-quality samples for self-training. Moreover, we demonstrate a method to employ reflection during inference without ground-truth feedback, addressing the limitation of previous reflection work. Our code is released at https://github.com/PlusLabNLP/Re-ReST. | 翻訳日:2024-07-10 01:20:00 公開日:2024-07-07 |
# 物理知識とデータに制限のある動的プロセス操作のための物理インフォームニューラルネットワーク
Physics-Informed Neural Networks for Dynamic Process Operations with Limited Physical Knowledge and Data ( http://arxiv.org/abs/2406.01528v2 ) ライセンス: Link先を確認 | Mehmet Velioglu, Song Zhai, Sophia Rupprecht, Alexander Mitsos, Andreas Jupke, Manuel Dahmen, | (参考訳) 化学工学では、プロセスデータを取得するのが高価であり、複雑な現象を完全にモデル化することは困難である。
物理インフォームドニューラルネットワーク(PINN)の非完全機械的半特殊微分代数方程式系および不足過程データを用いた動的プロセスへの応用について検討する。
特に,直接観測データも構成方程式も利用できない状態の推定に着目する。
本稿では,そのような状態の推定が可能かどうかを評価するため,容易に適用可能なヒューリスティックを提案する。
数値的な例として, 連続的に沸騰するタンクリアクターと液液分離器について考察する。
PINNは、測定されていない状態を妥当な精度で推測でき、純粋にデータ駆動モデルよりも低データシナリオでよりよく一般化できる。
そこで, PINNは実験データが少なく, 一部しか知られていない機械的記述が利用可能である場合に, プロセスのモデル化が可能であることを示し, さらなる調査を保証できる有望な方法であると結論付けた。
In chemical engineering, process data are expensive to acquire, and complex phenomena are difficult to fully model. We explore the use of physics-informed neural networks (PINNs) for dynamic processes with incomplete mechanistic semi-explicit differential-algebraic equation systems and scarce process data. In particular, we focus on estimating states for which neither direct observational data nor constitutive equations are available. We propose an easy-to-apply heuristic to assess whether estimation of such states may be possible. As numerical examples, we consider a continuously stirred tank reactor and a liquid-liquid separator. We find that PINNs can infer unmeasured states with reasonable accuracy, and they generalize better in low-data scenarios than purely data-driven models. We thus show that PINNs are capable of modeling processes when relatively few experimental data and only partially known mechanistic descriptions are available, and conclude that they constitute a promising avenue that warrants further investigation. | 翻訳日:2024-07-10 01:20:00 公開日:2024-07-07 |
# I-MPN: 移動眼球追跡データの効率的な人間対ループアノテーションのための誘導型メッセージパッシングネットワーク
I-MPN: Inductive Message Passing Network for Efficient Human-in-the-Loop Annotation of Mobile Eye Tracking Data ( http://arxiv.org/abs/2406.06239v2 ) ライセンス: Link先を確認 | Hoang H. Le, Duy M. H. Nguyen, Omair Shahzad Bhatti, Laszlo Kopacsi, Thinh P. Ngo, Binh T. Nguyen, Michael Barz, Daniel Sonntag, | (参考訳) 動的設定における視覚情報の処理方法の補完は、心理学とユーザ中心のインタラクションの設計に不可欠である。
エゴセントリックなビデオと視線信号を組み合わせたモバイルアイトラッキングシステムは、貴重な洞察を与えることができるが、これらの記録を手動で分析するのは時間を要する。
本研究では,移動眼球追跡設定における物体の自動認識のための新しい人中心学習アルゴリズムを提案する。
提案手法は,オブジェクト検出器と空間的関係を考慮した誘導型メッセージパッシングネットワーク(I-MPN)をシームレスに統合し,ノードプロファイル情報を活用し,オブジェクト相関を捉える。
このようなメカニズムにより,ユーザが環境をナビゲートする際の動的文脈における迅速な適応と効率的な推論を容易にし,新たなオブジェクトアングルビューに一般化可能な埋め込み関数を学習することができる。
3つの異なるビデオシーケンスで行った実験を通じて、ユーザフィードバックによって収集されたかなり小さな注釈付きサンプルをトレーニングしても、我々のインタラクティブな手法は、固定トレーニング/テストアルゴリズムよりも顕著な性能向上を示した。
さらに、データアノテーションプロセスにおいて例外的な効率性を示し、完全なオブジェクト検出器を使用したり、デザイナと畳み込みネットワークを組み合わせたり、インタラクティブなビデオセグメンテーションを使ったりといった、これまでの対話的手法を超越している。
Comprehending how humans process visual information in dynamic settings is crucial for psychology and designing user-centered interactions. While mobile eye-tracking systems combining egocentric video and gaze signals can offer valuable insights, manual analysis of these recordings is time-intensive. In this work, we present a novel human-centered learning algorithm designed for automated object recognition within mobile eye-tracking settings. Our approach seamlessly integrates an object detector with a spatial relation-aware inductive message-passing network (I-MPN), harnessing node profile information and capturing object correlations. Such mechanisms enable us to learn embedding functions capable of generalizing to new object angle views, facilitating rapid adaptation and efficient reasoning in dynamic contexts as users navigate their environment. Through experiments conducted on three distinct video sequences, our interactive-based method showcases significant performance improvements over fixed training/testing algorithms, even when trained on considerably smaller annotated samples collected through user feedback. Furthermore, we demonstrate exceptional efficiency in data annotation processes and surpass prior interactive methods that use complete object detectors, combine detectors with convolutional networks, or employ interactive video segmentation. | 翻訳日:2024-07-10 01:20:00 公開日:2024-07-07 |
# データ効率の良いRLHFのためのプロトタイプリワードネットワーク
Prototypical Reward Network for Data-Efficient RLHF ( http://arxiv.org/abs/2406.06606v2 ) ライセンス: Link先を確認 | Jinghan Zhang, Xiting Wang, Yiqiao Jin, Changyu Chen, Xinhao Zhang, Kunpeng Liu, | (参考訳) Reinforcement Learning from Human Feedback (RLHF) の報酬モデルは、微調整されたLarge Language Models (LLMs) に有効であることが証明されている。
特に、RLHFに対する人的フィードバックの収集はリソース集約的であり、LLMや複雑なタスクのスケーラビリティの問題につながる可能性がある。
提案するフレームワークであるProto-RMは,人間からのフィードバックに制限された報酬モデルを改善するために,プロトタイプネットワークを活用している。
より少ないサンプルから安定かつ信頼性の高い構造学習を可能にすることにより、Proto-RMはLLMの適応性と人間の嗜好を解釈する精度を大幅に向上させる。
様々なデータセットに対する大規模な実験により、Proto-RMは、人間のフィードバックタスクにおける報酬モデルとLLMのパフォーマンスを著しく改善し、従来の手法と同等で、通常はより良い結果を得る一方で、データを大幅に少なくすることを示した。
データ制限のシナリオで。
この研究は、報酬モデルの効率を高め、制限されたフィードバック条件下での言語モデルの微調整を最適化するための有望な方向性を提供する。
The reward model for Reinforcement Learning from Human Feedback (RLHF) has proven effective in fine-tuning Large Language Models (LLMs). Notably, collecting human feedback for RLHF can be resource-intensive and lead to scalability issues for LLMs and complex tasks. Our proposed framework Proto-RM leverages prototypical networks to enhance reward models under limited human feedback. By enabling stable and reliable structural learning from fewer samples, Proto-RM significantly enhances LLMs' adaptability and accuracy in interpreting human preferences. Extensive experiments on various datasets demonstrate that Proto-RM significantly improves the performance of reward models and LLMs in human feedback tasks, achieving comparable and usually better results than traditional methods, while requiring significantly less data. in data-limited scenarios. This research offers a promising direction for enhancing the efficiency of reward models and optimizing the fine-tuning of language models under restricted feedback conditions. | 翻訳日:2024-07-10 01:20:00 公開日:2024-07-07 |
# グラフ製品とグラフ粗大化によるグラフGNNのフレキシブルで等価なフレームワーク
A Flexible, Equivariant Framework for Subgraph GNNs via Graph Products and Graph Coarsening ( http://arxiv.org/abs/2406.09291v2 ) ライセンス: Link先を確認 | Guy Bar-Shalom, Yam Eitan, Fabrizio Frasca, Haggai Maron, | (参考訳) グラフグラフニューラルネットワーク(サブグラフGNN)は,グラフをサブグラフの集合として表現することで,メッセージパスGNNの表現性を向上する。
彼らはいくつかのタスクで素晴らしいパフォーマンスを示しているが、その複雑さはアプリケーションをより大きなグラフに制限している。
以前のアプローチでは、ランダムにまたは学習可能なサンプリングによって選択されたサブグラフのサブセットのみを処理することを提案していた。
しかし、それらは準最適部分グラフ選択を行うか、非常に小さなサブセットサイズにしか対応できず、必然的に性能劣化を引き起こす。
本稿では,これらの問題に対処する新しいSubgraph GNNフレームワークを提案する。
クラスタノードを誘導接続したスーパーノードにグラフ粗化関数を適用する。
粗いグラフと元のグラフの間の積は暗黙の構造を示し、それによってグラフは特定のノードの集合に関連付けられる。
このようなグラフ製品上で一般化されたメッセージパッシングを実行することで,効率的かつ強力なサブグラフGNNを効果的に実装する。
粗い関数を制御することで、任意の数のサブグラフを有意義に選択できるが、従来の手法とは対照的に、標準的な訓練手法と完全に互換性がある。
特に、結果のノード特徴テンソルが新しい、未探索な置換対称性を示すことが分かる。
我々は、この構造を活用し、関連する線形同変層を特徴付け、それらをサブグラフGNNアーキテクチャの層に組み込む。
複数のグラフ学習ベンチマークの大規模な実験により,提案手法は従来手法よりもはるかに柔軟であり,任意のサブグラフをシームレスに扱える一方で,ベースライン手法よりも一貫して優れていることが示された。
Subgraph Graph Neural Networks (Subgraph GNNs) enhance the expressivity of message-passing GNNs by representing graphs as sets of subgraphs. They have shown impressive performance on several tasks, but their complexity limits applications to larger graphs. Previous approaches suggested processing only subsets of subgraphs, selected either randomly or via learnable sampling. However, they make suboptimal subgraph selections or can only cope with very small subset sizes, inevitably incurring performance degradation. This paper introduces a new Subgraph GNNs framework to address these issues. We employ a graph coarsening function to cluster nodes into super-nodes with induced connectivity. The product between the coarsened and the original graph reveals an implicit structure whereby subgraphs are associated with specific sets of nodes. By running generalized message-passing on such graph product, our method effectively implements an efficient, yet powerful Subgraph GNN. Controlling the coarsening function enables meaningful selection of any number of subgraphs while, contrary to previous methods, being fully compatible with standard training techniques. Notably, we discover that the resulting node feature tensor exhibits new, unexplored permutation symmetries. We leverage this structure, characterize the associated linear equivariant layers and incorporate them into the layers of our Subgraph GNN architecture. Extensive experiments on multiple graph learning benchmarks demonstrate that our method is significantly more flexible than previous approaches, as it can seamlessly handle any number of subgraphs, while consistently outperforming baseline approaches. | 翻訳日:2024-07-10 01:10:12 公開日:2024-07-07 |
# Vid3D:2次元ビデオ拡散を用いた動的3次元シーンの合成
Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion ( http://arxiv.org/abs/2406.11196v2 ) ライセンス: Link先を確認 | Rishab Parthasarathy, Zachary Ankner, Aaron Gokaslan, | (参考訳) コンピュータビジョンにおける最近のフロンティアは、シーンの時間変化した3D表現を生成する3Dビデオ生成のタスクである。
動的3Dシーンを生成するために、現在の手法は、時間とシーンのビューの両方の一貫性を共同で最適化することにより、3Dの時間的ダイナミクスを明示的にモデル化する。
本稿では,現行のアプローチのように時間とともに多視点の一貫性を明示的に実施する必要があるか,あるいはモデルが各タイムステップの3次元表現を独立して生成するのに十分なのかを検討する。
そこで我々は,2次元映像拡散を利用したモデルVid3Dを提案し,まずビデオの時間的ダイナミクスの2次元「シード」を生成し,その後,シードビデオの各ステップ毎に独立して3次元表現を生成する。
我々は,Vid3Dを最先端の2つの3Dビデオ生成手法に対して評価し,3D時間力学を明示的にモデル化していないにもかかわらず,Vid3Dが同等の結果が得られることを確認した。
さらに、Vid3Dの品質が、フレーム毎に生成されたビュー数に依存するかについても検討する。
より少ないビューでいくつかの劣化を観察する一方で、パフォーマンスの劣化は小さいままです。
この結果から,高品質な動的3次元シーンを生成するには3次元時間的知識は必要ない可能性が示唆された。
A recent frontier in computer vision has been the task of 3D video generation, which consists of generating a time-varying 3D representation of a scene. To generate dynamic 3D scenes, current methods explicitly model 3D temporal dynamics by jointly optimizing for consistency across both time and views of the scene. In this paper, we instead investigate whether it is necessary to explicitly enforce multiview consistency over time, as current approaches do, or if it is sufficient for a model to generate 3D representations of each timestep independently. We hence propose a model, Vid3D, that leverages 2D video diffusion to generate 3D videos by first generating a 2D "seed" of the video's temporal dynamics and then independently generating a 3D representation for each timestep in the seed video. We evaluate Vid3D against two state-of-the-art 3D video generation methods and find that Vid3D is achieves comparable results despite not explicitly modeling 3D temporal dynamics. We further ablate how the quality of Vid3D depends on the number of views generated per frame. While we observe some degradation with fewer views, performance degradation remains minor. Our results thus suggest that 3D temporal knowledge may not be necessary to generate high-quality dynamic 3D scenes, potentially enabling simpler generative algorithms for this task. | 翻訳日:2024-07-10 01:10:12 公開日:2024-07-07 |
# 機械的解釈可能性によるモデル性能のコンパクト証明
Compact Proofs of Model Performance via Mechanistic Interpretability ( http://arxiv.org/abs/2406.11779v7 ) ライセンス: Link先を確認 | Jason Gross, Rajashree Agrawal, Thomas Kwa, Euan Ong, Chun Hei Yip, Alex Gibson, Soufiane Noubir, Lawrence Chan, | (参考訳) 本稿では,モデル性能の形式的保証を導出し,コンパクトに証明するために,機械的解釈可能性,すなわちリバースエンジニアリングモデルウェイトを人間解釈可能なアルゴリズムに変換する手法を提案する。
提案手法は, 最大K$タスクで訓練した151個の小型変圧器の精度について, 下限を正式に証明して試作する。
我々は,コンピュータ支援型証明戦略を102種類作成し,それぞれのモデルに対して,その長さと厳密さを評価する。
定量的な測定値を用いることで、より短い証明が必要になり、より機械的な理解が得られます。
さらに、より忠実なメカニスティックな理解が、パフォーマンス境界の厳密化につながることが分かっています。
これらの関係は、証明のサブセットを質的に検証することで確認する。
最後に, モデル性能に関するコンパクトな証明を生成するために, 機械的解釈可能性を利用する上で重要な課題として, 合成構造のないノイズを同定する。
We propose using mechanistic interpretability -- techniques for reverse engineering model weights into human-interpretable algorithms -- to derive and compactly prove formal guarantees on model performance. We prototype this approach by formally proving lower bounds on the accuracy of 151 small transformers trained on a Max-of-$K$ task. We create 102 different computer-assisted proof strategies and assess their length and tightness of bound on each of our models. Using quantitative metrics, we find that shorter proofs seem to require and provide more mechanistic understanding. Moreover, we find that more faithful mechanistic understanding leads to tighter performance bounds. We confirm these connections by qualitatively examining a subset of our proofs. Finally, we identify compounding structureless noise as a key challenge for using mechanistic interpretability to generate compact proofs on model performance. | 翻訳日:2024-07-10 01:10:12 公開日:2024-07-07 |
# Imperative Learning:ロボット自律性のための自己教師型ニューラルネットワーク学習フレームワーク
Imperative Learning: A Self-supervised Neural-Symbolic Learning Framework for Robot Autonomy ( http://arxiv.org/abs/2406.16087v2 ) ライセンス: Link先を確認 | Chen Wang, Kaiyi Ji, Junyi Geng, Zhongqiang Ren, Taimeng Fu, Fan Yang, Yifan Guo, Haonan He, Xiangyu Chen, Zitong Zhan, Qiwei Du, Shaoshu Su, Bowen Li, Yuheng Qiu, Yi Du, Qihang Li, Yifan Yang, Xiao Lin, Zhipeng Zhao, | (参考訳) 強化や模倣学習のようなデータ駆動の手法は、ロボットの自律性において顕著な成功を収めた。
しかし、データ中心の性質は、常に変化する環境への一般化を妨げている。
さらに、ロボットタスクのための大規模なデータセットの収集は非現実的で高価であることが多い。
これらの課題を克服するために,ロボット自律のための自己教師型ニューラルシンボリック(NeSy)計算フレームワーク,インペラティブラーニング(IL)を導入し,シンボル推論の一般化能力を活用する。
ILのフレームワークは、ニューラルモジュール、推論エンジン、メモリシステムという3つの主要コンポーネントで構成されている。
ILを特別な二段階最適化(BLO)として定式化し、3つのモジュール間の相互学習を可能にする。
これは、データ駆動アプローチに関連するラベル集約的な障害を克服し、論理的推論、物理原理、幾何学的解析などに関する象徴的推論を活用する。
本稿では,ILの最適化手法について議論し,経路計画,ルール誘導,最適制御,視覚計測,マルチロボットルーティングを含む5つのロボット自律作業において,その有効性を検証する。
様々な実験を通して、ILはロボットの自律能力を大幅に向上させ、様々な領域にわたるさらなる研究を促進することを期待する。
Data-driven methods such as reinforcement and imitation learning have achieved remarkable success in robot autonomy. However, their data-centric nature still hinders them from generalizing well to ever-changing environments. Moreover, collecting large datasets for robotic tasks is often impractical and expensive. To overcome these challenges, we introduce a new self-supervised neural-symbolic (NeSy) computational framework, imperative learning (IL), for robot autonomy, leveraging the generalization abilities of symbolic reasoning. The framework of IL consists of three primary components: a neural module, a reasoning engine, and a memory system. We formulate IL as a special bilevel optimization (BLO), which enables reciprocal learning over the three modules. This overcomes the label-intensive obstacles associated with data-driven approaches and takes advantage of symbolic reasoning concerning logical reasoning, physical principles, geometric analysis, etc. We discuss several optimization techniques for IL and verify their effectiveness in five distinct robot autonomy tasks including path planning, rule induction, optimal control, visual odometry, and multi-robot routing. Through various experiments, we show that IL can significantly enhance robot autonomy capabilities and we anticipate that it will catalyze further research across diverse domains. | 翻訳日:2024-07-10 01:00:13 公開日:2024-07-07 |
# アラビア方言のゼロショットテキスト音声化に向けて
Towards Zero-Shot Text-To-Speech for Arabic Dialects ( http://arxiv.org/abs/2406.16751v3 ) ライセンス: Link先を確認 | Khai Duy Doan, Abdul Waheed, Muhammad Abdul-Mageed, | (参考訳) ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。
このギャップに対処するアラビア語は、4億5000万人以上の母語話者の言語で、まず、音声合成のニーズに合う大きさの既存のデータセットを適用します。
さらに、アラビア語の方言識別モデルを用いて、事前定義された方言ラベルが多方言環境でのZS-TTSモデルの改善に与える影響を探索する。
XTTS\footnote{https://docs.coqui.ai/en/latest/models/xtts.html}\footnote{https://medium.com/machine-learns/xtts-v2-new-version-of-the-open-source-text-to-speech-model-af7391 4db81f}\footnote{https://medium.com/@erogol/xtts-v1-techincal-notes-eb83ff05bdc} は、オープンソースのアーキテクチャである。
次に、31人の未確認話者と、社内の方言データセットからなるデータセット上で、我々のモデルを評価した。
自動評価と人的評価の結果は、方言音声を生成でき、説得力のある性能を示す。
我々の研究は、アラビア語におけるこの新たな研究領域の改善の可能性を強調している。
Zero-shot multi-speaker text-to-speech (ZS-TTS) systems have advanced for English, however, it still lags behind due to insufficient resources. We address this gap for Arabic, a language of more than 450 million native speakers, by first adapting a sizeable existing dataset to suit the needs of speech synthesis. Additionally, we employ a set of Arabic dialect identification models to explore the impact of pre-defined dialect labels on improving the ZS-TTS model in a multi-dialect setting. Subsequently, we fine-tune the XTTS\footnote{https://docs.coqui.ai/en/latest/models/xtts.html}\footnote{https://medium.com/machine-learns/xtts-v2-new-version-of-the-open-source-text-to-speech-model-af7391 4db81f}\footnote{https://medium.com/@erogol/xtts-v1-techincal-notes-eb83ff05bdc} model, an open-source architecture. We then evaluate our models on a dataset comprising 31 unseen speakers and an in-house dialectal dataset. Our automated and human evaluation results show convincing performance while capable of generating dialectal speech. Our study highlights significant potential for improvements in this emerging area of research in Arabic. | 翻訳日:2024-07-10 01:00:13 公開日:2024-07-07 |
# 質量重畳BTZブラックホールのホーキング放射の量子相関
Quantum correlation of Hawking radiations for mass-superposed BTZ black holes ( http://arxiv.org/abs/2406.17327v2 ) ライセンス: Link先を確認 | Hongbin Zhang, Baocheng Zhang, | (参考訳) ウンルー・デウィット検出器モデルを用いた最近の研究により、ブラックホール質量重畳の量子的シグネチャが明らかになった。
本稿では,等時密度密度相関関数を用いて,BTZブラックホールの質量重畳を再検討する。
興味深いことに、BTZブラックホール質量重畳の量子シグネチャは、等時密度密度相関ピークによって明らかにできる。
さらに、同じ質量比の異なる質量重ね合わせを区別することができるが、これは以前に記録されていない現象である。
特に、相関関数法は、質量重畳されたBTZブラックホールであっても、ホーキング放射の発生位置を特定できる。
この位置は、相関関数が最大値に達する地平線の半径の約2倍半であり、これは、量子的に重畳された時空においても、ホーキング放射の起源軌跡としての量子大気の概念を支持する。
Recent studies using the Unruh-DeWitt detector model have revealed the quantum signatures of black hole mass superposition. In this paper, we use the equal-time density-density correlation function to reinvestigate the mass superposition of BTZ black holes. Interestingly, the quantum signatures of BTZ black hole mass superposition can be revealed by the equal-time density-density correlation peaks. Additionally, different mass superpositions for the same mass ratio can be distinguished, a phenomenon not previously documented. Specifically, the correlation function method can pinpoint the location where Hawking radiations are generated, even for mass-superposed BTZ black holes. Our findings indicate that this location is approximately at two and a half times the radius of the horizon, where the correlation function reaches its maximum.This supports the concept of a quantum atmosphere as the origin locus of Hawking radiation,even in quantum-superposed spacetimes. | 翻訳日:2024-07-10 01:00:13 公開日:2024-07-07 |
# 半適応型相乗的双方向擬似逆学習システム
Semi-adaptive Synergetic Two-way Pseudoinverse Learning System ( http://arxiv.org/abs/2406.18931v2 ) ライセンス: Link先を確認 | Binghong Liu, Ziqi Zhao, Shupan Li, Ke Wang, | (参考訳) ディープラーニングは多くの分野でブレークスルーを行う上で重要な技術になっている。
それでも、理論と応用面では2つの重要な課題に直面している。
1つ目は、学習制御ハイパーパラメータを決定するのに時間がかかり、困難である勾配降下に基づく学習スキームの欠点である。
次に、モデルのアーキテクチャ設計は、通常、トリッキーである。
本稿では,前向き学習,後向き学習,特徴連結モジュールを含む半適応型双方向擬似逆学習システムを提案する。
システム全体は、非段階的な降下学習アルゴリズムを用いて訓練される。
トレーニング効率を向上しながら、ハイパーパラメータチューニングを簡略化する。
サブシステムのアーキテクチャは、サブシステムの深さの自動決定を可能にするデータ駆動型アプローチを用いて設計されている。
本手法と本手法の基幹となる非階調降下法を比較し,提案手法の有効性を実証した。
本論文のソースコードはhttp://github.com/B-berrypie/Semi-adaptive-Synergetic-Two-way-Pseudoinverse-Learning-System}{http://github.com/B-berrypie/Semi-adaptive-Synergetic-Two-way-Pseudoinverse-Learning-Systemで公開されている。
Deep learning has become a crucial technology for making breakthroughs in many fields. Nevertheless, it still faces two important challenges in theoretical and applied aspects. The first lies in the shortcomings of gradient descent based learning schemes which are time-consuming and difficult to determine the learning control hyperparameters. Next, the architectural design of the model is usually tricky. In this paper, we propose a semi-adaptive synergetic two-way pseudoinverse learning system, wherein each subsystem encompasses forward learning, backward learning, and feature concatenation modules. The whole system is trained using a non-gradient descent learning algorithm. It simplifies the hyperparameter tuning while improving the training efficiency. The architecture of the subsystems is designed using a data-driven approach that enables automated determination of the depth of the subsystems. We compare our method with the baselines of mainstream non-gradient descent based methods and the results demonstrate the effectiveness of our proposed method. The source code for this paper is available at http://github.com/B-berrypie/Semi-adaptive-Synergetic-Two-way-Pseudoinverse-Learning-System}{http://github.com/B-berrypie/Semi-adaptive-Synergetic-Two-way-Pseudoinverse-Learning-System. | 翻訳日:2024-07-10 00:50:23 公開日:2024-07-07 |
# MMR-Mamba:mambaと空間周波数情報融合を用いた多モードMRI再構成
MMR-Mamba: Multi-Modal MRI Reconstruction with Mamba and Spatial-Frequency Information Fusion ( http://arxiv.org/abs/2406.18950v2 ) ライセンス: Link先を確認 | Jing Zou, Lanqing Liu, Qi Chen, Shujun Wang, Zhanli Hu, Xiaohan Xing, Jing Qin, | (参考訳) マルチモーダルMRIは診断と治療に有用な補完情報を提供するが、その有用性はスキャン時間の延長によって制限される。
取得過程を高速化するため,本手法では,スキャン時間を短縮した全サンプリング参照モーダリティをガイダンスとして,サンプリング時間を要するターゲットモーダリティの画像を,全サンプリング参照モーダリティを用いてアンダーサンプリングしたk空間データから再構成する。
このタスクの主な課題は、様々なモダリティからの補完情報を包括的かつ効率的に統合し、高品質な再構築を実現することである。
既存のメソッドはこれと苦労します。
1) 畳み込みに基づくモデルは、長距離依存を捕捉できない。
2) トランスフォーマーモデルでは,グローバルな特徴モデリングに優れる一方で,2次計算複雑性に悩まされている。
そこで我々は,MMR-Mambaを提案する。MMR-Mambaは,Fourier領域のグローバルな特性を活用しつつ,線形計算複雑性で長距離依存関係をキャプチャする機能を活用し,MRI再構成のためのマルチモーダル機能を徹底的かつ効率的に統合する新しいフレームワークである。
具体的には、まず、ターゲットモード誘導型クロスマンバ(TCM)モジュールを空間領域に設計し、参照モードから関連情報を選択的に取り込み、ターゲットモード情報を最大に復元する。
次に、フーリエ領域のグローバル情報を効率的に統合し、構造情報の再構成のために高周波信号を復元する選択周波数融合(SFF)モジュールを提案する。
さらに,アダプティブ空間周波数融合(ASFF)モジュールを考案し,一方の領域と他方のチャネルを補うことで,空間領域と周波数領域を相互に拡張する。
Multi-modal MRI offers valuable complementary information for diagnosis and treatment; however, its utility is limited by prolonged scanning times. To accelerate the acquisition process, a practical approach is to reconstruct images of the target modality, which requires longer scanning times, from under-sampled k-space data using the fully-sampled reference modality with shorter scanning times as guidance. The primary challenge of this task is comprehensively and efficiently integrating complementary information from different modalities to achieve high-quality reconstruction. Existing methods struggle with this: 1) convolution-based models fail to capture long-range dependencies; 2) transformer-based models, while excelling in global feature modeling, struggle with quadratic computational complexity. To address this, we propose MMR-Mamba, a novel framework that thoroughly and efficiently integrates multi-modal features for MRI reconstruction, leveraging Mamba's capability to capture long-range dependencies with linear computational complexity while exploiting global properties of the Fourier domain. Specifically, we first design a Target modality-guided Cross Mamba (TCM) module in the spatial domain, which maximally restores the target modality information by selectively incorporating relevant information from the reference modality. Then, we introduce a Selective Frequency Fusion (SFF) module to efficiently integrate global information in the Fourier domain and recover high-frequency signals for the reconstruction of structural details. Furthermore, we devise an Adaptive Spatial-Frequency Fusion (ASFF) module, which mutually enhances the spatial and frequency domains by supplementing less informative channels from one domain with corresponding channels from the other. | 翻訳日:2024-07-10 00:50:23 公開日:2024-07-07 |
# YZS-model: Graph Convolutional NetworksとTransformer-Attentionに基づく有機医薬品溶解度予測モデル
YZS-model: A Predictive Model for Organic Drug Solubility Based on Graph Convolutional Networks and Transformer-Attention ( http://arxiv.org/abs/2406.19136v3 ) ライセンス: Link先を確認 | Chenxu Wang, Haowei Ming, Jian He, Yao Lu, | (参考訳) 薬物分子溶解性の正確な予測は、薬のADMEプロセスに影響を与える治療効果と安全性を決定するために不可欠である。
従来の溶解度予測技術は、しばしば分子トラクチャーの複雑な性質を捉えるのに失敗し、予測と実際の結果の間に顕著な違いをもたらす。
例えば、先進的な薬物様化合物構造に関する議論である。
ルシは環構造を持つ分子において重要な循環構造情報を取得する際の問題を強調した。
そこで本研究では,注目に基づくトランスフォーマー,Long Short-Term Memory (LSTM) ネットワーク,および可溶性予測の精度向上を目的としたGraph Convolutional Networks (GCN) を組み合わせた新しいディープラーニングフレームワークを提案する。
9,943の化合物のトレーニングセットと抗がん化合物データセットを用いた試験により, 相関係数0.59, 根平均角誤差0.57, ベンチマークモデルのスコア0.52(R^2$)と0.61(RMSE)を上回った。
追加の独立試験では, RMSEが1.05, RMSEが1.28, 相対精度が45.9%であった。
本研究は, 溶解度予測精度を向上させるためのディープラーニングの可能性を示すだけでなく, 薬物の設計と選択に関する新たな知見を提供する。
継続的な取り組みは、モデルアーキテクチャの最適化と、薬物開発プロセスのより良いサポートのためにそのアプリケーションの拡張に向けられ、薬物発見における深層学習の重要な役割を浮き彫りにする。
The accurate prediction of drug molecule solubility is essential for determining their therapeutic effectiveness and safety, influencing the drug's ADME processes. Traditional solubility prediction techniques often fail to capture the complex nature of molecular tructures, leading to notable deviations between predictions and actual results. For example, the Discussion on Advanced Drug-Like Compound Structures. Lusci highlighted issues in capturing crucial cyclic structural information in molecules with ring structures. To overcome this issue, our research introduces a novel deep learning framework combining attention-based transformers, Long Short-Term Memory (LSTM) networks, and Graph Convolutional Networks (GCN), aimed at enhancing the precision of solubility predictions. Utilizing a training set of 9,943 compounds and testing on an anticancer compound dataset, our method achieved a correlation coefficient ($R^2$) of 0.59 and a Root Mean Square Error (RMSE) of 0.57, which outperforms the benchmark models' scores of 0.52 ($R^2$) and 0.61 (RMSE). Importantly, in an additional independent test, our model significantly outperformed the baseline with an RMSE of 1.05 compared to 1.28, a relative accuracy improvement of 45.9%. This research not only demonstrates the vast potential of deep learning for improving solubility prediction accuracy but also offers novel insights for drug design and selection in the future. Continued efforts will be directed towards optimizing the model architecture and extending its application to better support the drug development process, underscoring the pivotal role of deep learning in drug discovery. | 翻訳日:2024-07-10 00:50:23 公開日:2024-07-07 |
# インスタンス温度知識蒸留
Instance Temperature Knowledge Distillation ( http://arxiv.org/abs/2407.00115v3 ) ライセンス: Link先を確認 | Zhengbo Zhang, Yuxi Zhou, Jia Gong, Jun Liu, Zhigang Tu, | (参考訳) 知識蒸留(KD)は,教師ネットワークから移行した知識を段階的に学習することで,学生ネットワークの性能を向上させる。
既存の学習方法は、KDの異なる学習段階において、学生ネットワークが様々な学習困難に適応できるように、動的に温度調整を行う。
KDは連続的なプロセスであるが、温度を調整する際、これらの手法は現在の学習段階における操作の即時的な利点のみを考慮し、将来の効果を考慮しない。
この問題に対処するため、温度調整を逐次意思決定タスクとして定式化し、RLKDと呼ばれる強化学習に基づく手法を提案する。
重要なことは、エージェントがより情報的な行動(例えば温度調整)を行えるように、新しい状態表現を設計することである。
KD設定による遅延報酬問題に対処するため,ケース報酬校正手法を提案する。
さらに,有効な探索戦略を考案し,有効なインスタンス温度調整ポリシーを学習できるようにする。
本フレームワークは,様々なKDメソッドに挿入可能なプラグイン・アンド・プレイ技術として機能し,画像分類とオブジェクト検出の両タスクにおいて,その有効性を検証する。
私たちのプロジェクトはhttps://www.zayx.me/ITKD.github.io/にあります。
Knowledge distillation (KD) enhances the performance of a student network by allowing it to learn the knowledge transferred from a teacher network incrementally. Existing methods dynamically adjust the temperature to enable the student network to adapt to the varying learning difficulties at different learning stages of KD. KD is a continuous process, but when adjusting the temperature, these methods consider only the immediate benefits of the operation in the current learning phase and fail to take into account its future returns. To address this issue, we formulate the adjustment of temperature as a sequential decision-making task and propose a method based on reinforcement learning, termed RLKD. Importantly, we design a novel state representation to enable the agent to make more informed action (i.e. instance temperature adjustment). To handle the problem of delayed rewards in our method due to the KD setting, we explore an instance reward calibration approach. In addition,we devise an efficient exploration strategy that enables the agent to learn valuable instance temperature adjustment policy more efficiently. Our framework can serve as a plug-and-play technique to be inserted into various KD methods easily, and we validate its effectiveness on both image classification and object detection tasks. Our project is at https://www.zayx.me/ITKD.github.io/. | 翻訳日:2024-07-10 00:50:23 公開日:2024-07-07 |
# qLUE:多次元データセットのための量子クラスタリングアルゴリズム
qLUE: A Quantum Clustering Algorithm for Multi- Dimensional Datasets ( http://arxiv.org/abs/2407.00357v2 ) ライセンス: Link先を確認 | Dhruv Gopalakrishnan, Luca Dellantonio, Antonio Di Pilato, Wahid Redjeb, Felice Pantaleo, Michele Mosca, | (参考訳) クラスタリングアルゴリズムは、いくつかの技術応用に基づいており、機械学習のような急速に進化する分野の発展を加速している。
しかし、近年では、より空間的な次元にまたがるデータセットから生じる課題に直面していることが明らかになっている。
実際、最も優れたクラスタリングアルゴリズムは点数で線形にスケールするが、局所的な点密度については二次的にスケールする。
本稿では,点数と密度の両方で線形にスケールする量子クラスタリングアルゴリズムqLUEを紹介する。
qLUEは、将来の高エネルギー物理実験におけるイベント再構成(ER)の挑戦的な時間とメモリ予算に対応するために開発されたアルゴリズムであるCLUEにインスパイアされている。
このようにして、qLUEは量子コンピュータによって提供される二次的なスピードアップで数十年の開発をマージする。
我々はいくつかのシナリオでqLUEを数値的にテストし、その効果を実証し、特に高密度の高次元データセットにおいて、複雑なデータ分析タスクを処理するための有望なルートであることを証明した。
Clustering algorithms are at the basis of several technological applications, and are fueling the development of rapidly evolving fields such as machine learning. In the recent past, however, it has become apparent that they face challenges stemming from datasets that span more spatial dimensions. In fact, the best-performing clustering algorithms scale linearly in the number of points, but quadratically with respect to the local density of points. In this work, we introduce qLUE, a quantum clustering algorithm that scales linearly in both the number of points and their density. qLUE is inspired by CLUE, an algorithm developed to address the challenging time and memory budgets of Event Reconstruction (ER) in future High-Energy Physics experiments. As such, qLUE marries decades of development with the quadratic speedup provided by quantum computers. We numerically test qLUE in several scenarios, demonstrating its effectiveness and proving it to be a promising route to handle complex data analysis tasks -- especially in high-dimensional datasets with high densities of points. | 翻訳日:2024-07-10 00:50:23 公開日:2024-07-07 |
# JSCDS: Caries RGB画像のためのJason-Shannon分散を用いたコアデータ選択手法
JSCDS: A Core Data Selection Method with Jason-Shannon Divergence for Caries RGB Images-Efficient Learning ( http://arxiv.org/abs/2407.00362v2 ) ライセンス: Link先を確認 | Peiliang Zhang, Yujia Tong, Chenghu Du, Chao Che, Yongjun Zhu, | (参考訳) 深層学習に基づくRGBキャリー検出は、キャリー識別の効率を改善し、口腔疾患の予防に不可欠である。
ディープラーニングモデルのパフォーマンスは、高品質なデータに依存し、相当なトレーニングリソースを必要とするため、効率的なデプロイメントが困難になる。
低品質で紛らわしいデータを排除することで、コアデータの選択は、モデルパフォーマンスを著しく損なうことなく、トレーニング効率を向上させることを目的としている。
しかし,距離に基づくデータ選択手法は,高次元キャリーデータ間の依存関係の識別に苦慮している。
この問題に対処するために,Jensen-Shannon Divergence (JSCDS) を用いたコアデータ選択手法を提案する。
コアデータ選択基準を,異なるクラスにおけるサンプルの分布として記述する。
JSCDSは、カーリー分類ネットワークにサンプル埋め込み表現を用いてクラスタセンターを計算し、Jensen-Shannon Divergenceを用いて、データサンプルとクラスタセンター間の相互情報を計算し、高次元データ間の非線形依存関係をキャプチャする。
平均的相互情報は上記の分布に適合するように算出され、モデルトレーニングのコアセットを構築するための基準として機能する。
RGBキャリーデータセットの大規模な実験により、JSCDSは予測性能と時間消費において、他のデータ選択方法よりも優れていることが示された。
特に、JSCDSは、コアデータの50%しか持たない完全なデータセットモデルのパフォーマンスを上回り、そのパフォーマンス上の優位性は、コアデータの70%でより顕著になる。
Deep learning-based RGB caries detection improves the efficiency of caries identification and is crucial for preventing oral diseases. The performance of deep learning models depends on high-quality data and requires substantial training resources, making efficient deployment challenging. Core data selection, by eliminating low-quality and confusing data, aims to enhance training efficiency without significantly compromising model performance. However, distance-based data selection methods struggle to distinguish dependencies among high-dimensional caries data. To address this issue, we propose a Core Data Selection Method with Jensen-Shannon Divergence (JSCDS) for efficient caries image learning and caries classification. We describe the core data selection criterion as the distribution of samples in different classes. JSCDS calculates the cluster centers by sample embedding representation in the caries classification network and utilizes Jensen-Shannon Divergence to compute the mutual information between data samples and cluster centers, capturing nonlinear dependencies among high-dimensional data. The average mutual information is calculated to fit the above distribution, serving as the criterion for constructing the core set for model training. Extensive experiments on RGB caries datasets show that JSCDS outperforms other data selection methods in prediction performance and time consumption. Notably, JSCDS exceeds the performance of the full dataset model with only 50% of the core data, with its performance advantage becoming more pronounced in the 70% of core data. | 翻訳日:2024-07-10 00:50:23 公開日:2024-07-07 |
# 反復的ナッシュ政策最適化:非回帰学習による LLM の一般化
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning ( http://arxiv.org/abs/2407.00617v2 ) ライセンス: Link先を確認 | Yuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian, Mingyue Huo, Nan Jiang, Haitao Mi, Dong Yu, | (参考訳) Reinforcement Learning with Human Feedback (RLHF) は、大きな言語モデル(LLM)と人間の好みを一致させることで大きな成功を収めた。
一般的なRLHFアプローチは、Bradley-Terry(BT)モデル仮定に従って報酬ベースである。
本稿では,RLHFを一般的な嗜好の枠組みの下で探索し,ゲーム理論の観点からアプローチする。
具体的には、2人プレイヤゲームとして問題を定式化し、新しいアルゴリズムである反復ナッシュポリシー最適化(INPO)を提案する。
鍵となる考え方は、無関係の学習を通じて政策を自らに反抗させ、ナッシュ政策を近似させることである。
従来の手法とは異なり、INPOは個々の応答に対して期待される勝利率を見積もる必要性を回避し、通常は高い計算コストやアノテーションコストを発生させる。
代わりに、選好データセット上で直接最小化される新しい損失目標を導入する。
本稿では,提案手法の理論的解析を行い,様々な代表ベンチマークによる実験によりその効果を実証する。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で41.5%の勝利率、Arena-Hardで38.3%の勝利率を達成した。
さらに,我々のアブレーション研究は,応答長制御にKL正則化を組み込むことの利点を強調した。
Reinforcement Learning with Human Feedback (RLHF) has achieved great success in aligning large language models (LLMs) with human preferences. Prevalent RLHF approaches are reward-based, following the Bradley-Terry (BT) model assumption, which may not fully capture the complexity of human preferences. In this paper, we explore RLHF under a general preference framework and approach it from a game-theoretic perspective. Specifically, we formulate the problem as a two-player game and propose a novel algorithm, iterative Nash policy optimization (INPO). The key idea is to let the policy play against itself via no-regret learning, thereby approximating the Nash policy. Unlike previous methods, INPO bypasses the need for estimating the expected win rate for individual responses, which typically incurs high computational or annotation costs. Instead, we introduce a new loss objective that is directly minimized over a preference dataset. We provide theoretical analysis for our approach and demonstrate its effectiveness through experiments on various representative benchmarks. With an LLaMA-3-8B-based SFT model, INPO achieves a 41.5% length-controlled win rate on AlpacaEval 2.0 and a 38.3% win rate on Arena-Hard, showing substantial improvement over the state-of-the-art iterative algorithm [Dong et al., 2024] under the BT model assumption. Additionally, our ablation study highlights the benefits of incorporating KL regularization for response length control. | 翻訳日:2024-07-10 00:40:31 公開日:2024-07-07 |
# CaFNet: レーダカメラ深さ推定のための信頼性駆動フレームワーク
CaFNet: A Confidence-Driven Framework for Radar Camera Depth Estimation ( http://arxiv.org/abs/2407.00697v2 ) ライセンス: Link先を確認 | Huawei Sun, Hao Feng, Julius Ott, Lorenzo Servadei, Robert Wille, | (参考訳) 深度推定は3次元シーンを正確に解釈するために自律運転において重要である。
近年,レーダーのロバスト性や低コスト性から,レーダー・カメラ深度推定が十分に注目されている。
そこで本稿では,RGB画像とスパースおよびノイズの多いレーダポイントクラウドデータを組み合わせて,深度推定のための2段階の信頼度対応フュージョンネット(CaFNet)を提案する。
第1段階は、レーダーの信頼性マップと予備の粗い深さマップを予測することにより、不明瞭な標高やノイズ測定などのレーダー固有の課題に対処する。
レーダ点と対応する物体を関連付け、潜在的な射影面を特定することを含む、信頼マップの基底真理を生成するための新しいアプローチが提示される。
これらのマップと初期レーダ入力は、第2エンコーダによって処理される。
最終深度推定のために、レーダと画像の特徴を効果的に統合するための信頼性を考慮したゲート融合機構を発明し、レーダノイズを除去して深度マップの信頼性を高める。
提案手法はnuScenesデータセットに基づいて評価され,現在の先行モデルに対して,平均絶対誤差(MAE)が3.2%,Root Mean Square Error(RMSE)が2.7%向上した。
コード:https://github.com/harborsarah/CaFNet
Depth estimation is critical in autonomous driving for interpreting 3D scenes accurately. Recently, radar-camera depth estimation has become of sufficient interest due to the robustness and low-cost properties of radar. Thus, this paper introduces a two-stage, end-to-end trainable Confidence-aware Fusion Net (CaFNet) for dense depth estimation, combining RGB imagery with sparse and noisy radar point cloud data. The first stage addresses radar-specific challenges, such as ambiguous elevation and noisy measurements, by predicting a radar confidence map and a preliminary coarse depth map. A novel approach is presented for generating the ground truth for the confidence map, which involves associating each radar point with its corresponding object to identify potential projection surfaces. These maps, together with the initial radar input, are processed by a second encoder. For the final depth estimation, we innovate a confidence-aware gated fusion mechanism to integrate radar and image features effectively, thereby enhancing the reliability of the depth map by filtering out radar noise. Our methodology, evaluated on the nuScenes dataset, demonstrates superior performance, improving upon the current leading model by 3.2% in Mean Absolute Error (MAE) and 2.7% in Root Mean Square Error (RMSE). Code: https://github.com/harborsarah/CaFNet | 翻訳日:2024-07-10 00:40:31 公開日:2024-07-07 |
# 事前学習型言語モデルにおける認知知の発達
Development of Cognitive Intelligence in Pre-trained Language Models ( http://arxiv.org/abs/2407.01047v2 ) ライセンス: Link先を確認 | Raj Sanjay Shah, Khushi Bhardwaj, Sashank Varma, | (参考訳) 近年の研究では、PLM(Large Pre-trained Language Models)における創発的認知能力の証拠が示されている。
これらのモデルの認知的アライメントの増大は、認知科学理論の候補となっている。
PLMの創発的認知能力に関する以前の研究は、主にパス非依存のモデルトレーニング、すなわち、中間段階ではなく最終的なモデルウェイトに焦点を当ててきた。
しかし, PLMを用いた人間認知モデルの構築は, 子どもの思考の軌跡に対する学習時の行動の発達的アライメントを考慮すれば有益である。
人間の知能の心理測定テストにより、PLMの10家族のアライメントを調査する4つのタスクを選択し、その中間および最終訓練手順を評価する。
これらのタスクは、数値能力、言語能力、概念理解、および流体推論である。
モデルのサイズに関わらず、PLMの発達軌跡は、人間の認知発達に対する最大限の調整の窓を一貫して示している。
そのウィンドウの前には、トレーニングによって"ブランクスレート"モデルと、経験から素早く学ぶために必要な構造が提供されるように思われる。
この窓のあと、トレーニングは損失を減らすという工学的な目標に役立っているように見えるが、人間の認知との整合性を高めるという科学的目標ではない。
Recent studies show evidence for emergent cognitive abilities in Large Pre-trained Language Models (PLMs). The increasing cognitive alignment of these models has made them candidates for cognitive science theories. Prior research into the emergent cognitive abilities of PLMs has largely been path-independent to model training, i.e., has focused on the final model weights and not the intermediate steps. However, building plausible models of human cognition using PLMs would benefit from considering the developmental alignment of their performance during training to the trajectories of children's thinking. Guided by psychometric tests of human intelligence, we choose four sets of tasks to investigate the alignment of ten popular families of PLMs and evaluate their available intermediate and final training steps. These tasks are Numerical ability, Linguistic abilities, Conceptual understanding, and Fluid reasoning. We find a striking regularity: regardless of model size, the developmental trajectories of PLMs consistently exhibit a window of maximal alignment to human cognitive development. Before that window, training appears to endow "blank slate" models with the requisite structure to be poised to rapidly learn from experience. After that window, training appears to serve the engineering goal of reducing loss but not the scientific goal of increasing alignment with human cognition. | 翻訳日:2024-07-10 00:40:30 公開日:2024-07-07 |
# 極低周波コーンビームCT再構成のための3次元ガウスアンの学習
Learning 3D Gaussians for Extremely Sparse-View Cone-Beam CT Reconstruction ( http://arxiv.org/abs/2407.01090v2 ) ライセンス: Link先を確認 | Yiqun Lin, Hualiang Wang, Jixiang Chen, Xiaomeng Li, | (参考訳) Cone-Beam Computed Tomography (CBCT) は医用画像の撮影に欠かせない手法であるが、放射線照射が臨床応用に懸念をもたらす。
これらのリスクを軽減するため、CT再建の投影を少なくして放射線線量を減らすことを目的として、スパースビュー再構築が重要な研究方向として浮上している。
Sparse-view CBCT再建のために暗黙的な神経表現が導入されたが、既存の手法は主にスパースプロジェクションからの局所的な2D特徴に焦点を当てており、胸部などのより複雑な解剖学的構造を処理するには不十分である。
この目的のために,3次元ガウス空間の特徴分布を表現するために3次元ガウス空間を活用し,減衰係数の推定を容易にする3次元空間情報を提供する新しい再構成フレームワークDIF-Gaussianを提案する。
さらに、推論中にテスト時間最適化を導入し、モデルの一般化能力をさらに改善する。
2つの公開データセット上でDIF-Gaussianを評価し,従来の最先端手法よりもはるかに優れた再構成性能を示した。
Cone-Beam Computed Tomography (CBCT) is an indispensable technique in medical imaging, yet the associated radiation exposure raises concerns in clinical practice. To mitigate these risks, sparse-view reconstruction has emerged as an essential research direction, aiming to reduce the radiation dose by utilizing fewer projections for CT reconstruction. Although implicit neural representations have been introduced for sparse-view CBCT reconstruction, existing methods primarily focus on local 2D features queried from sparse projections, which is insufficient to process the more complicated anatomical structures, such as the chest. To this end, we propose a novel reconstruction framework, namely DIF-Gaussian, which leverages 3D Gaussians to represent the feature distribution in the 3D space, offering additional 3D spatial information to facilitate the estimation of attenuation coefficients. Furthermore, we incorporate test-time optimization during inference to further improve the generalization capability of the model. We evaluate DIF-Gaussian on two public datasets, showing significantly superior reconstruction performance than previous state-of-the-art methods. | 翻訳日:2024-07-10 00:40:30 公開日:2024-07-07 |
# 課題評価としての大規模言語モデル:1000以上の学生コースにおける洞察,フィードバック,課題
Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course ( http://arxiv.org/abs/2407.05216v1 ) ライセンス: Link先を確認 | Cheng-Han Chiang, Wei-Chih Chen, Chun-Yi Kuan, Chienchou Yang, Hung-yi Lee, | (参考訳) 大規模言語モデル(LLM)を自動評価に用いることは,NLP研究において重要な評価手法となっている。
しかし,これらのLCMを用いた評価が実世界の教室で学生の課題評価に応用できるかどうかは不明である。
本報告では,1028人の大学生を対象に,GPT-4を自動課題評価装置として利用する方法について述べる。
学生の反応から,LLMに基づく割当て評価は,学生がこれらのLCMベースの評価器に自由にアクセスできる場合,一般的に学生に受け入れられることがわかった。
しかし、学生はLLMが評価命令に従わないことがあることも指摘した。
さらに,LLMに基づく評価器を学生が容易に操作して特定の文字列を出力し,代入ルーリックを満たさずに高いスコアを得られることを観察した。
学生のフィードバックと経験に基づいて,今後の教室にLCMを用いた評価器を組み込むことを推奨する。
Using large language models (LLMs) for automatic evaluation has become an important evaluation method in NLP research. However, it is unclear whether these LLM-based evaluators can be applied in real-world classrooms to assess student assignments. This empirical report shares how we use GPT-4 as an automatic assignment evaluator in a university course with 1,028 students. Based on student responses, we find that LLM-based assignment evaluators are generally acceptable to students when students have free access to these LLM-based evaluators. However, students also noted that the LLM sometimes fails to adhere to the evaluation instructions. Additionally, we observe that students can easily manipulate the LLM-based evaluator to output specific strings, allowing them to achieve high scores without meeting the assignment rubric. Based on student feedback and our experience, we provide several recommendations for integrating LLM-based evaluators into future classrooms. | 翻訳日:2024-07-09 20:46:54 公開日:2024-07-07 |
# テクニックの洪水と理論の干ばつ:災害時の感情マイニング
Flood of Techniques and Drought of Theories: Emotion Mining in Disasters ( http://arxiv.org/abs/2407.05219v1 ) ライセンス: Link先を確認 | Soheil Shapouri, Saber Soleymani, | (参考訳) 感情のマイニングは、災害時の人間の感情を理解するための重要なツールとなり、ソーシャルメディアプラットフォーム上で生成された広範囲なデータを活用する。
本稿では,災害状況における感情のマイニングに関する既存の研究を要約し,重要な発見と永続的な問題の両方を強調することを目的とする。
一方、感情のマイニング技術は、迅速な被害評価やメンタルヘルス監視といった適用を可能にするため、許容できる精度を実現している。
一方、データ駆動アプローチを採用する多くの研究において、いくつかの方法論的な問題が残されている。
これには、任意の感情分類、ソーシャルメディアからのデータ収集に固有のバイアスを無視すること、例えばTwitter上の社会経済的地位から個人を過剰に表現すること、異文化間比較のような理論的枠組みの適用の欠如などが含まれる。
これらの問題は、理論駆動研究の顕著な欠如と、社会科学や行動科学からの洞察を無視していると要約できる。
本稿では,コンピュータ科学者と社会科学者の学際的な連携の必要性を浮き彫りにした。
これらのギャップに対処することで、感情のマイニング手法の有効性と信頼性を高め、最終的に災害対策、対応、復旧に寄与することを目指している。
キーワード:感情のマイニング、感情分析、自然災害、心理学、技術的災害
Emotion mining has become a crucial tool for understanding human emotions during disasters, leveraging the extensive data generated on social media platforms. This paper aims to summarize existing research on emotion mining within disaster contexts, highlighting both significant discoveries and persistent issues. On the one hand, emotion mining techniques have achieved acceptable accuracy enabling applications such as rapid damage assessment and mental health surveillance. On the other hand, with many studies adopting data-driven approaches, several methodological issues remain. These include arbitrary emotion classification, ignoring biases inherent in data collection from social media, such as the overrepresentation of individuals from higher socioeconomic status on Twitter, and the lack of application of theoretical frameworks like cross-cultural comparisons. These problems can be summarized as a notable lack of theory-driven research and ignoring insights from social and behavioral sciences. This paper underscores the need for interdisciplinary collaboration between computer scientists and social scientists to develop more robust and theoretically grounded approaches in emotion mining. By addressing these gaps, we aim to enhance the effectiveness and reliability of emotion mining methodologies, ultimately contributing to improved disaster preparedness, response, and recovery. Keywords: emotion mining, sentiment analysis, natural disasters, psychology, technological disasters | 翻訳日:2024-07-09 20:37:03 公開日:2024-07-07 |
# HiDe-PET:パラメータ効率の良いチューニングの階層的分解による継続的な学習
HiDe-PET: Continual Learning via Hierarchical Decomposition of Parameter-Efficient Tuning ( http://arxiv.org/abs/2407.05229v1 ) ライセンス: Link先を確認 | Liyuan Wang, Jingyi Xie, Xingxing Zhang, Hang Su, Jun Zhu, | (参考訳) PTM(Pre-trained Model)の展開は、継続学習(Continuous Learning, CL)の分野を大きく進歩させ、破滅的な忘れ方への肯定的な知識伝達とレジリエンスを可能にした。
タスクの逐次到着におけるこれらの優位性を維持するために、有望な方向は、表現学習を指示するためにパラメータ係数チューニング(PET)技術を使用しながら、トレーニング済みのバックボーンを凍結し続けることである。
CL 用 Prompt ベースのPET が普及しているにもかかわらず,その経験的設計は,異なる PTM および目標タスクの評価において,最適以下の性能をもたらすことがしばしばある。
そこで本研究では,PTMとPETを併用したCLの統一フレームワークを提案する。
まず,学習前の文脈でCLの目的を詳細に理論的に分析し,タスク・アイデンティティ・推論,タスク・アダプティブ・予測といった階層的な要素に分解する。
提案する階層的分解PET(Hierarchical Decomposition PET, HiDe-PET)は, タスク固有知識とタスク共有知識をメインストリームPET技術に取り入れ, 事前学習した表現の効率よく回復させることにより, 分割対象を明示的に最適化する革新的な手法である。
このフレームワークを活用することで、実装戦略、PET技術、PETアーキテクチャ、および、顕著な分布変化の中での適応的な知識蓄積の影響を調査する。
最後に, 各種CLシナリオにおいて, 近年の強いベースラインの幅広い範囲において, 極めて優れた性能を示す。
The deployment of pre-trained models (PTMs) has greatly advanced the field of continual learning (CL), enabling positive knowledge transfer and resilience to catastrophic forgetting. To sustain these advantages for sequentially arriving tasks, a promising direction involves keeping the pre-trained backbone frozen while employing parameter-efficient tuning (PET) techniques to instruct representation learning. Despite the popularity of Prompt-based PET for CL, its empirical design often leads to sub-optimal performance in our evaluation of different PTMs and target tasks. To this end, we propose a unified framework for CL with PTMs and PET that provides both theoretical and empirical advancements. We first perform an in-depth theoretical analysis of the CL objective in a pre-training context, decomposing it into hierarchical components namely within-task prediction, task-identity inference and task-adaptive prediction. We then present Hierarchical Decomposition PET (HiDe-PET), an innovative approach that explicitly optimizes the decomposed objective through incorporating task-specific and task-shared knowledge via mainstream PET techniques along with efficient recovery of pre-trained representations. Leveraging this framework, we delve into the distinct impacts of implementation strategy, PET technique and PET architecture, as well as adaptive knowledge accumulation amidst pronounced distribution changes. Finally, across various CL scenarios, our approach demonstrates remarkably superior performance over a broad spectrum of recent strong baselines. | 翻訳日:2024-07-09 20:37:03 公開日:2024-07-07 |
# PAPM: 物理を意識したプロセスシステムのプロキシモデル
PAPM: A Physics-aware Proxy Model for Process Systems ( http://arxiv.org/abs/2407.05232v1 ) ライセンス: Link先を確認 | Pengwei Liu, Zhongkai Hao, Xingyu Ren, Hangjie Yuan, Jiayang Ren, Dong Ni, | (参考訳) プロセスシステムのプロキシモデリングの文脈では、従来のデータ駆動型ディープラーニングアプローチは、大量のデータによって引き起こされる相当なトレーニングコストや、限定的な一般化能力など、重大な課題にしばしば直面する。
将来有望な代替手段として、物理学を意識したモデルには、これらの課題を改善するために部分的な物理知識が組み込まれている。
有効性を示すが、探査深度と普遍性の観点からは不足している。
これらの欠点に対処するために、複数の入力条件と保存関係の一般形を含むプロセスシステムの部分的事前物理を完全に組み込んだ物理対応プロキシモデル(PAPM)を導入する。
さらに、PAPMには、様々なプロセスシステムにまたがる柔軟な適応のための全体論的時間空間ステップモジュールが含まれている。
9つの一般化タスクにおける5つの2次元ベンチマークにおける最先端の純粋なデータ駆動モデルと物理認識モデルとの体系的な比較により、PAPMはFLOPを少なくし、パラメータの1%を先行手法と比較して平均6.7%の性能改善を実現している。
コードはhttps://github.com/pengwei07/PAPMで公開されている。
In the context of proxy modeling for process systems, traditional data-driven deep learning approaches frequently encounter significant challenges, such as substantial training costs induced by large amounts of data, and limited generalization capabilities. As a promising alternative, physics-aware models incorporate partial physics knowledge to ameliorate these challenges. Although demonstrating efficacy, they fall short in terms of exploration depth and universality. To address these shortcomings, we introduce a physics-aware proxy model (PAPM) that fully incorporates partial prior physics of process systems, which includes multiple input conditions and the general form of conservation relations, resulting in better out-of-sample generalization. Additionally, PAPM contains a holistic temporal-spatial stepping module for flexible adaptation across various process systems. Through systematic comparisons with state-of-the-art pure data-driven and physics-aware models across five two-dimensional benchmarks in nine generalization tasks, PAPM notably achieves an average performance improvement of 6.7%, while requiring fewer FLOPs, and just 1% of the parameters compared to the prior leading method. The code is available at https://github.com/pengwei07/PAPM. | 翻訳日:2024-07-09 20:37:03 公開日:2024-07-07 |
# NLPにおけるプロンプト回復の促進:Gemma-2b-itとPhi2モデルの深い統合
Advancing Prompt Recovery in NLP: A Deep Dive into the Integration of Gemma-2b-it and Phi2 Models ( http://arxiv.org/abs/2407.05233v1 ) ライセンス: Link先を確認 | Jianlong Chen, Wei Xu, Zhicheng Ding, Jinxin Xu, Hao Yan, Xinyu Zhang, | (参考訳) 自然言語処理において重要なタスクであるプロンプトリカバリは、入力テキストを特定の出力に変換するために言語モデルが使用するプロンプトや命令の再構築を必要とする。
重要なことはあるものの、プロンプトの設計と有効性は、NLP研究における困難で比較的未解決の分野である。
本稿では,事前学習した言語モデルと戦略のスペクトルを用いて,迅速な回復手法の徹底的な検討を行う。
本研究は, 種々のモデルの有効性をベンチマークデータセット上で評価することを目的とした比較分析であり, 早期回復のための最も有能なアプローチを見極めることを目的としている。
厳密な実験と詳細な解析により、Gemma-2b-it + Phi2 model + Pretrainの優れた性能を解明する。
このモデルは、テキスト変換タスクのプロンプトを正確に再構築する際、その例外的な能力を示す。
本研究は, テキストの書き直しや自然言語処理の幅広い分野において, 迅速な設計の難しさに光を当て, 今後のイノベーションに対する洞察に富んだ視点を提供するものである。
Prompt recovery, a crucial task in natural language processing, entails the reconstruction of prompts or instructions that language models use to convert input text into a specific output. Although pivotal, the design and effectiveness of prompts represent a challenging and relatively untapped field within NLP research. This paper delves into an exhaustive investigation of prompt recovery methodologies, employing a spectrum of pre-trained language models and strategies. Our study is a comparative analysis aimed at gauging the efficacy of various models on a benchmark dataset, with the goal of pinpointing the most proficient approach for prompt recovery. Through meticulous experimentation and detailed analysis, we elucidate the outstanding performance of the Gemma-2b-it + Phi2 model + Pretrain. This model surpasses its counterparts, showcasing its exceptional capability in accurately reconstructing prompts for text transformation tasks. Our findings offer a significant contribution to the existing knowledge on prompt recovery, shedding light on the intricacies of prompt design and offering insightful perspectives for future innovations in text rewriting and the broader field of natural language processing. | 翻訳日:2024-07-09 20:37:03 公開日:2024-07-07 |
# 反射オブジェクトの追跡:ベンチマーク
Tracking Reflected Objects: A Benchmark ( http://arxiv.org/abs/2407.05235v1 ) ライセンス: Link先を確認 | Xiaoyu Guo, Pengzhi Zhong, Lizhi Lin, Hao Zhang, Ling Huang, Shuiwang Li, | (参考訳) 近年のビジュアルトラッキングは、主に大規模なトレーニングデータセットが利用可能であることから、大幅に進歩している。
これらのデータセットにより、高精度で堅牢なオブジェクトを追跡できる多数のアルゴリズムの開発が可能になったが、現在の研究の大部分は、より専門的で困難なシナリオに重点を置いて、ジェネリックオブジェクトの追跡に向けられている。
そのような難しいシナリオの1つは、リフレクションオブジェクトを追跡することである。
反射は物体の外観を著しく歪め、追跡過程を複雑にする曖昧な視覚的手がかりを生み出す。
この問題は、自動運転、セキュリティ、スマートホーム、工業生産などのアプリケーションにおいて特に重要であり、鏡やガラスなどの表面に反射した物体を正確に追跡することが重要である。
このギャップに対処するため、我々はTRO(Tracking Reflected Objects)用のベンチマーク)を紹介します。
TROは、約70,000フレームの200のシーケンスを含み、それぞれにバウンディングボックスを慎重にアノテートする。
このデータセットは、既存のベンチマークで十分にカバーされていないユニークな課題を示す、リフレクションオブジェクトを追跡する新しい正確な方法の開発を促進することを目的としている。
我々は20の最先端トラッカーを評価し、反射の複雑さに苦しむことを発見した。
より強力なベースラインを提供するために,階層的特徴を用いて性能を向上し,既存のアルゴリズムを著しく上回る新しいトラッカーであるHiP-HaTrackを提案する。
我々は、我々のベンチマーク、評価、そしてHiP-HaTrackが、反射物体の追跡におけるさらなる研究と応用を刺激すると考えている。
TROとコードはhttps://github.com/OpenCodeGithub/HIP-HaTrack.comで公開されている。
Visual tracking has advanced significantly in recent years, mainly due to the availability of large-scale training datasets. These datasets have enabled the development of numerous algorithms that can track objects with high accuracy and robustness.However, the majority of current research has been directed towards tracking generic objects, with less emphasis on more specialized and challenging scenarios. One such challenging scenario involves tracking reflected objects. Reflections can significantly distort the appearance of objects, creating ambiguous visual cues that complicate the tracking process. This issue is particularly pertinent in applications such as autonomous driving, security, smart homes, and industrial production, where accurately tracking objects reflected in surfaces like mirrors or glass is crucial. To address this gap, we introduce TRO, a benchmark specifically for Tracking Reflected Objects. TRO includes 200 sequences with around 70,000 frames, each carefully annotated with bounding boxes. This dataset aims to encourage the development of new, accurate methods for tracking reflected objects, which present unique challenges not sufficiently covered by existing benchmarks. We evaluated 20 state-of-the-art trackers and found that they struggle with the complexities of reflections. To provide a stronger baseline, we propose a new tracker, HiP-HaTrack, which uses hierarchical features to improve performance, significantly outperforming existing algorithms. We believe our benchmark, evaluation, and HiP-HaTrack will inspire further research and applications in tracking reflected objects. The TRO and code are available at https://github.com/OpenCodeGithub/HIP-HaTrack. | 翻訳日:2024-07-09 20:37:03 公開日:2024-07-07 |
# 非凸複合損失に対する周期サンプリングDP-SGDにおける最終イテレーションのプライバシー
Privacy of the last iterate in cyclically-sampled DP-SGD on nonconvex composite losses ( http://arxiv.org/abs/2407.05237v1 ) ライセンス: Link先を確認 | Weiwei Kong, Mónica Ribero, | (参考訳) DP-SGD(英: Differentially private stochastic gradient descent)とは、DP会計技術を通じて、DP(差分プライバシー)の保証レベルを提供する最適化アルゴリズムの一群を指す。
しかし、現在の会計手法は、実際のDP-SGD実装とは大きく異なる仮定となっている。
例えば、損失関数はリプシッツ連続凸と仮定し、バッチをランダムに置換してサンプリングするか、勾配クリッピングステップを省略する。
本研究はDP-SGDの最もよく使われる変種を解析し, 置換したバッチを周期的にサンプリングし, 勾配クリッピングを行い, 最後のDP-SGDイテレートだけを解放する。
具体的には、損失関数の凸性、滑らか性、リプシッツ連続性を仮定せずに、最後のDP-SGDに対する新たなR'enyi差分プライバシー(RDP)境界を確立する。
i)DP-SGD段差は損失関数の位相定数に対して小さく、
(ii)損失関数は弱凸である。
さらに, 対象関数の弱凸パラメータが0に近づくと, 境界は既定凸境界に収束することを示す。
非Lipschitz の滑らかな損失関数の場合、DP-SGD の反復数でうまくスケールする弱い境界を提供する。
Differentially private stochastic gradient descent (DP-SGD) refers to a family of optimization algorithms that provide a guaranteed level of differential privacy (DP) through DP accounting techniques. However, current accounting techniques make assumptions that diverge significantly from practical DP-SGD implementations. For example, they may assume the loss function is Lipschitz continuous and convex, sample the batches randomly with replacement, or omit the gradient clipping step. In this work, we analyze the most commonly used variant of DP-SGD, in which we sample batches cyclically with replacement, perform gradient clipping, and only release the last DP-SGD iterate. More specifically - without assuming convexity, smoothness, or Lipschitz continuity of the loss function - we establish new R\'enyi differential privacy (RDP) bounds for the last DP-SGD iterate under the mild assumption that (i) the DP-SGD stepsize is small relative to the topological constants in the loss function, and (ii) the loss function is weakly-convex. Moreover, we show that our bounds converge to previously established convex bounds when the weak-convexity parameter of the objective function approaches zero. In the case of non-Lipschitz smooth loss functions, we provide a weaker bound that scales well in terms of the number of DP-SGD iterations. | 翻訳日:2024-07-09 20:37:03 公開日:2024-07-07 |
# P2P: パート・ツー・パートのモーションキューがLiDARポイントクラウドの強力な追跡フレームワークをガイド
P2P: Part-to-Part Motion Cues Guide a Strong Tracking Framework for LiDAR Point Clouds ( http://arxiv.org/abs/2407.05238v1 ) ライセンス: Link先を確認 | Jiahao Nie, Fei Xie, Xueyi Zhou, Sifan Zhou, Zhiwei He, Dong-Kyu Chae, | (参考訳) 外観マッチングに基づく3Dシングルオブジェクト追跡(SOT)手法は,不完全でテクスチャレスで意味的に不足したLiDAR点雲によって生じる外観情報の不足に長年悩まされてきた。
モーションパラダイムは、トラッキングのための外観マッチングの代わりにモーションキューを利用するが、複雑なマルチステージ処理とセグメンテーションモジュールを発生させる。
本稿では,まず,運動パラダイムの詳細な探索を行い,(\textbf{i}) 連続するフレーム間の点雲から目標の相対運動を直接推定することが可能であること,(\textbf{ii}) 連続する点雲間の詳細な情報比較が目標運動モデリングを容易にすることを証明した。
そこで我々は,連続点雲に対するパート・ツー・パート・モーション・モデリングを行い,新しい追跡フレームワーク「textbf{P2P}」を提案する。
このフレームワークは、各部位情報を連続点雲間で融合し、詳細な情報変化を効果的に探索し、精度の高い目標関連動作キューをモデル化する。
本稿では,P2P-pointとP2P-voxelモデルについて述べる。
ベルとホイッスルなしでは、P2P-voxelは、KITTI、NuScenes、Waymo Open Datasetでそれぞれ新しい最先端のパフォーマンス(\sim$\textbf{89\%}、 \textbf{72\%}、 \textbf{63\%})を設定する。
さらに、P2Pポイントは、KITTIとNuScenesで、前のモーショントラッカーM$^2$Trackと \textbf{3.3\%} と \textbf{6.7\%} で、RTX3090 GPU上で、かなり高速で実行される。
ソースコードと事前訓練されたモデルは、 \url{https://github.com/haooozi/P2P}で入手できる。
3D single object tracking (SOT) methods based on appearance matching has long suffered from insufficient appearance information incurred by incomplete, textureless and semantically deficient LiDAR point clouds. While motion paradigm exploits motion cues instead of appearance matching for tracking, it incurs complex multi-stage processing and segmentation module. In this paper, we first provide in-depth explorations on motion paradigm, which proves that (\textbf{i}) it is feasible to directly infer target relative motion from point clouds across consecutive frames; (\textbf{ii}) fine-grained information comparison between consecutive point clouds facilitates target motion modeling. We thereby propose to perform part-to-part motion modeling for consecutive point clouds and introduce a novel tracking framework, termed \textbf{P2P}. The novel framework fuses each corresponding part information between consecutive point clouds, effectively exploring detailed information changes and thus modeling accurate target-related motion cues. Following this framework, we present P2P-point and P2P-voxel models, incorporating implicit and explicit part-to-part motion modeling by point- and voxel-based representation, respectively. Without bells and whistles, P2P-voxel sets a new state-of-the-art performance ($\sim$\textbf{89\%}, \textbf{72\%} and \textbf{63\%} precision on KITTI, NuScenes and Waymo Open Dataset, respectively). Moreover, under the same point-based representation, P2P-point outperforms the previous motion tracker M$^2$Track by \textbf{3.3\%} and \textbf{6.7\%} on the KITTI and NuScenes, while running at a considerably high speed of \textbf{107 Fps} on a single RTX3090 GPU. The source code and pre-trained models are available at \url{https://github.com/haooozi/P2P}. | 翻訳日:2024-07-09 20:37:03 公開日:2024-07-07 |
# 予測倫理モデリングの諸問題:「モラルストーリー」の注釈付きコントラストセット
Some Issues in Predictive Ethics Modeling: An Annotated Contrast Set of "Moral Stories" ( http://arxiv.org/abs/2407.05244v1 ) ライセンス: Link先を確認 | Ben Fitzgerald, | (参考訳) デルフィのようなモデルは、倫理的ジレンマを驚くほどの正確さで道徳的または不道徳であるとラベル付けすることができた。
本稿では、道徳的ジレンマをテキストベース入力に変換する際の問題を特定することによって、倫理モデリングの総合的指標としての正確性に挑戦する。
これは、データセットMoral Storiesでトレーニングされた分類器のパフォーマンスを大幅に低下させるコントラストセットでこれらの問題を実証する。
最終的に、データ表現の特定の形態が分類器の精度を損なうかの具体的な推定値を得る。
具体的には、ラベル変更による状況の記述内容の変更(3~5ワードまで)は、分類器の精度を51%、初期精度は99.8%に低下させる。
誤解を招く社会的規範による状況の関連付けは、精度を98.8%まで下げる一方で、テキストバイアス(つまり、ある状況がすでにあるラベルに適合しているという意味)を加えることで、精度を77%まで下げる。
これらの結果は、多くの倫理モデルが実質的に過度に適合しているだけでなく、入力が道徳的ジレンマを正確に捉えるためにいくつかの予防措置が必要であることを示唆している。
本稿では,社会的規範の構造の再検討,非現実的推論による文脈要求モデルの構築,テキストバイアスに対する入力のフィルタリングを推奨する。
そうすることで、倫理データの誤表現の正確さに対する平均コストに関する最初の具体的な見積もりが得られるだけでなく、研究者はこれらの見積もりを研究で考えるための実用的なヒントを与えてくれる。
Models like Delphi have been able to label ethical dilemmas as moral or immoral with astonishing accuracy. This paper challenges accuracy as a holistic metric for ethics modeling by identifying issues with translating moral dilemmas into text-based input. It demonstrates these issues with contrast sets that substantially reduce the performance of classifiers trained on the dataset Moral Stories. Ultimately, we obtain concrete estimates for how much specific forms of data misrepresentation harm classifier accuracy. Specifically, label-changing tweaks to the descriptive content of a situation (as small as 3-5 words) can reduce classifier accuracy to as low as 51%, almost half the initial accuracy of 99.8%. Associating situations with a misleading social norm lowers accuracy to 98.8%, while adding textual bias (i.e. an implication that a situation already fits a certain label) lowers accuracy to 77%. These results suggest not only that many ethics models have substantially overfit, but that several precautions are required to ensure that input accurately captures a moral dilemma. This paper recommends re-examining the structure of a social norm, training models to ask for context with defeasible reasoning, and filtering input for textual bias. Doing so not only gives us the first concrete estimates of the average cost to accuracy of misrepresenting ethics data, but gives researchers practical tips for considering these estimates in research. | 翻訳日:2024-07-09 20:37:03 公開日:2024-07-07 |
# 深層確率集約クラスタリング
Deep Probability Aggregation Clustering ( http://arxiv.org/abs/2407.05246v1 ) ライセンス: Link先を確認 | Yuxuan Yan, Na Lu, Ruofan Yan, | (参考訳) マシンクラスタリングとディープモデルの組み合わせは、ディープクラスタリングにおいて顕著な優位性を示している。
データ処理パイプラインを2つの交互フェーズ – 機能クラスタリングとモデルトレーニング – に修正する。
しかし、このようなスケジュール変更は不安定性と計算負荷の問題を引き起こす可能性がある。
本稿では,ディープラーニング技術に積極的に適応し,オンラインのディープクラスタリングに容易に展開できるようにする,Probability Aggregation Clustering (PAC)と呼ばれるセンタレスクラスタリングアルゴリズムを提案する。
PACはクラスタ中心を回避し、クラスタリングを最適化問題として新しい目的関数で定式化し、確率空間と分布空間を整列する。
PACの計算機構に基づき、ミニバッチデータ上で安定かつ柔軟な特徴クラスタリングを行い、さらに深い視覚的クラスタリングフレームワークDep PAC(DPAC)を構築するための一般的なオンライン確率集計モジュールを提案する。
大規模な実験により、PACはクラスタリングの堅牢性と性能が優れており、DPACは最先端のディープクラスタリング手法よりも著しく優れていることが示された。
Combining machine clustering with deep models has shown remarkable superiority in deep clustering. It modifies the data processing pipeline into two alternating phases: feature clustering and model training. However, such alternating schedule may lead to instability and computational burden issues. We propose a centerless clustering algorithm called Probability Aggregation Clustering (PAC) to proactively adapt deep learning technologies, enabling easy deployment in online deep clustering. PAC circumvents the cluster center and aligns the probability space and distribution space by formulating clustering as an optimization problem with a novel objective function. Based on the computation mechanism of the PAC, we propose a general online probability aggregation module to perform stable and flexible feature clustering over mini-batch data and further construct a deep visual clustering framework deep PAC (DPAC). Extensive experiments demonstrate that PAC has superior clustering robustness and performance and DPAC remarkably outperforms the state-of-the-art deep clustering methods. | 翻訳日:2024-07-09 20:37:03 公開日:2024-07-07 |
# 静注医療画像分割のための自己ペーストサンプル選択法
Self-Paced Sample Selection for Barely-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2407.05248v1 ) ライセンス: Link先を確認 | Junming Su, Zhiqiang Shen, Peng Cao, Jinzhu Yang, Osmar R. Zaiane, | (参考訳) 既存のほとんど管理されていない医用画像分割法(BSS)は,極度のラベル不足を軽減すべく,ごくわずかなアノテーションでデータから学習することを目的としている。
しかし、このパラダイムは、画像登録によって生成された擬似ラベルには大きなノイズが伴う。
この問題に対処するために,BSSのためのセルフペーストサンプル選択フレームワーク(SPSS)を提案する。
具体的には、SPSSは2つの主要コンポーネントから構成される。
1)画像空間における擬似ラベルの品質を明確に向上させる自傷不確かさサンプル選択(SU)
2) 特徴空間におけるクラスセマンティクスの分離性を高めることにより, 擬似ラベルの品質を暗黙的に向上させる, 自己ペース型双方向特徴比較学習 (SC) について検討した。
SU と SC の双方は、自己評価学習方式で協調的に訓練されており、SPSS が BSS の高品質な擬似ラベルから学べるようにしている。
2つの公開医用画像セグメンテーションデータセットに対する大規模な実験は、SPSSが最先端技術よりも有効であることと優位性を示している。
私たちのコードはhttps://github.com/SuuuJM/SPSS.comでリリースされています。
The existing barely-supervised medical image segmentation (BSS) methods, adopting a registration-segmentation paradigm, aim to learn from data with very few annotations to mitigate the extreme label scarcity problem. However, this paradigm poses a challenge: pseudo-labels generated by image registration come with significant noise. To address this issue, we propose a self-paced sample selection framework (SPSS) for BSS. Specifically, SPSS comprises two main components: 1) self-paced uncertainty sample selection (SU) for explicitly improving the quality of pseudo labels in the image space, and 2) self-paced bidirectional feature contrastive learning (SC) for implicitly improving the quality of pseudo labels through enhancing the separability between class semantics in the feature space. Both SU and SC are trained collaboratively in a self-paced learning manner, ensuring that SPSS can learn from high-quality pseudo labels for BSS. Extensive experiments on two public medical image segmentation datasets demonstrate the effectiveness and superiority of SPSS over the state-of-the-art. Our code is release at https://github.com/SuuuJM/SPSS. | 翻訳日:2024-07-09 20:37:03 公開日:2024-07-07 |
# CLIMB:大規模言語モデルにおける臨床バイアスのベンチマーク
CLIMB: A Benchmark of Clinical Bias in Large Language Models ( http://arxiv.org/abs/2407.05250v1 ) ライセンス: Link先を確認 | Yubo Zhang, Shudi Hou, Mingyu Derek Ma, Wei Wang, Muhao Chen, Jieyu Zhao, | (参考訳) 大規模言語モデル(LLM)は、臨床的な意思決定にますます応用されている。
しかしながら、彼らのバイアスを示す可能性は、臨床エクイティに重大なリスクをもたらす。
現在、LSMにおけるそのような臨床バイアスを体系的に評価するベンチマークが欠如している。
下流のタスクでは、モデルに"私は確信していない..."と答えるように指示するなど、LCMのバイアスを避けることができるが、モデルの内部バイアスは深い研究を欠いている。
CLIMB (A Benchmark of Clinical Bias in Large Language Models) は内因性 (LLM) と外因性 (下流タスク) の両方を評価するための総合的なベンチマークである。
特に本研究では,複数の人口集団におけるLSMの格差を評価するために,新たな指標であるAssocMADを導入する。
さらに,臨床診断予測の課題における外因性バイアスを評価するために,対物的介入を活用している。
特にミストラル系およびLLaMA系では, 内因性および外因性の両方に偏りがみられた。
この研究は、臨床バイアスを緩和する重要な必要性を浮き彫りにし、LSMsの臨床バイアスの今後の評価のための新しい基準を策定する。
Large language models (LLMs) are increasingly applied to clinical decision-making. However, their potential to exhibit bias poses significant risks to clinical equity. Currently, there is a lack of benchmarks that systematically evaluate such clinical bias in LLMs. While in downstream tasks, some biases of LLMs can be avoided such as by instructing the model to answer "I'm not sure...", the internal bias hidden within the model still lacks deep studies. We introduce CLIMB (shorthand for A Benchmark of Clinical Bias in Large Language Models), a pioneering comprehensive benchmark to evaluate both intrinsic (within LLMs) and extrinsic (on downstream tasks) bias in LLMs for clinical decision tasks. Notably, for intrinsic bias, we introduce a novel metric, AssocMAD, to assess the disparities of LLMs across multiple demographic groups. Additionally, we leverage counterfactual intervention to evaluate extrinsic bias in a task of clinical diagnosis prediction. Our experiments across popular and medically adapted LLMs, particularly from the Mistral and LLaMA families, unveil prevalent behaviors with both intrinsic and extrinsic bias. This work underscores the critical need to mitigate clinical bias and sets a new standard for future evaluations of LLMs' clinical bias. | 翻訳日:2024-07-09 20:37:03 公開日:2024-07-07 |
# GaussReg: Gaussian Splattingによる高速な3D登録
GaussReg: Fast 3D Registration with Gaussian Splatting ( http://arxiv.org/abs/2407.05254v1 ) ライセンス: Link先を確認 | Jiahao Chang, Yinglin Xu, Yihao Li, Yuantao Chen, Xiaoguang Han, | (参考訳) ポイントクラウドの登録は、大規模な3Dシーンのスキャンと再構築の基本的な問題である。
ディープラーニングの助けを借りて、登録方法は大幅に進化し、ほぼ成熟した段階に達した。
ニューラル・レージアンス・フィールド(NeRF)の導入により、その強力なビュー合成能力として最も人気のある3Dシーン表現となった。
NeRF表現に関しては、大規模なシーン再構築にもその登録が必要である。
しかし、この話題は極端に探検を欠いている。
これは、暗黙の表現を持つ2つのシーン間の幾何学的関係をモデル化する固有の挑戦によるものである。
既存のメソッドは通常、さらなる登録のために暗黙の表現を明示的な表現に変換する。
最近では、Gaussian Splatting (GS)が導入され、明示的な3D Gaussianを採用している。
この方法は、高いレンダリング品質を維持しながら、レンダリング速度を大幅に向上させる。
本研究では, 明示的なGS表現を伴う2つのシーンを考慮し, それらの間の3次元登録作業について検討する。
この目的のために我々は,高速かつ高精度な新しい粗粒度フレームワークであるGaussRegを提案する。
粗い段階は、既存のポイントクラウド登録方法に従い、GSからのポイントクラウドの粗いアライメントを推定する。
さらに、画像ガイドによる微細な登録手法を新たに提案し、GS画像から画像を描画することで、正確なアライメントのためのより詳細な幾何学的情報を提供する。
包括的な評価を支援するため、ScanNet-GSRegと呼ばれるシーンレベルのデータセットを慎重に構築し、ScanNetデータセットから1379のシーンを取得し、GSRegと呼ばれるフィールド内データセットを収集する。
実験により,本手法は複数のデータセット上での最先端性能を実証した。
我々のGaussRegはHLoc(特徴抽出器はSuperPoint、整合器はSuperGlue)よりも44倍高速で、精度は同等です。
Point cloud registration is a fundamental problem for large-scale 3D scene scanning and reconstruction. With the help of deep learning, registration methods have evolved significantly, reaching a nearly-mature stage. As the introduction of Neural Radiance Fields (NeRF), it has become the most popular 3D scene representation as its powerful view synthesis capabilities. Regarding NeRF representation, its registration is also required for large-scale scene reconstruction. However, this topic extremly lacks exploration. This is due to the inherent challenge to model the geometric relationship among two scenes with implicit representations. The existing methods usually convert the implicit representation to explicit representation for further registration. Most recently, Gaussian Splatting (GS) is introduced, employing explicit 3D Gaussian. This method significantly enhances rendering speed while maintaining high rendering quality. Given two scenes with explicit GS representations, in this work, we explore the 3D registration task between them. To this end, we propose GaussReg, a novel coarse-to-fine framework, both fast and accurate. The coarse stage follows existing point cloud registration methods and estimates a rough alignment for point clouds from GS. We further newly present an image-guided fine registration approach, which renders images from GS to provide more detailed geometric information for precise alignment. To support comprehensive evaluation, we carefully build a scene-level dataset called ScanNet-GSReg with 1379 scenes obtained from the ScanNet dataset and collect an in-the-wild dataset called GSReg. Experimental results demonstrate our method achieves state-of-the-art performance on multiple datasets. Our GaussReg is 44 times faster than HLoc (SuperPoint as the feature extractor and SuperGlue as the matcher) with comparable accuracy. | 翻訳日:2024-07-09 20:37:03 公開日:2024-07-07 |
# 画像処理による熱帯性サイクロンの分布域と降水量の推定
Estimation of the Area and Precipitation Associated with a Tropical Cyclone Biparjoy by using Image Processing ( http://arxiv.org/abs/2407.05255v1 ) ライセンス: Link先を確認 | Shikha Verma, Kuldeep Srivastava, Akhilesh Tiwari, Shekhar Verma, | (参考訳) トピカルサイクロン(TC)に伴う降雨は、インドの年間降雨量に大きく寄与している。
熱帯サイクロン(TC)の量的降水量に関する限られた研究のため、降水量と面積の予測は依然として困難である。
本稿では,リモートセンシングデータを用いて降水量と被害地域への影響を推定する手法を提案する。
本研究では,2023年にアラビア海上空で発生しインドに到達した超重大サイクロニックストームの例について, IMERG-Late Run of Global Precipitation Measurement (GPM) の衛星画像を用いて検討した。
サイクロンに関連付けられた降水クラスターの同定と抽出に画像処理技術が用いられた。
その結果、インドとアラビア海の平均降水量は53.14mm/日であり、インドの境界は1日11.59mm/日であり、面積は411.76000平方キロメートルである。
グジャラート、ラジャサン、マドハイア・プラデーシュ、ウッタル・プラデーシュといった州で観測される局所的な強度と変動性は、予測モデルと災害対応性を高めるためのさらなる研究の重要性を強調し、熱帯サイクロンの多様な影響に対する弾力性の構築に不可欠である。
The rainfall associated with Topical Cyclone(TC) contributes a major amount to the annual rainfall in India. Due to the limited research on the quantitative precipitation associated with Tropical Cyclones (TC), the prediction of the amount of precipitation and area that it may cover remains a challenge. This paper proposes an approach to estimate the accumulated precipitation and impact on affected area using Remote Sensing data. For this study, an instance of Extremely Severe Cyclonic Storm, Biparjoy that formed over the Arabian Sea and hit India in 2023 is considered in which we have used the satellite images of IMERG-Late Run of Global Precipitation Measurement (GPM). Image processing techniques were employed to identify and extract precipitation clusters linked to the cyclone. The results indicate that Biparjoy contributed a daily average rainfall of 53.14 mm/day across India and the Arabian Sea, with the Indian boundary receiving 11.59 mm/day, covering an extensive 411.76 thousand square kilometers. The localized intensity and variability observed in states like Gujarat, Rajasthan, Madhya Pradesh, and Uttar Pradesh highlight the need for tailored response measures, emphasizing the importance of further research to enhance predictive models and disaster readiness, crucial for building resilience against the diverse impacts of tropical cyclones. | 翻訳日:2024-07-09 20:37:03 公開日:2024-07-07 |
# アンロックされたテキストと視覚の知恵: テキストと画像からの包括的誘導によるオープンボキャブラリ3次元物体検出
Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image ( http://arxiv.org/abs/2407.05256v1 ) ライセンス: Link先を確認 | Pengkun Jiao, Na Zhao, Jingjing Chen, Yu-Gang Jiang, | (参考訳) Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーンで目に見えないものの両方をローカライズし、認識することを目的としている。
言語および視覚基盤モデルは、豊富なトレーニングデータで様々なオープン語彙タスクを扱うことに成功しているが、OV-3DDetは、トレーニングデータの可用性が限られているため、大きな課題に直面している。
いくつかの先駆的な取り組みは、視覚言語モデル(VLM)の知識をOV-3DDet学習に統合しているが、これらの基礎モデルの潜在能力は、まだ十分に活用されていない。
本稿では,言語と視覚基盤モデルを活用することで,オープンな3次元検出課題に取り組むために,テキストと視覚の知恵を解放する。
視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。
具体的には、画像中の物体のゼロショット発見を可能にするために、物体検出視覚基盤モデルを使用し、初期シードとして機能し、新しい3Dオブジェクトを特定するためのフィルタリングガイダンスを提供する。
さらに,3次元空間を強力な視覚言語空間に整合させるために,実例,カテゴリ,シーンレベルでのVLMを用いて3次元特徴空間を視覚言語特徴空間に整合させる階層的アライメント手法を導入する。
広範にわたる実験を通じて,実世界のシナリオにおけるオープンな3次元物体検出の進展における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
Open-vocabulary 3D object detection (OV-3DDet) aims to localize and recognize both seen and previously unseen object categories within any new 3D scene. While language and vision foundation models have achieved success in handling various open-vocabulary tasks with abundant training data, OV-3DDet faces a significant challenge due to the limited availability of training data. Although some pioneering efforts have integrated vision-language models (VLM) knowledge into OV-3DDet learning, the full potential of these foundational models has yet to be fully exploited. In this paper, we unlock the textual and visual wisdom to tackle the open-vocabulary 3D detection task by leveraging the language and vision foundation models. We leverage a vision foundation model to provide image-wise guidance for discovering novel classes in 3D scenes. Specifically, we utilize a object detection vision foundation model to enable the zero-shot discovery of objects in images, which serves as the initial seeds and filtering guidance to identify novel 3D objects. Additionally, to align the 3D space with the powerful vision-language space, we introduce a hierarchical alignment approach, where the 3D feature space is aligned with the vision-language feature space using a pre-trained VLM at the instance, category, and scene levels. Through extensive experimentation, we demonstrate significant improvements in accuracy and generalization, highlighting the potential of foundation models in advancing open-vocabulary 3D object detection in real-world scenarios. | 翻訳日:2024-07-09 20:37:03 公開日:2024-07-07 |
# OvSW: 正確なバイナリニューラルネットワークのための無作為なウェイトを克服する
OvSW: Overcoming Silent Weights for Accurate Binary Neural Networks ( http://arxiv.org/abs/2407.05257v1 ) ライセンス: Link先を確認 | Jingyang Xiang, Zuohui Chen, Siqi Li, Qing Wu, Yong Liu, | (参考訳) バイナリニューラルネットワーク~(BNN)は、モバイルおよび組み込みプラットフォームにディープニューラルネットワークをデプロイするのに非常に効果的であることが証明されている。
既存のほとんどの研究は、量子化誤差の最小化、表現能力の向上、BNNの勾配ミスマッチを軽減するための勾配近似の設計に重点を置いている。
本稿では,BNNにおける重み付け更新の効率について検討する。
バニラBNNの場合、重量の50%以上はトレーニング中に変化せず、これらの重量は重量分布の尾部に分布するだけでなく、0付近に普遍的に存在していることが観察された。
これらの重みを `silent weights'' と呼び、収束を遅くし、精度を著しく低下させる。
理論的には、これはBNNs勾配が潜在重量分布から独立しているためである。
この問題に対処するため、オーバーカム・サイレント・ウェイツ~(OvSW)を提案する。
OvSWはまずAdaptive Gradient Scaling~(AGS)を用いて、勾配と潜在重量分布の関係を確立し、重量記号更新の全体的な効率を改善する。
さらに、ウェイトフリップ状態を追跡することによって「サイレントウェイト」を自動的に識別し、フリップを容易にするために「サイレントウェイト」に付加的なペナルティを適用するように、サイレント・アウェアネス・ディケーリング〜(SAD)を設計する。
CIFAR10およびImageNet1Kデータセットにおいて,重み付け符号を効率よく更新することにより,より高速な収束と最先端性能を実現する。
例えば、OvSW は ImageNet1K 上の 61.6\% と 65.5\% のトップ-1 の精度を、それぞれバイナライズされた ResNet18 と ResNet34 アーキテクチャを使って取得する。
コードは \url{https://github.com/JingyangXiang/OvSW} で公開されている。
Binary Neural Networks~(BNNs) have been proven to be highly effective for deploying deep neural networks on mobile and embedded platforms. Most existing works focus on minimizing quantization errors, improving representation ability, or designing gradient approximations to alleviate gradient mismatch in BNNs, while leaving the weight sign flipping, a critical factor for achieving powerful BNNs, untouched. In this paper, we investigate the efficiency of weight sign updates in BNNs. We observe that, for vanilla BNNs, over 50\% of the weights remain their signs unchanged during training, and these weights are not only distributed at the tails of the weight distribution but also universally present in the vicinity of zero. We refer to these weights as ``silent weights'', which slow down convergence and lead to a significant accuracy degradation. Theoretically, we reveal this is due to the independence of the BNNs gradient from the latent weight distribution. To address the issue, we propose Overcome Silent Weights~(OvSW). OvSW first employs Adaptive Gradient Scaling~(AGS) to establish a relationship between the gradient and the latent weight distribution, thereby improving the overall efficiency of weight sign updates. Additionally, we design Silence Awareness Decaying~(SAD) to automatically identify ``silent weights'' by tracking weight flipping state, and apply an additional penalty to ``silent weights'' to facilitate their flipping. By efficiently updating weight signs, our method achieves faster convergence and state-of-the-art performance on CIFAR10 and ImageNet1K dataset with various architectures. For example, OvSW obtains 61.6\% and 65.5\% top-1 accuracy on the ImageNet1K using binarized ResNet18 and ResNet34 architecture respectively. Codes are available at \url{https://github.com/JingyangXiang/OvSW}. | 翻訳日:2024-07-09 20:37:03 公開日:2024-07-07 |
# 顕微鏡画像復元のためのマルチスケール条件生成モデル
Multi-scale Conditional Generative Modeling for Microscopic Image Restoration ( http://arxiv.org/abs/2407.05259v1 ) ライセンス: Link先を確認 | Luzhe Huang, Xiongye Xiao, Shixuan Li, Jiawen Sun, Yi Huang, Aydogan Ozcan, Paul Bogdan, | (参考訳) 近年の拡散型生成モデルの進歩は、様々な画像解析と合成タスクにおいて最先端技術(SOTA)技術に革命をもたらしたが、特に計算顕微鏡における画像復元への適応は理論上も経験上も過小評価されている。
本研究では,ウェーブレット領域内におけるブラウンブリッジプロセスの新たな活用を通じて条件付き画像復元を促進するマルチスケール生成モデルを提案する。
ウェーブレット領域における低周波サブバンドのブラウン橋拡散過程の開始と,その後のマルチスケール高周波サブバンドにおける生成敵ネットワークの適用により,高い画像生成品質とSOTA拡散モデルに匹敵する多様性を維持しつつ,トレーニングおよびサンプリング中に顕著な加速を提供する。
様々な計算顕微鏡および撮像タスクの実験結果から,本手法のロバストな性能と,サンプリングのステップと時間の大幅な短縮が確認できた。
この先駆的な技術は、効率と品質を調和させる効率的な画像復元フレームワークを提供し、最先端の生成モデルを計算顕微鏡のワークフローに組み込む際に大きな進歩を示す。
The advance of diffusion-based generative models in recent years has revolutionized state-of-the-art (SOTA) techniques in a wide variety of image analysis and synthesis tasks, whereas their adaptation on image restoration, particularly within computational microscopy remains theoretically and empirically underexplored. In this research, we introduce a multi-scale generative model that enhances conditional image restoration through a novel exploitation of the Brownian Bridge process within wavelet domain. By initiating the Brownian Bridge diffusion process specifically at the lowest-frequency subband and applying generative adversarial networks at subsequent multi-scale high-frequency subbands in the wavelet domain, our method provides significant acceleration during training and sampling while sustaining a high image generation quality and diversity on par with SOTA diffusion models. Experimental results on various computational microscopy and imaging tasks confirm our method's robust performance and its considerable reduction in its sampling steps and time. This pioneering technique offers an efficient image restoration framework that harmonizes efficiency with quality, signifying a major stride in incorporating cutting-edge generative models into computational microscopy workflows. | 翻訳日:2024-07-09 20:27:05 公開日:2024-07-07 |
# ディシプリンド・ジオデシリスティック・コンベックス・プログラミング
Disciplined Geodesically Convex Programming ( http://arxiv.org/abs/2407.05261v1 ) ライセンス: Link先を確認 | Andrew Cheng, Vaibhav Dixit, Melanie Weber, | (参考訳) 凸プログラミングは、機械学習、データサイエンス、エンジニアリングにおいて基本的な役割を果たす。
非線形プログラムにおける凸構造のテストは、目的と制約の凸性を検証することに依存する。
\citet{grant2006disciplined} は、この検証タスクを自動化するためのフレームワーク、Disciplined Convex Programming (DCP) を導入した。
しかしながら、ユークリッド凸性の概念に対する制限は、フレームワークの適用性を制限することができる。
例えば、機械学習応用における統計推定器や行列値(サブ)ルーチンの顕著な例はユークリッド非凸であるが、より一般的なリーマンレンズによる測地的凸性を示す。
本研究では、DGCP(Disciplined Geodesically Convex Programming)を導入して、規律付きプログラミングをこの設定にまで拡張する。
一般カルタン・アダマール多様体上の測地的凸関数に対する凸性保存組成と変換、および対称正定値行列の特別な場合について、行列値最適化の共通した設定を決定する。
後者については、原子の基本的な集合も定義する。
本稿は、DGCP準拠の式をテストおよび認定する機能を提供する、JuliaパッケージのSymbolicAnalysis.jlを伴っている。
筆者らのライブラリは,測地学的凸プログラムを直接解けるような,多様体最適化ソフトウェアを用いている。
Convex programming plays a fundamental role in machine learning, data science, and engineering. Testing convexity structure in nonlinear programs relies on verifying the convexity of objectives and constraints. \citet{grant2006disciplined} introduced a framework, Disciplined Convex Programming (DCP), for automating this verification task for a wide range of convex functions that can be decomposed into basic convex functions (atoms) using convexity-preserving compositions and transformations (rules). However, the restriction to Euclidean convexity concepts can limit the applicability of the framework. For instance, many notable instances of statistical estimators and matrix-valued (sub)routines in machine learning applications are Euclidean non-convex, but exhibit geodesic convexity through a more general Riemannian lens. In this work, we extend disciplined programming to this setting by introducing Disciplined Geodesically Convex Programming (DGCP). We determine convexity-preserving compositions and transformations for geodesically convex functions on general Cartan-Hadamard manifolds, as well as for the special case of symmetric positive definite matrices, a common setting in matrix-valued optimization. For the latter, we also define a basic set of atoms. Our paper is accompanied by a Julia package SymbolicAnalysis.jl, which provides functionality for testing and certifying DGCP-compliant expressions. Our library interfaces with manifold optimization software, which allows for directly solving verified geodesically convex programs. | 翻訳日:2024-07-09 20:27:05 公開日:2024-07-07 |
# FastSpiker: 自律組み込みシステムの学習速度向上によるイベントベースデータ上でニューラルネットワークをスパイクするための高速トレーニングの実現
FastSpiker: Enabling Fast Training for Spiking Neural Networks on Event-based Data through Learning Rate Enhancements for Autonomous Embedded Systems ( http://arxiv.org/abs/2407.05262v1 ) ライセンス: Link先を確認 | Iqra Bano, Rachmad Vidya Wicaksana Putra, Alberto Marchisio, Muhammad Shafique, | (参考訳) 自律的な組み込みシステム(例えばロボット)は、通常、タスクを完了するには、低電力/エネルギー処理によるインテリジェントな計算を必要とする。
このような要求は、高い学習品質(例えば精度)とスパース計算のため、スパイクニューラルネットワーク(SNN)を具現化したニューロモルフィックインテリジェンスによって満たされる。
ここでは、入力と処理部品間のシームレスな接続を確保するために、イベントベースのデータの利用が好ましい。
しかし、最先端のSNNは高い精度を達成するために長い訓練期間を要し、高いエネルギー消費を発生させ、高い炭素排出量を発生させる。
そこで本研究では,自律型組込みシステムを対象とした学習率向上を通じて,イベントベースデータの高速SNNトレーニングを可能にする新しい手法であるFastSpikerを提案する。
FastSpikerでは、まず異なる学習率ポリシーとその値の影響を調査し、次に高い精度を提供するものを選択する。
その後、選択した学習率政策の異なる設定を探索し、統計に基づく決定を通じて適切な政策を求める。
実験の結果、FastSpikerはトレーニング時間を最大10.5倍、二酸化炭素排出量を最大88.39%削減し、イベントベースの自動車データセット(NAARS)の最先端または同等の精度を実現していることがわかった。
このようにして、私たちのFastSpiker方法論は、自律的な組み込みシステムのための具体的ニューロモルフィックインテリジェンスを実現するための、グリーンで持続可能なコンピューティングの道を開く。
Autonomous embedded systems (e.g., robots) typically necessitate intelligent computation with low power/energy processing for completing their tasks. Such requirements can be fulfilled by embodied neuromorphic intelligence with spiking neural networks (SNNs) because of their high learning quality (e.g., accuracy) and sparse computation. Here, the employment of event-based data is preferred to ensure seamless connectivity between input and processing parts. However, state-of-the-art SNNs still face a long training time to achieve high accuracy, thereby incurring high energy consumption and producing a high rate of carbon emission. Toward this, we propose FastSpiker, a novel methodology that enables fast SNN training on event-based data through learning rate enhancements targeting autonomous embedded systems. In FastSpiker, we first investigate the impact of different learning rate policies and their values, then select the ones that quickly offer high accuracy. Afterward, we explore different settings for the selected learning rate policies to find the appropriate policies through a statistical-based decision. Experimental results show that our FastSpiker offers up to 10.5x faster training time and up to 88.39% lower carbon emission to achieve higher or comparable accuracy to the state-of-the-art on the event-based automotive dataset (i.e., NCARS). In this manner, our FastSpiker methodology paves the way for green and sustainable computing in realizing embodied neuromorphic intelligence for autonomous embedded systems. | 翻訳日:2024-07-09 20:27:05 公開日:2024-07-07 |
# 位相検索の量子限界に向けて
Towards the Quantum Limits of Phase Retrieval ( http://arxiv.org/abs/2407.05265v1 ) ライセンス: Link先を確認 | Jacob Trzaska, Amit Ashok, | (参考訳) 単モード電磁界の空間位相プロファイルを決定する問題を考える。
我々の関心は、ガウス状態のスーパーセットである変位状態と圧縮数状態の統計的混合である入力状態に向けられている。
特に、波面の膨張係数を正則的に推定する量子フィッシャー情報行列(QFIM)を導出し、対角線であることを示す。
さらに,QFIMを飽和させた測定方法が常に存在することを示し,それを実装可能な適応戦略を示す。
次に、光子数、コヒーレント、単モード圧縮真空状態の混合物の3つの特定の状態に対して最適な測定値を構築する。
測定値のニュアンスパラメータに対する感度について検討した。
We consider the problem of determining the spatial phase profile of a single-mode electromagnetic field. Our attention is on input states that are a statistical mixture of displaced and squeezed number states, a superset of Gaussian states. In particular, we derive the quantum Fisher information matrix (QFIM) for estimating the expansion coefficients of the wavefront in an orthonormal basis, finding that it is diagonal. Moreover, we show that a measurement saturating the QFIM always exists, and point to an adaptive strategy capable of implementing it. We then construct the optimal measurements for three particular states: mixtures of photon number, coherent, and single-mode squeezed vacuum states. Sensitivity of the measurements to nuisance parameters is explored. | 翻訳日:2024-07-09 20:27:05 公開日:2024-07-07 |
# CLAMP-ViT:ViTの適応後量子化のための対照的なデータ自由学習
CLAMP-ViT: Contrastive Data-Free Learning for Adaptive Post-Training Quantization of ViTs ( http://arxiv.org/abs/2407.05266v1 ) ライセンス: Link先を確認 | Akshat Ramachandran, Souvik Kundu, Tushar Krishna, | (参考訳) 視覚変換器(ViT)のためのデータフリー後学習量子化法であるCLAMP-ViTを提案する。
我々は、最近の手法の限界、特に意味のあるパッチ間の関係を活用できないこと、そして単純で意味的に曖昧なデータを生成すること、量子化の精度に影響を及ぼす。
CLAMP-ViTは2段階のアプローチを採用し、データ生成とモデル量子化の間に循環的に適応する。
具体的には、よりリッチで意味のあるデータを生成するために、パッチレベルのコントラスト学習スキームを組み込む。
さらに,固定および混合精度の量子化のための階層的進化的探索におけるコントラスト学習を活用し,非滑らかなロスランドスケープの効果を緩和しながら最適な量子化パラメータを同定する。
様々な視覚タスクにわたる広範囲な評価は、CLAMP-ViTの優位性を示し、性能改善により、分類におけるトップ1の精度が最大3%向上し、オブジェクト検出のための0.6mAP、既存の代替よりも類似またはより良い圧縮比でのセグメンテーションのための1.5mIoUが得られた。
コードはhttps://github.com/georgia-tech-synergy-lab/CLAMP-ViT.gitで公開されている。
We present CLAMP-ViT, a data-free post-training quantization method for vision transformers (ViTs). We identify the limitations of recent techniques, notably their inability to leverage meaningful inter-patch relationships, leading to the generation of simplistic and semantically vague data, impacting quantization accuracy. CLAMP-ViT employs a two-stage approach, cyclically adapting between data generation and model quantization. Specifically, we incorporate a patch-level contrastive learning scheme to generate richer, semantically meaningful data. Furthermore, we leverage contrastive learning in layer-wise evolutionary search for fixed- and mixed-precision quantization to identify optimal quantization parameters while mitigating the effects of a non-smooth loss landscape. Extensive evaluations across various vision tasks demonstrate the superiority of CLAMP-ViT, with performance improvements of up to 3% in top-1 accuracy for classification, 0.6 mAP for object detection, and 1.5 mIoU for segmentation at similar or better compression ratio over existing alternatives. Code is available at https://github.com/georgia-tech-synergy-lab/CLAMP-ViT.git | 翻訳日:2024-07-09 20:27:05 公開日:2024-07-07 |
# DTR: マルチメディアデータ復元のための統合深部テンソル表現フレームワーク
DTR: A Unified Deep Tensor Representation Framework for Multimedia Data Recovery ( http://arxiv.org/abs/2407.05267v1 ) ライセンス: Link先を確認 | Ting-Wei Zhou, Xi-Le Zhao, Jian-Li Wang, Yi-Si Luo, Min Wang, Xiao-Xuan Bai, Hong Yan, | (参考訳) 近年、変換に基づくテンソル表現は、2つの必須成分、すなわち変換とキャラクタリゼーションからなるマルチメディアデータ(例えば画像やビデオ)の回復問題に注目が集まっている。
以前は、変換に基づくテンソル表現の開発は主に変換の側面に焦点を当てていた。
いくつかの試みでは、浅い行列分解(例:特異値分解、負行列分解)を用いて変換テンソル(潜時テンソル)の正面スライスを特徴づけるが、忠実な特徴的側面は過小評価される。
この問題に対処するために,ディープラーニング生成モジュールと深部変換モジュールを相乗的に組み合わせ,統合された深部テンソル表現(DTR)フレームワークを提案する。
特に、深い潜伏生成モジュールは、浅い行列因子化と比較して潜伏テンソルを忠実に生成することができる。
新しいDTRフレームワークは、従来の浅い表現をよりよく理解するだけでなく、新しい表現を探求する上でも役立ちます。
提案したDTRの表現能力を検討するために,代表的多次元データ復元タスクを検討し,教師なしDTRに基づく多次元データ復元モデルを提案する。
大規模実験により、DTRは定量化と定性化の両面において、特に細部回復において最先端の手法と比較して優れた性能を発揮することが示された。
Recently, the transform-based tensor representation has attracted increasing attention in multimedia data (e.g., images and videos) recovery problems, which consists of two indispensable components, i.e., transform and characterization. Previously, the development of transform-based tensor representation mainly focuses on the transform aspect. Although several attempts consider using shallow matrix factorization (e.g., singular value decomposition and negative matrix factorization) to characterize the frontal slices of transformed tensor (termed as latent tensor), the faithful characterization aspect is underexplored. To address this issue, we propose a unified Deep Tensor Representation (termed as DTR) framework by synergistically combining the deep latent generative module and the deep transform module. Especially, the deep latent generative module can faithfully generate the latent tensor as compared with shallow matrix factorization. The new DTR framework not only allows us to better understand the classic shallow representations, but also leads us to explore new representation. To examine the representation ability of the proposed DTR, we consider the representative multi-dimensional data recovery task and suggest an unsupervised DTR-based multi-dimensional data recovery model. Extensive experiments demonstrate that DTR achieves superior performance compared to state-of-the-art methods in both quantitative and qualitative aspects, especially for fine details recovery. | 翻訳日:2024-07-09 20:27:05 公開日:2024-07-07 |
# リソース制約型IoTクライアントを用いたファインチューニング大型サーバモデルのフェデレーション知識伝達
Federated Knowledge Transfer Fine-tuning Large Server Model with Resource-Constrained IoT Clients ( http://arxiv.org/abs/2407.05268v1 ) ライセンス: Link先を確認 | Shaoyuan Chen, Linlin You, Rui Liu, Shuo Yu, Ahmed M. Abdelmoniem, | (参考訳) 微調整を含む大規模なモデルのトレーニングは、高品質なデータの不足に直面します。
集中型データセンタに基づくソリューションと比較して、IoT(Internet of Things)の大規模モデルのアップデートは、プライベートデータとヘテロジニアスデータを使用することで、分散クライアントからの知識を調整する上での課題に直面している。
このような課題に対処するため、我々は、IoTにおける大規模モデルのトレーニングを促進するために、KoALA(Federated Knowledge Transfer Fine-tuning Large Server Model with Resource-Constrained IoT Clients)を提案する。
IoTクライアントが取得するリソースは限定的かつ制限的であるため、大規模なモデルをローカルに実行し、プライバシ保護の方法で更新することは不可能である。
これにより、IoTクライアントでローカルに動作してプライベートデータを別々に処理し、サーバとクライアント間の反復学習による大規模モデルの知識伝達を可能にする。
さらに、類似または異なる計算能力を持つクライアントをサポートするために、KOALAは2種類の大小モデルのジョイントラーニングモード、すなわち同種または異種であるように設計されている。
実験結果から,本手法は従来の手法と比較して,類似の訓練性能を達成できるだけでなく,ローカルストレージやコンピュータパワーリソースの必要性を大幅に低減できることが示された。
The training of large models, involving fine-tuning, faces the scarcity of high-quality data. Compared to the solutions based on centralized data centers, updating large models in the Internet of Things (IoT) faces challenges in coordinating knowledge from distributed clients by using their private and heterogeneous data. To tackle such a challenge, we propose KOALA (Federated Knowledge Transfer Fine-tuning Large Server Model with Resource-Constrained IoT Clients) to impel the training of large models in IoT. Since the resources obtained by IoT clients are limited and restricted, it is infeasible to locally execute large models and also update them in a privacy-preserving manner. Therefore, we leverage federated learning and knowledge distillation to update large models through collaboration with their small models, which can run locally at IoT clients to process their private data separately and enable large-small model knowledge transfer through iterative learning between the server and clients. Moreover, to support clients with similar or different computing capacities, KOALA is designed with two kinds of large-small model joint learning modes, namely to be homogeneous or heterogeneous. Experimental results demonstrate that compared to the conventional approach, our method can not only achieve similar training performance but also significantly reduce the need for local storage and computing power resources. | 翻訳日:2024-07-09 20:27:05 公開日:2024-07-07 |
# 二元性ラベルを超えて:性-神経的名前予測によるLDMにおける性バイアスの解明
Beyond Binary Gender Labels: Revealing Gender Biases in LLMs through Gender-Neutral Name Predictions ( http://arxiv.org/abs/2407.05271v1 ) ライセンス: Link先を確認 | Zhiwen You, HaeJin Lee, Shubhanshu Mishra, Sullam Jeoung, Apratim Mishra, Jinseok Kim, Jana Diesner, | (参考訳) 名前に基づく性別予測は伝統的に、二項分類システムを用いて、名前に基づいて個人を女性または男性に分類してきた。
この二項性アプローチは、どの性別とも一致しない性中立的な名前の場合に問題となることがある。
性別ニュートラルな名前を認識することなく、二項性カテゴリーのみに限定することで、性別予測タスクの包括性を低下させることができる。
我々は,大規模言語モデル(LLM)における潜在的な性バイアスを研究・解決するために,ジェンダーカテゴリー,すなわちニュートラルを導入する。
名詞名のみに基づく性別予測において,いくつかの基礎的・大規模言語モデルの性能評価を行った。
さらに,性別予測の精度を高めるために出生年を増やすことの影響について検討した。
以上の結果から,男性名,女性名,男性名,女性名,男性名,女性名,男性名,女性名,男性名,女性名,男性名,男性名,女性名,女性名,男性名,女性名,男性名,女性名,男性名,女性名,男性名,男性名,女性名,男性名,女性名,男性名,女性名,男性名,男性名,女性名,女性名,男性名,女性名,男性名,女性名,女性名,男性名,女性名,男性名,女性名,女性名,女性名,女性名,女性名,男性名,女性名,女性名,女性名,女性名,女性名,女性名,女性名,女性名,女性名,女性
以上の結果から, 出生年を取り入れた場合, 性別予測の総合的精度は向上しないことが明らかとなった。
下流タスクにおけるジェンダー識別にLDMを適用する場合,特に非バイナリジェンダーラベルを扱う場合には,注意を払うことを推奨する。
Name-based gender prediction has traditionally categorized individuals as either female or male based on their names, using a binary classification system. That binary approach can be problematic in the cases of gender-neutral names that do not align with any one gender, among other reasons. Relying solely on binary gender categories without recognizing gender-neutral names can reduce the inclusiveness of gender prediction tasks. We introduce an additional gender category, i.e., "neutral", to study and address potential gender biases in Large Language Models (LLMs). We evaluate the performance of several foundational and large language models in predicting gender based on first names only. Additionally, we investigate the impact of adding birth years to enhance the accuracy of gender prediction, accounting for shifting associations between names and genders over time. Our findings indicate that most LLMs identify male and female names with high accuracy (over 80%) but struggle with gender-neutral names (under 40%), and the accuracy of gender prediction is higher for English-based first names than non-English names. The experimental results show that incorporating the birth year does not improve the overall accuracy of gender prediction, especially for names with evolving gender associations. We recommend using caution when applying LLMs for gender identification in downstream tasks, particularly when dealing with non-binary gender labels. | 翻訳日:2024-07-09 20:27:05 公開日:2024-07-07 |
# HyperKAN: Kolmogorov-Arnold NetworksがHyperspectral Image Classificatorsを賢く
HyperKAN: Kolmogorov-Arnold Networks make Hyperspectral Image Classificators Smarter ( http://arxiv.org/abs/2407.05278v1 ) ライセンス: Link先を確認 | Valeriy Lobanov, Nikita Firsov, Evgeny Myasnikov, Roman Khabibullin, Artem Nikonorov, | (参考訳) 従来のニューラルネットワークアーキテクチャでは、多層パーセプトロン(MLP)が特徴抽出段階に続く分類ブロックとして使用されるのが一般的である。
しかし、コルモゴロフ・アルノルドネットワーク(KAN)は、予測精度を高める可能性を秘め、MLPに代わる有望な選択肢を提示している。
本稿では,従来のネットワークの線形層と畳み込み層をKANベースの層に置き換える手法を提案する。
これらの修正により,高スペクトルリモートセンシング画像の画素単位の分類精度が大幅に向上した。
我々は、ハイパースペクトル画像分類のための7つの異なるニューラルネットワークアーキテクチャを修正し、全ネットワークにわたる分類精度を大幅に改善した。
論文で検討されたアーキテクチャには、ベースラインMLP、最先端1D (1DCNN) と3D畳み込み (2つの異なる3DCNN、NM3DCNN)、トランスフォーマー (SSFTT) アーキテクチャ、新たに提案されたM1DCNNが含まれる。
最も大きな効果は、スペクトルデータのみを扱う畳み込みネットワークにおいて達成され、最も優れた分類品質はKanoベースのトランスフォーマーアーキテクチャを用いて達成された。
実験はすべて、公開されている7つのハイパースペクトルデータセットを用いて行われた。
私たちのコードはhttps://github.com/f-neumann77/HyperKANで利用可能です。
In traditional neural network architectures, a multilayer perceptron (MLP) is typically employed as a classification block following the feature extraction stage. However, the Kolmogorov-Arnold Network (KAN) presents a promising alternative to MLP, offering the potential to enhance prediction accuracy. In this paper, we propose the replacement of linear and convolutional layers of traditional networks with KAN-based counterparts. These modifications allowed us to significantly increase the per-pixel classification accuracy for hyperspectral remote-sensing images. We modified seven different neural network architectures for hyperspectral image classification and observed a substantial improvement in the classification accuracy across all the networks. The architectures considered in the paper include baseline MLP, state-of-the-art 1D (1DCNN) and 3D convolutional (two different 3DCNN, NM3DCNN), and transformer (SSFTT) architectures, as well as newly proposed M1DCNN. The greatest effect was achieved for convolutional networks working exclusively on spectral data, and the best classification quality was achieved using a KAN-based transformer architecture. All the experiments were conducted using seven openly available hyperspectral datasets. Our code is available at https://github.com/f-neumann77/HyperKAN. | 翻訳日:2024-07-09 20:27:05 公開日:2024-07-07 |
# ハイパースペクトル超解像のハイブリッドレジストレーションと融合法
A Hybrid Registration and Fusion Method for Hyperspectral Super-resolution ( http://arxiv.org/abs/2407.05279v1 ) ライセンス: Link先を確認 | Kunjing Yang, Minru Bai, TingLu, | (参考訳) マルチスペクトル画像(MSI)を融合した超スペクトル画像(HSI)は,HSIの空間分解能を高めるために主流のアプローチとなっている。
多くのHSI-MSI融合法は印象的な結果を得た。
それでも、次のような課題が続く。
(a) HSIとMSIの正確な登録に依存しており、現実のアプリケーションでは困難である。
b)得られたHSI-MSIペアは十分に利用できない。
本稿では,RAF-NLRGSというハイブリッド登録・融合制約最適化モデルを提案する。
挑戦に関して
(a)RAFモデルは、融合プロセス内にバッチ画像アライメントを統合し、画像登録と融合の同時実行を容易にする。
特集にあたって
(b)NLRGSモデルは非凸低ランク・グループスパース構造を取り入れ,グループ空間を利用して残余データに埋め込まれた貴重な情報を効果的に活用する。
さらに、NLRGSモデルはRAFモデルに基づく核融合性能をさらに向上させることができる。
その後、RAF-NLRGSモデルは一般化ガウスニュートン(GGN)アルゴリズムと近似交互最適化(PAO)アルゴリズムの枠組みで解決される。
理論的には、NLRGSモデルの誤差境界を確立し、対応するアルゴリズムの収束解析も提示する。
最後に,提案手法の有効性を検証するため,HSIデータセットに関する広範な数値実験を行った。
Fusing hyperspectral images (HSIs) with multispectral images (MSIs) has become a mainstream approach to enhance the spatial resolution of HSIs. Many HSI-MSI fusion methods have achieved impressive results. Nevertheless, certain challenges persist, including: (a) A majority of current methods rely on accurate registration of HSI and MSI, which can be challenging in real-world applications.(b) The obtained HSI-MSI pairs may not be fully utilized. In this paper, we propose a hybrid registration and fusion constrained optimization model named RAF-NLRGS. With respect to challenge (a), the RAF model integrates batch image alignment within the fusion process, facilitating simultaneous execution of image registration and fusion. To address issue (b), the NLRGS model incorporates a nonconvex low-rank and group-sparse structure, leveraging group sparsity to effectively harness valuable information embedded in the residual data. Moreover, the NLRGS model can further enhance fusion performance based on the RAF model. Subsequently, the RAF-NLRGS model is solved within the framework of Generalized Gauss-Newton (GGN) algorithm and Proximal Alternating Optimization (PAO) algorithm. Theoretically, we establish the error bounds for the NLRGS model and the convergence analysis of corresponding algorithms is also presented. Finally, extensive numerical experiments on HSI datasets are conducted to verify the effectiveness of our method. | 翻訳日:2024-07-09 20:27:05 公開日:2024-07-07 |
# UltraEdit: インストラクションベースの微細画像編集
UltraEdit: Instruction-based Fine-Grained Image Editing at Scale ( http://arxiv.org/abs/2407.05282v1 ) ライセンス: Link先を確認 | Haozhe Zhao, Xiaojian Ma, Liang Chen, Shuzheng Si, Rujie Wu, Kaikai An, Peiyu Yu, Minjia Zhang, Qing Li, Baobao Chang, | (参考訳) 本稿では,大規模(約400万の編集サンプル)のUltraEditについて,命令ベース画像編集のためのデータセットを自動生成する。
私たちのキーとなるアイデアは、InstructPix2PixやMagicBrushといった既存の画像編集データセットの欠点に対処し、大規模で高品質な画像編集サンプルを作成するための体系的なアプローチを提供することです。
UltraEditにはいくつかの異なる利点がある。
1)大規模言語モデル(LLM)の創造性を活用し、人間のラッカーのテキスト内編集例を活用し、幅広い編集指示を特徴とする。
2)データソースは,写真やアートワークを含む実際の画像に基づいており,テキスト・ツー・イメージ・モデルのみによって生成されたデータセットと比較して,多様性とバイアスの低減を実現している。
3) 高品質で自動生成される領域アノテーションによって強化された領域ベースの編集もサポートする。
実験の結果,UltraEdit でトレーニングされた標準拡散ベースラインは MagicBrush と Emu-Edit のベンチマークに新しいレコードをセットした。
分析により、実際の画像アンカーと領域ベースの編集データの重要性がさらに確認される。
データセット、コード、モデルはhttps://ultra-editing.github.ioで確認できる。
This paper presents UltraEdit, a large-scale (approximately 4 million editing samples), automatically generated dataset for instruction-based image editing. Our key idea is to address the drawbacks in existing image editing datasets like InstructPix2Pix and MagicBrush, and provide a systematic approach to producing massive and high-quality image editing samples. UltraEdit offers several distinct advantages: 1) It features a broader range of editing instructions by leveraging the creativity of large language models (LLMs) alongside in-context editing examples from human raters; 2) Its data sources are based on real images, including photographs and artworks, which provide greater diversity and reduced bias compared to datasets solely generated by text-to-image models; 3) It also supports region-based editing, enhanced by high-quality, automatically produced region annotations. Our experiments show that canonical diffusion-based editing baselines trained on UltraEdit set new records on MagicBrush and Emu-Edit benchmarks. Our analysis further confirms the crucial role of real image anchors and region-based editing data. The dataset, code, and models can be found in https://ultra-editing.github.io. | 翻訳日:2024-07-09 20:27:05 公開日:2024-07-07 |
# SCIPaD:教師なしPose-Depthジョイントラーニングに空間曲線を組み込む
SCIPaD: Incorporating Spatial Clues into Unsupervised Pose-Depth Joint Learning ( http://arxiv.org/abs/2407.05283v1 ) ライセンス: Link先を確認 | Yi Feng, Zizhan Guo, Qijun Chen, Rui Fan, | (参考訳) 教師なし単眼深度推定フレームワークは、自律運転において有望な性能を示した。
しかし、既存のソリューションは主にエゴモーションリカバリのための単純な畳み込みニューラルネットワークに依存しており、ダイナミックで複雑な現実のシナリオにおける正確なカメラのポーズを推定するのに苦労している。
これらの不正確な推定されたカメラのポーズは、必然的に光度再構成を劣化させ、間違った監督信号で深度推定ネットワークを誤解させる可能性がある。
本稿では,教師なし深層学習のための空間的手がかりを取り入れたSCIPaDを紹介する。
具体的には,2次元特徴量と関連する信頼度を取得するために,信頼度を考慮した特徴量フロー推定器を提案する。
一方,DepthNetの擬似3次元点群と2次元特徴群を同質な位置表現へ統合する位置案内アグリゲータを導入する。
最後に、ロバストなカメラポーズデコーディングのための意味的特徴に空間的ヒントを選択的に注入する階層的な位置埋め込みインジェクタを提案する。
大規模な実験と解析により、他の最先端手法と比較して、我々のモデルの優れた性能を示す。
注目すべきことに、SCIPaDは、KITTIオドメトリデータセット上のカメラポーズ推定タスクにおいて平均翻訳誤差22.2\%、平均角誤差34.8\%の削減を実現している。
ソースコードは \url{https://mias.group/SCIPaD} で公開されています。
Unsupervised monocular depth estimation frameworks have shown promising performance in autonomous driving. However, existing solutions primarily rely on a simple convolutional neural network for ego-motion recovery, which struggles to estimate precise camera poses in dynamic, complicated real-world scenarios. These inaccurately estimated camera poses can inevitably deteriorate the photometric reconstruction and mislead the depth estimation networks with wrong supervisory signals. In this article, we introduce SCIPaD, a novel approach that incorporates spatial clues for unsupervised depth-pose joint learning. Specifically, a confidence-aware feature flow estimator is proposed to acquire 2D feature positional translations and their associated confidence levels. Meanwhile, we introduce a positional clue aggregator, which integrates pseudo 3D point clouds from DepthNet and 2D feature flows into homogeneous positional representations. Finally, a hierarchical positional embedding injector is proposed to selectively inject spatial clues into semantic features for robust camera pose decoding. Extensive experiments and analyses demonstrate the superior performance of our model compared to other state-of-the-art methods. Remarkably, SCIPaD achieves a reduction of 22.2\% in average translation error and 34.8\% in average angular error for camera pose estimation task on the KITTI Odometry dataset. Our source code is available at \url{https://mias.group/SCIPaD}. | 翻訳日:2024-07-09 20:27:05 公開日:2024-07-07 |
# Gradient Diffusion: 摂動抵抗型Gradient Leakage攻撃
Gradient Diffusion: A Perturbation-Resilient Gradient Leakage Attack ( http://arxiv.org/abs/2407.05285v1 ) ライセンス: Link先を確認 | Xuan Liu, Siqi Cai, Qihua Zhou, Song Guo, Ruibin Li, Kaiwei Lin, | (参考訳) 近年、Federated Learning (FL) がグラデーションリーク攻撃に対する脆弱性を目撃している。この攻撃では、交換された勾配からプライベートトレーニングデータを復元することができ、グラデーション保護がFLトレーニングプロセスにとって重要な問題となっている。
既存のソリューションは、差分プライバシーのような摂動に基づくメカニズムを頼りにしており、各クライアントはサーバに集約する前に特定の量のノイズを局所的な勾配に注入し、グローバルな分散のばらつきは最終的に勾配のプライバシーを隠蔽する。
しかし、強靭性は注入音に大きく依存するため、摂動は必ずしも勾配保護のためのパナセアではない。
この直観は興味深い疑問を提起する: \textit{?
そこで,本稿では,従来のモデル構造やサードパーティデータへのアクセスを必要とせず,摂動抵抗性勾配漏洩攻撃(PGLA)を提案する。
具体的には、勾配摂動保護の固有の拡散特性を活用し、PGLAを実装するための新しい拡散に基づくデノナイジングモデルを構築する。
我々の知見は、拡散逆過程における摂動の乱れレベルを捉えることで、拡散モデルが適応的なサンプリングステップによって元のクリーンバージョンとして近似勾配を生成することを促進できる勾配デノナイジング能力が解放できるということである。
広範な実験により、PGLAは保護された勾配を効果的に回復し、FLトレーニングプロセスを勾配漏れの脅威に晒し、既存のモデルと比較して勾配の劣化とデータ回復の最高の品質を達成することが示されている。
PGLAとその防衛に対する大衆の注意を喚起したい。
Recent years have witnessed the vulnerability of Federated Learning (FL) against gradient leakage attacks, where the private training data can be recovered from the exchanged gradients, making gradient protection a critical issue for the FL training process. Existing solutions often resort to perturbation-based mechanisms, such as differential privacy, where each participating client injects a specific amount of noise into local gradients before aggregating to the server, and the global distribution variation finally conceals the gradient privacy. However, perturbation is not always the panacea for gradient protection since the robustness heavily relies on the injected noise. This intuition raises an interesting question: \textit{is it possible to deactivate existing protection mechanisms by removing the perturbation inside the gradients?} In this paper, we present the answer: \textit{yes} and propose the Perturbation-resilient Gradient Leakage Attack (PGLA), the first attempt to recover the perturbed gradients, without additional access to the original model structure or third-party data. Specifically, we leverage the inherent diffusion property of gradient perturbation protection and construct a novel diffusion-based denoising model to implement PGLA. Our insight is that capturing the disturbance level of perturbation during the diffusion reverse process can release the gradient denoising capability, which promotes the diffusion model to generate approximate gradients as the original clean version through adaptive sampling steps. Extensive experiments demonstrate that PGLA effectively recovers the protected gradients and exposes the FL training process to the threat of gradient leakage, achieving the best quality in gradient denoising and data recovery compared to existing models. We hope to arouse public attention on PGLA and its defense. | 翻訳日:2024-07-09 20:27:05 公開日:2024-07-07 |
# Strongly-)Convex One to $K$-Level Stochastic Optimization のための確率的再帰モーメントに基づくアルゴリズムの安定性と一般化
Stability and Generalization for Stochastic Recursive Momentum-based Algorithms for (Strongly-)Convex One to $K$-Level Stochastic Optimizations ( http://arxiv.org/abs/2407.05286v1 ) ライセンス: Link先を確認 | Xiaokang Pan, Xingyu Li, Jin Liu, Tao Sun, Kai Sun, Lixing Chen, Zhe Qu, | (参考訳) STOchastic Recursive Momentum (STORM)ベースのアルゴリズムは、K$レベル(K \geq 3$)確率最適化問題を解くために広く開発されている。
具体的には、推定器を用いてバイアス勾配問題を緩和し、ほぼ最適収束結果を得る。
しかしながら、一般化性能の理解については、特に 1 ドルから $K レベルの最適化コンテキストへの移行時に顕著な研究が比較的少ない。
本稿では,STORM, COVER, SVMRの3つの代表的なSTORMアルゴリズムの包括的一般化解析を行う。
まず、$K$レベルの最適化の安定性を定義し、一般化にリンクする。
次に、3つのSTORMベースのアルゴリズムの安定性について詳述する。
最後に、安定性と最適化誤差のバランスをとることで、過大なリスク境界を導出する。
理論的な結果はSTORMに基づくアルゴリズムの完成に強い証拠を与える: 1) 各推定器は、その推定対象とのばらつきにより安定性を低下させることができる。
2) 任意の追加レベルは、その累積確率勾配と真の勾配の間の安定性と分散の影響を受け、一般化誤差をエスカレートする。
(3)推定器の初期計算におけるバッチサイズの増加は良好なトレードオフを示し、一般化性能が向上する。
STOchastic Recursive Momentum (STORM)-based algorithms have been widely developed to solve one to $K$-level ($K \geq 3$) stochastic optimization problems. Specifically, they use estimators to mitigate the biased gradient issue and achieve near-optimal convergence results. However, there is relatively little work on understanding their generalization performance, particularly evident during the transition from one to $K$-level optimization contexts. This paper provides a comprehensive generalization analysis of three representative STORM-based algorithms: STORM, COVER, and SVMR, for one, two, and $K$-level stochastic optimizations under both convex and strongly convex settings based on algorithmic stability. Firstly, we define stability for $K$-level optimizations and link it to generalization. Then, we detail the stability results for three prominent STORM-based algorithms. Finally, we derive their excess risk bounds by balancing stability results with optimization errors. Our theoretical results provide strong evidence to complete STORM-based algorithms: (1) Each estimator may decrease their stability due to variance with its estimation target. (2) Every additional level might escalate the generalization error, influenced by the stability and the variance between its cumulative stochastic gradient and the true gradient. (3) Increasing the batch size for the initial computation of estimators presents a favorable trade-off, enhancing the generalization performance. | 翻訳日:2024-07-09 20:27:05 公開日:2024-07-07 |
# 時間とともに不均一な治療効果を推定するためのモデル非依存メタラーナー
Model-agnostic meta-learners for estimating heterogeneous treatment effects over time ( http://arxiv.org/abs/2407.05287v1 ) ライセンス: Link先を確認 | Dennis Frauen, Konstantin Hess, Stefan Feuerriegel, | (参考訳) パーソナライズド医療などの多くの分野において、時間とともにヘテロジニアス治療効果(HTE)を推定することが重要である。
例えば、電子健康記録は、いくつかの期間にわたって一般的に収集され、治療決定をパーソナライズするために使用される。
このタスクの既存の作業は、主にモデルベースの学習者(例えば、特定の機械学習モデルに適応する学習者)に焦点を当てている。
対照的に、モデルに依存しない学習者(いわゆるメタ学習者)は、ほとんど探索されていない。
本稿では,モデルに依存しないメタラーナーを複数提案し,任意の機械学習モデル(例えば変換器)と組み合わせて時間とともにHTEを推定する手法を提案する。
ここでは、重み付けされた擬似アウトカム回帰によって得られる学習者に焦点を当て、処理効果を直接ターゲットとした効率的な推定を可能にする。
次に、異なる学習者を特徴付ける包括的な理論的分析を行い、特定の学習者がいつ好まれるかについての洞察を提供する。
最後に,数値実験により理論的知見を確認した。
要約すると、メタラーナーはすでに静的設定の最先端にあるが、時間変化した設定でHTEを推定するための総合的なメタラーナーセットを最初に提案する。
Estimating heterogeneous treatment effects (HTEs) over time is crucial in many disciplines such as personalized medicine. For example, electronic health records are commonly collected over several time periods and then used to personalize treatment decisions. Existing works for this task have mostly focused on model-based learners (i.e., learners that adapt specific machine-learning models). In contrast, model-agnostic learners -- so-called meta-learners -- are largely unexplored. In our paper, we propose several meta-learners that are model-agnostic and thus can be used in combination with arbitrary machine learning models (e.g., transformers) to estimate HTEs over time. Here, our focus is on learners that can be obtained via weighted pseudo-outcome regressions, which allows for efficient estimation by targeting the treatment effect directly. We then provide a comprehensive theoretical analysis that characterizes the different learners and that allows us to offer insights into when specific learners are preferable. Finally, we confirm our theoretical insights through numerical experiments. In sum, while meta-learners are already state-of-the-art for the static setting, we are the first to propose a comprehensive set of meta-learners for estimating HTEs in the time-varying setting. | 翻訳日:2024-07-09 20:27:05 公開日:2024-07-07 |
# IoTコンテキスト共有プラットフォームのセキュリティに対する体系的アプローチの欠如
Lack of Systematic Approach to Security of IoT Context Sharing Platforms ( http://arxiv.org/abs/2407.05290v1 ) ライセンス: Link先を確認 | Mohammad Goudarzi, Arash Shaghaghi, Simon Finn, Sanjay Jha, | (参考訳) IoTコンテキスト共有プラットフォームは、今日の相互接続型IoTデプロイメントの重要なコンポーネントであり、そのセキュリティは、デプロイメント全体とIoTを採用する重要なインフラストラクチャに影響を与える。
我々は、IoTコンテキスト共有プラットフォームのセキュリティに対する体系的なアプローチの欠如について報告し、既存のソリューションを評価し、"セキュア・バイ・デザイン"ソリューションを開発するための方法論的および体系的な代替手段の必要性を提案する。
我々は、一般的なIoTコンテキスト共有プラットフォームの主要なコンポーネントを特定し、そのようなプラットフォームの脅威モデリングにMITRE ATT&CKを使うことを提案する。
IoT context-sharing platforms are an essential component of today's interconnected IoT deployments with their security affecting the entire deployment and the critical infrastructure adopting IoT. We report on a lack of systematic approach to the security of IoT context-sharing platforms and propose the need for a methodological and systematic alternative to evaluate the existing solutions and develop `secure-by-design' solutions. We have identified the key components of a generic IoT context-sharing platform and propose using MITRE ATT&CK for threat modelling of such platforms. | 翻訳日:2024-07-09 20:17:13 公開日:2024-07-07 |
# WorkArena++: 構成計画と推論に基づく共通知識作業タスクを目指して
WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks ( http://arxiv.org/abs/2407.05291v1 ) ライセンス: Link先を確認 | Léo Boisvert, Megh Thakkar, Maxime Gasse, Massimo Caccia, Thibault Le Sellier De Chezelles, Quentin Cappart, Nicolas Chapados, Alexandre Lacoste, Alexandre Drouin, | (参考訳) ヒトのような知性を模倣する大規模言語モデル(LLM)の能力は、LLMベースの自律エージェントの急増につながった。
近年のLCMは,ユーザの指示を計画し,推論する能力を持っているように思われるが,自律的なタスク解決にこれらの能力を適用することの有効性はいまだ未定である。
これは、自動化されたエージェントが高いインパクトを約束するエンタープライズ環境で特に当てはまる。
このギャップを埋めるために、知識労働者が日常的に実行する現実的なワークフローに対応する682のタスクからなる新しいベンチマークWorkArena++を提案する。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
最先端のLLMやビジョン言語モデル(VLM)、人間労働者に対する実証研究は、職場で有用なアシスタントとして機能する上でいくつかの課題を明らかにしている。
ベンチマークに加えて,既存のモデルの微調整に使用可能な,数千の地平線観測・行動トレースを生成する機構を提供する。
全体として、この作業は、コミュニティが有能な自律エージェントに進むのに役立つ有用なリソースとして役立つものと期待している。
ベンチマークはhttps://github.com/ServiceNow/WorkArena/tree/workarena-plus-plusで見ることができる。
The ability of large language models (LLMs) to mimic human-like intelligence has led to a surge in LLM-based autonomous agents. Though recent LLMs seem capable of planning and reasoning given user instructions, their effectiveness in applying these capabilities for autonomous task solving remains underexplored. This is especially true in enterprise settings, where automated agents hold the promise of a high impact. To fill this gap, we propose WorkArena++, a novel benchmark consisting of 682 tasks corresponding to realistic workflows routinely performed by knowledge workers. WorkArena++ is designed to evaluate the planning, problem-solving, logical/arithmetic reasoning, retrieval, and contextual understanding abilities of web agents. Our empirical studies across state-of-the-art LLMs and vision-language models (VLMs), as well as human workers, reveal several challenges for such models to serve as useful assistants in the workplace. In addition to the benchmark, we provide a mechanism to effortlessly generate thousands of ground-truth observation/action traces, which can be used for fine-tuning existing models. Overall, we expect this work to serve as a useful resource to help the community progress toward capable autonomous agents. The benchmark can be found at https://github.com/ServiceNow/WorkArena/tree/workarena-plus-plus. | 翻訳日:2024-07-09 20:17:13 公開日:2024-07-07 |
# マンバホークスプロセス
Mamba Hawkes Process ( http://arxiv.org/abs/2407.05302v1 ) ライセンス: Link先を確認 | Anningzhe Gao, Shan Dai, Yan Hu, | (参考訳) 不規則で非同期なイベントシーケンスは、ソーシャルメディア、ファイナンス、ヘルスケアなど、多くのドメインで一般的である。
従来の時間的点過程(TPP)は、ホークス過程と同様に、相互阻害や非線形性を効果的にモデル化するのに苦労することが多い。
最近のニューラルネットワークモデル(RNNやTransformerなど)は、これらの問題の一部に対処する一方で、長期的な依存関係と計算効率に関する課題に直面している。
本稿では,MHP(Mamba Hawkes Process)を導入し,MHP(Mamba Hawkes Process)とMHP(Mamba Hawkes Process)について述べる。
以上の結果から,MHPは様々なデータセットにおいて既存モデルよりも優れていることがわかった。
さらに,マンバとトランスフォーマーモデルを組み合わせて予測能力を向上する,マンバホークスプロセス拡張(MHP-E)を提案する。
本稿では,HawkesプロセスへのMambaアーキテクチャの新たな応用,フレキシブルで拡張可能なモデル構造,および状態空間モデルとHawkesプロセス間の相乗効果の理論解析について述べる。
実験により, MHPとMHP-Eの双方の優れた性能を示し, 時間点プロセスモデリングの分野を推し進めた。
Irregular and asynchronous event sequences are prevalent in many domains, such as social media, finance, and healthcare. Traditional temporal point processes (TPPs), like Hawkes processes, often struggle to model mutual inhibition and nonlinearity effectively. While recent neural network models, including RNNs and Transformers, address some of these issues, they still face challenges with long-term dependencies and computational efficiency. In this paper, we introduce the Mamba Hawkes Process (MHP), which leverages the Mamba state space architecture to capture long-range dependencies and dynamic event interactions. Our results show that MHP outperforms existing models across various datasets. Additionally, we propose the Mamba Hawkes Process Extension (MHP-E), which combines Mamba and Transformer models to enhance predictive capabilities. We present the novel application of the Mamba architecture to Hawkes processes, a flexible and extensible model structure, and a theoretical analysis of the synergy between state space models and Hawkes processes. Experimental results demonstrate the superior performance of both MHP and MHP-E, advancing the field of temporal point process modeling. | 翻訳日:2024-07-09 20:17:13 公開日:2024-07-07 |
# 二重溶接電位におけるボソンのレゲットゲージ不等式
Leggett-Garg Inequality for Bosons in a Double-Well Potential ( http://arxiv.org/abs/2407.05304v1 ) ライセンス: Link先を確認 | Tsubasa Sakamoto, Ryosuke Yoshii, Shunji Tsuchiya, | (参考訳) Leggett-Garg不等式 (LGI) は、Leggett と Garg が仮定したように、マクロ的システム力学のマクロ現実主義への密着性を決定する基準として機能する。
この不等式に違反することは、システムの現実的な記述がないか、非侵襲的な測定の不現実性を意味する。
本研究では,2重井戸電位におけるボソン系のLGI違反について検討する。
具体的には, ボース・アインシュタイン・凝縮系(BEC)の二重井戸ポテンシャルにおけるボソンの力学におけるLGIの違反について検討する。
分析の結果,LGIはヨーゼフソン振動により不規則であることが明らかとなった。
特に、粒子数が増加するにつれて、LGIの違反がますます顕著になるのを観察する。
これらの結果は、ボースの凝縮体のマクロ現実的挙動に関する貴重な洞察を与え、測定がマクロ系の力学に与える影響を強調している。
The Leggett-Garg inequality (LGI) serves as a criterion to determine the adherence of macroscopic system dynamics to macrorealism, as postulated by Leggett and Garg. A violation of this inequality implies either the absence of a realistic description of the system or the impracticality of noninvasive measurements. In this work, we investigate the violation of the LGI for the system of bosons in a double-well potential. Specifically, we explore the violation of the LGI in the dynamics of bosons in a double-well potential in the Bose-Einstein-Condensation (BEC) regime, where the system can be considered as two weakly coupled Bose condensates, and in the single-particle regime to establish the conditions under which the violation of the LGI occurs. Our analysis reveals that the LGI is violated due to Josephson oscillations, while it remains unviolated in the strong coupling regime, attributed to the self-trapping phenomena. Notably, we observe that the violation of the LGI becomes increasingly significant as the particle number increases. These findings provide valuable insights into the macrorealistic behavior of Bose condensates and highlight the effect of measurements on the dynamics of a macroscopic system. | 翻訳日:2024-07-09 20:17:13 公開日:2024-07-07 |
# MINDECHO: キーオピニオンリーダーのためのロールプレイング言語エージェント
MINDECHO: Role-Playing Language Agents for Key Opinion Leaders ( http://arxiv.org/abs/2407.05305v1 ) ライセンス: Link先を確認 | Rui Xu, Dakuan Lu, Xiaoyu Tan, Xintao Wang, Siyu Yuan, Jiangjie Chen, Wei Chu, Xu Yinghui, | (参考訳) 大規模言語モデル~(LLM)は様々なアプリケーションにおいて印象的な性能を示しており、その中にはロールプレイング言語エージェント(RPLA)が幅広いユーザーベースを担っている。
今や、キーオピニオンリーダー(KOL)、シャイ、インターネットの有名人、ドメインのトレンドや意見を形作るRPLAに対する需要が増えている。
しかし、この系統の研究は過小評価されている。
そこで本稿では,KOL RPLAの開発と評価のための総合的なフレームワークであるMINDECHOを紹介する。
MINDECHOは、様々な専門分野のインターネットビデオテキストからKOLデータを収集し、GPT-4を利用して会話を合成する。
そして、各会話と書き起こしは、それぞれ個別化されたモデルトレーニングと推論時間検索に使用される。
評価は, KOLの一般次元(感情, 知識, トーン)とファン中心次元(ファン中心次元)の両方をカバーする。
大規模な実験は、KOL RPLAの開発と評価におけるMINDECHOの有効性を検証する。
Large language models~(LLMs) have demonstrated impressive performance in various applications, among which role-playing language agents (RPLAs) have engaged a broad user base. Now, there is a growing demand for RPLAs that represent Key Opinion Leaders (KOLs), \ie, Internet celebrities who shape the trends and opinions in their domains. However, research in this line remains underexplored. In this paper, we hence introduce MINDECHO, a comprehensive framework for the development and evaluation of KOL RPLAs. MINDECHO collects KOL data from Internet video transcripts in various professional fields, and synthesizes their conversations leveraging GPT-4. Then, the conversations and the transcripts are used for individualized model training and inference-time retrieval, respectively. Our evaluation covers both general dimensions (\ie, knowledge and tones) and fan-centric dimensions for KOLs. Extensive experiments validate the effectiveness of MINDECHO in developing and evaluating KOL RPLAs. | 翻訳日:2024-07-09 20:17:13 公開日:2024-07-07 |
# 3次スパイクに基づくニューロモルフィック信号処理システム
Ternary Spike-based Neuromorphic Signal Processing System ( http://arxiv.org/abs/2407.05310v1 ) ライセンス: Link先を確認 | Shuai Wang, Dehao Zhang, Ammar Belatreche, Yichen Xiao, Hongyu Qing, Wenjie We, Malu Zhang, Yang Yang, | (参考訳) ディープニューラルネットワーク(DNN)は様々な信号処理フィールドに実装され、性能が大幅に向上した。
しかし、DNNは一般的にかなりの計算資源を必要とするため、経済的コストが大きくなり、リソースに制約のあるエッジデバイスへの展開が困難になる。
本研究では、スパイキングニューラルネットワーク(SNN)と量子化技術を利用して、エネルギー効率が高く軽量なニューロモルフィック信号処理システムを開発する。
本システムの特徴は、しきい値適応符号化(TAE)法と量子化三元SNN(QT-SNN)法である。
TAE法は、時間変化のアナログ信号をスパース3次スパイク列車に効率よく符号化することができ、信号処理におけるエネルギーとメモリの要求を低減できる。
QT-SNNは、TAE法による3次スパイク列車と互換性があり、膜電位とシナプス重量の両方を定量化し、性能を維持しながらメモリ要求を減少させる。
広汎な実験は、音声と脳波の認識という2つの典型的な信号処理タスクで行われている。
その結果,脳神経形信号処理システムは,94%のメモリ要求量でSOTA(State-of-the-art)性能を実現することがわかった。
さらに,理論的なエネルギー消費分析により,他のSNN作品と比較して7.5倍の省エネルギー性を示した。
提案方式の効率性と有効性は、エネルギー効率の高い信号処理のための有望な経路としての可能性を強調している。
Deep Neural Networks (DNNs) have been successfully implemented across various signal processing fields, resulting in significant enhancements in performance. However, DNNs generally require substantial computational resources, leading to significant economic costs and posing challenges for their deployment on resource-constrained edge devices. In this study, we take advantage of spiking neural networks (SNNs) and quantization technologies to develop an energy-efficient and lightweight neuromorphic signal processing system. Our system is characterized by two principal innovations: a threshold-adaptive encoding (TAE) method and a quantized ternary SNN (QT-SNN). The TAE method can efficiently encode time-varying analog signals into sparse ternary spike trains, thereby reducing energy and memory demands for signal processing. QT-SNN, compatible with ternary spike trains from the TAE method, quantifies both membrane potentials and synaptic weights to reduce memory requirements while maintaining performance. Extensive experiments are conducted on two typical signal-processing tasks: speech and electroencephalogram recognition. The results demonstrate that our neuromorphic signal processing system achieves state-of-the-art (SOTA) performance with a 94% reduced memory requirement. Furthermore, through theoretical energy consumption analysis, our system shows 7.5x energy saving compared to other SNN works. The efficiency and efficacy of the proposed system highlight its potential as a promising avenue for energy-efficient signal processing. | 翻訳日:2024-07-09 20:17:13 公開日:2024-07-07 |
# MMAD:ビデオにおけるマルチラベルマイクロアクション検出
MMAD: Multi-label Micro-Action Detection in Videos ( http://arxiv.org/abs/2407.05311v1 ) ライセンス: Link先を確認 | Kun Li, Dan Guo, Pengyu Liu, Guoliang Chen, Meng Wang, | (参考訳) 人体行動は、社会的相互作用における非言語コミュニケーションの重要な形態である。
本稿では、内的人間の感情をより深く理解するための微妙で低強度な身体運動であるマイクロアクションとして知られる身体行動の特定のサブセットに焦点を当てる。
現実のシナリオでは、人間のマイクロアクションはしばしば共起し、複数のマイクロアクションが時間内に重複し、例えば頭と手の動きが同時に起こる。
しかしながら、現在の研究は、主に個々のマイクロアクションを認識しながら、その共起性を見越すことに焦点を当てている。
このギャップを狭めるために、所与のショートビデオ中のすべてのマイクロアクションを識別し、開始時間と終了時間を決定し、それらを分類する、Multi-label Micro-Action Detection (MMAD) というタスクを提案する。
これを達成するには、複数のマイクロアクションの特定と分類を行うために、長期と短期の両方のアクション関係を正確に把握できるモデルが必要である。
MMADタスクを支援するために,MMA-52(Multi-label Micro-Action-52)と呼ばれる新しいデータセットを導入する。
提案されたMMA-52データセットは、https://github.com/VUT-HFUT/Micro-Actionで利用可能である。
Human body actions are an important form of non-verbal communication in social interactions. This paper focuses on a specific subset of body actions known as micro-actions, which are subtle, low-intensity body movements that provide a deeper understanding of inner human feelings. In real-world scenarios, human micro-actions often co-occur, with multiple micro-actions overlapping in time, such as simultaneous head and hand movements. However, current research primarily focuses on recognizing individual micro-actions while overlooking their co-occurring nature. To narrow this gap, we propose a new task named Multi-label Micro-Action Detection (MMAD), which involves identifying all micro-actions in a given short video, determining their start and end times, and categorizing them. Achieving this requires a model capable of accurately capturing both long-term and short-term action relationships to locate and classify multiple micro-actions. To support the MMAD task, we introduce a new dataset named Multi-label Micro-Action-52 (MMA-52), specifically designed to facilitate the detailed analysis and exploration of complex human micro-actions. The proposed MMA-52 dataset is available at: https://github.com/VUT-HFUT/Micro-Action. | 翻訳日:2024-07-09 20:17:13 公開日:2024-07-07 |
# 拡散モデルのパーソナライズ法の改良
An Improved Method for Personalizing Diffusion Models ( http://arxiv.org/abs/2407.05312v1 ) ライセンス: Link先を確認 | Yan Zeng, Masanori Suganuma, Takayuki Okatani, | (参考訳) 拡散モデルは印象的な画像生成能力を示している。
テキストインバージョンやドリームブートのようなパーソナライズされたアプローチは、特定の画像を用いたモデルのパーソナライゼーションを強化する。
これらの方法では、多様なテキストコンテキストに基づいて、特定のオブジェクトの画像を生成することができる。
提案手法は,新たな情報統合中にモデルの本来の知識を維持することを目的としている。
Diffusion models have demonstrated impressive image generation capabilities. Personalized approaches, such as textual inversion and Dreambooth, enhance model individualization using specific images. These methods enable generating images of specific objects based on diverse textual contexts. Our proposed approach aims to retain the model's original knowledge during new information integration, resulting in superior outcomes while necessitating less training time compared to Dreambooth and textual inversion. | 翻訳日:2024-07-09 20:17:13 公開日:2024-07-07 |
# ウェアラブルセンサデータのトポロジカルパーシスタンスガイドによる知識蒸留
Topological Persistence Guided Knowledge Distillation for Wearable Sensor Data ( http://arxiv.org/abs/2407.05315v1 ) ライセンス: Link先を確認 | Eun Som Jeon, Hongjun Choi, Ankita Shukla, Yuan Wang, Hyunglae Lee, Matthew P. Buman, Pavan Turaga, | (参考訳) ディープラーニングの手法は、ウェアラブルセンサーデータを行動可能な健康情報に変換する様々なアプリケーションで多くの成功を収めてきた。
一般的な応用分野は、活動認識であり、深層学習法は、信号品質に対する感度、センサ特性の変化、被験者間の多様性といった制限に悩まされている。
これらの問題を緩和するために、トポロジカルデータ解析(TDA)によって得られるロバストな特徴が潜在的な解決策として提案されている。
しかし, 深層学習におけるトポロジ的特徴の活用には, 1) TDAを用いてトポロジ的特徴を抽出する大きな計算負荷, 2) 深層学習と融合を困難にするTDAから得られる異なる信号表現の2つの大きな障害がある。
本稿では,時系列データの深層学習におけるトポロジ的手法の強みを統合するために,生の時系列データに基づいてトレーニングした教師ネットワークと,TDA法により生成された永続性画像に基づいてトレーニングした教師ネットワークを提案する。
蒸留された学生モデルは、テスト時に生の時系列データのみを利用する。
このアプローチは両方の問題に対処します。
複数の教師によるKDの使用は相補的な情報を利用し、強力な監督機能とより統合されたリッチな表現を備えたコンパクトなモデルをもたらす。
異なるモダリティから望ましい情報を同化するために,特徴相関マップに課される直交性を含む新たな制約を設計し,特徴表現性を向上し,生徒が教師から容易に学べるようにした。
また,教師と学生の知識ギャップを減らしながら,KDにアニーリング戦略を適用した。
最後に、ロバストな学生モデルを蒸留し、トポロジ的特徴を暗黙的に保存しながら、時系列データのみを入力として使用する。
Deep learning methods have achieved a lot of success in various applications involving converting wearable sensor data to actionable health insights. A common application areas is activity recognition, where deep-learning methods still suffer from limitations such as sensitivity to signal quality, sensor characteristic variations, and variability between subjects. To mitigate these issues, robust features obtained by topological data analysis (TDA) have been suggested as a potential solution. However, there are two significant obstacles to using topological features in deep learning: (1) large computational load to extract topological features using TDA, and (2) different signal representations obtained from deep learning and TDA which makes fusion difficult. In this paper, to enable integration of the strengths of topological methods in deep-learning for time-series data, we propose to use two teacher networks, one trained on the raw time-series data, and another trained on persistence images generated by TDA methods. The distilled student model utilizes only the raw time-series data at test-time. This approach addresses both issues. The use of KD with multiple teachers utilizes complementary information, and results in a compact model with strong supervisory features and an integrated richer representation. To assimilate desirable information from different modalities, we design new constraints, including orthogonality imposed on feature correlation maps for improving feature expressiveness and allowing the student to easily learn from the teacher. Also, we apply an annealing strategy in KD for fast saturation and better accommodation from different features, while the knowledge gap between the teachers and student is reduced. Finally, a robust student model is distilled, which uses only the time-series data as an input, while implicitly preserving topological features. | 翻訳日:2024-07-09 20:17:13 公開日:2024-07-07 |
# 知識蒸留改善のためのトポロジカルガイダンスの活用
Leveraging Topological Guidance for Improved Knowledge Distillation ( http://arxiv.org/abs/2407.05316v1 ) ライセンス: Link先を確認 | Eun Som Jeon, Rahul Khurana, Aishani Pathak, Pavan Turaga, | (参考訳) ディープラーニングは、様々なコンピュータビジョンタスクを解くのに有用な特徴を抽出する効果を示した。
しかし,データ構造が複雑でノイズの多い場合,性能向上のために有効な情報を取得することは極めて困難である。
この目的のために、トポロジカルデータ解析(TDA)は、摂動に対する性能と堅牢性の向上に寄与する有用な表現を導出するために利用されてきた。
その有効性にもかかわらず、TDAによるトポロジ的特徴抽出における大きな計算資源の要求とかなりの時間消費は、小型デバイス上で実装する際の重要な問題である。
本稿では, 画像分類作業における知識蒸留(KD)におけるトポロジ的特徴を利用したトポロジカルガイダンスベースの知識蒸留(TGD)フレームワークを提案する。
我々はKDを利用して優れた軽量モデルを訓練し、同時に複数の教師にトポロジ的特徴を提供する。
本稿では,教師と生徒の知識ギャップを減らし,教師の能力向上を支援するメカニズムを提案する。
多様な経験的評価を通じて,本手法の有効性を実証する。
Deep learning has shown its efficacy in extracting useful features to solve various computer vision tasks. However, when the structure of the data is complex and noisy, capturing effective information to improve performance is very difficult. To this end, topological data analysis (TDA) has been utilized to derive useful representations that can contribute to improving performance and robustness against perturbations. Despite its effectiveness, the requirements for large computational resources and significant time consumption in extracting topological features through TDA are critical problems when implementing it on small devices. To address this issue, we propose a framework called Topological Guidance-based Knowledge Distillation (TGD), which uses topological features in knowledge distillation (KD) for image classification tasks. We utilize KD to train a superior lightweight model and provide topological features with multiple teachers simultaneously. We introduce a mechanism for integrating features from different teachers and reducing the knowledge gap between teachers and the student, which aids in improving performance. We demonstrate the effectiveness of our approach through diverse empirical evaluations. | 翻訳日:2024-07-09 20:17:13 公開日:2024-07-07 |
# Vulnerability-Hunter:スマートコントラクト脆弱性に対する適応型機能認識アテンションネットワーク
Vulnerability-Hunter: An Adaptive Feature Perception Attention Network for Smart Contract Vulnerabilities ( http://arxiv.org/abs/2407.05318v1 ) ライセンス: Link先を確認 | Yizhou Chen, | (参考訳) ブロックチェーンベースのシステムの品質を保証するためには、スマートコントラクト脆弱性検出(SCVD)が不可欠だ。
グラフニューラルネットワークは、スマートコントラクトコードのセマンティック表現の学習に有効であることが示されており、既存のディープラーニングベースのSCVDで一般的に採用されている。
しかし、現在の手法では、スマートコントラクトコードの構造グラフから重要なコンポーネントを抽出するための事前定義されたルールに基づいて、グラフサンプリングやサブグラフプーリングの利用に制限がある。
これらの事前定義されたルールベースの戦略は、通常静的ルールやヒューリスティックを使って設計され、スマートコントラクトコードの異種トポロジにおけるグラフの構造と内容に応じて抽出戦略を動的に調整するための限定的な適応性を示す。
その結果、これらの戦略はすべてのスマートコントラクトに普遍的な適用性を持たず、偽陽性や省略につながる可能性がある。
これらの問題を解決するために,スマートコントラクト全体の包括的スキャンと重要なコードスニペットの自動抽出(最大重み付き$P$スニペット)のための動的重み付き特徴認識モジュールを備えた,新たな脆弱性検出モデルであるAFPNetを提案する。
その後、リレーション認識アテンションモジュールは、これらのコードスニペット間の依存関係を学習し、スマートコントラクトの脆弱性を検出するためのアテンションメカニズムを使用する。
AFPNetの取り組みにより、決定的なコードスニペットの取得とSCVD最適化の性能向上が一貫して実現された。
脆弱性ラベル付き大規模データセットにおけるAFPNetの評価を行う。
実験の結果,AFPNetはF1スコアの6.38\%-14.02\%で最先端のアプローチを著しく上回っていることがわかった。
その結果,AFPNetが有用情報を動的に抽出し,脆弱性検出に有効であることが示唆された。
Smart Contract Vulnerability Detection (SCVD) is crucial to guarantee the quality of blockchain-based systems. Graph neural networks have been shown to be effective in learning semantic representations of smart contract code and are commonly adopted by existing deep learning-based SCVD. However, the current methods still have limitations in their utilization of graph sampling or subgraph pooling based on predefined rules for extracting crucial components from structure graphs of smart contract code. These predefined rule-based strategies, typically designed using static rules or heuristics, demonstrate limited adaptability to dynamically adjust extraction strategies according to the structure and content of the graph in heterogeneous topologies of smart contract code. Consequently, these strategies may not possess universal applicability to all smart contracts, potentially leading to false positives or omissions. To address these problems, we propose AFPNet, a novel vulnerability detection model equipped with a feature perception module that has dynamic weights for comprehensive scanning of the entire smart contract code and automatic extraction of crucial code snippets (the $P$ snippets with the largest weights). Subsequently, the relationship perception attention module employs an attention mechanism to learn dependencies among these code snippets and detect smart contract vulnerabilities. The efforts made by AFPNet consistently enable the capture of crucial code snippets and enhance the performance of SCVD optimization. We conduct an evaluation of AFPNet in the several large-scale datasets with vulnerability labels. The experimental results show that our AFPNet significantly outperforms the state-of-the-art approach by 6.38\%-14.02\% in term of F1-score. The results demonstrate the effectiveness of AFPNet in dynamically extracting valuable information and vulnerability detection. | 翻訳日:2024-07-09 20:17:13 公開日:2024-07-07 |
# ニューラルネットワーク翻訳のためのターゲットの敵攻撃の再考
Rethinking Targeted Adversarial Attacks For Neural Machine Translation ( http://arxiv.org/abs/2407.05319v1 ) ライセンス: Link先を確認 | Junjie Wu, Lemao Liu, Wei Bi, Dit-Yan Yeung, | (参考訳) ニューラルネットワーク翻訳システムの堅牢性を評価するために、標的となる敵攻撃が広く用いられている。
残念なことに,本論文では,NMTを標的とした敵攻撃の既存の設定において,攻撃結果の過大評価を行う上で重要な課題を最初に挙げる。
そこで本研究では,NMTを標的とした敵攻撃に対して,信頼性の高い攻撃結果をもたらす可能性のある新たな設定を提案する。
新しい設定では、敵の例を作成するためのTWGA(Targeted Word Gradient Adversarial Attack)手法を提案する。
実験により,提案手法はNMTシステムに対する敵攻撃に対して忠実な攻撃効果が得られ,TWGA法はこれらのNMTシステムに対して効果的に攻撃できることが示された。
大規模データセットの詳細な分析により、さらに重要な発見が示されている。
コードとデータはhttps://github.com/wujunjie1998/TWGA.orgで公開されています。
Targeted adversarial attacks are widely used to evaluate the robustness of neural machine translation systems. Unfortunately, this paper first identifies a critical issue in the existing settings of NMT targeted adversarial attacks, where their attacking results are largely overestimated. To this end, this paper presents a new setting for NMT targeted adversarial attacks that could lead to reliable attacking results. Under the new setting, it then proposes a Targeted Word Gradient adversarial Attack (TWGA) method to craft adversarial examples. Experimental results demonstrate that our proposed setting could provide faithful attacking results for targeted adversarial attacks on NMT systems, and the proposed TWGA method can effectively attack such victim NMT systems. In-depth analyses on a large-scale dataset further illustrate some valuable findings. 1 Our code and data are available at https://github.com/wujunjie1998/TWGA. | 翻訳日:2024-07-09 20:17:13 公開日:2024-07-07 |
# KAE:知識グラフアライメントと拡張のためのプロパティベースの手法
KAE: A Property-based Method for Knowledge Graph Alignment and Extension ( http://arxiv.org/abs/2407.05320v1 ) ライセンス: Link先を確認 | Daqian Shi, Xiaoyue Li, Fausto Giunchiglia, | (参考訳) 意味的不均一性問題に対する一般的な解決策は、1つ以上の候補KGに符号化された情報を活用した知識グラフ(KG)拡張を行うことである。
しかし、既存のKGアライメント手法は、主にエンティティタイプ(etype)ラベルマッチングを前提条件としており、実際はパフォーマンスが悪く、場合によっては適用できない。
本稿では、KG拡張のための機械学習ベースのフレームワークを設計し、それを定義するために使用するプロパティに基づいて、etypeをアライメントできる新しいプロパティベースのアライメントアプローチを含む。
主な直観は、etype を意図的に定義する性質であり、この定義は、etype を名付けるために使われる特定のラベルと、KGs の特定の階層スキーマとは独立である。
実験結果は,最先端技術と比較して,KGアライメントアプローチの有効性と提案したKG拡張フレームワークの優位性を示す。
A common solution to the semantic heterogeneity problem is to perform knowledge graph (KG) extension exploiting the information encoded in one or more candidate KGs, where the alignment between the reference KG and candidate KGs is considered the critical procedure. However, existing KG alignment methods mainly rely on entity type (etype) label matching as a prerequisite, which is poorly performing in practice or not applicable in some cases. In this paper, we design a machine learning-based framework for KG extension, including an alternative novel property-based alignment approach that allows aligning etypes on the basis of the properties used to define them. The main intuition is that it is properties that intentionally define the etype, and this definition is independent of the specific label used to name an etype, and of the specific hierarchical schema of KGs. Compared with the state-of-the-art, the experimental results show the validity of the KG alignment approach and the superiority of the proposed KG extension framework, both quantitatively and qualitatively. | 翻訳日:2024-07-09 20:17:13 公開日:2024-07-07 |
# テキスト誘導拡散モデルによるラベル効率の良い医用画像分割の実現
Enhancing Label-efficient Medical Image Segmentation with Text-guided Diffusion Models ( http://arxiv.org/abs/2407.05323v1 ) ライセンス: Link先を確認 | Chun-Mei Feng, | (参考訳) 医用画像生成における最先端のパフォーマンスを提供する以外に、拡散確率モデル(DPM)は意味情報をキャプチャする表現学習者としても機能し、例えばセグメンテーションなどの下流タスクのイメージ表現として使用される可能性がある。
しかし、これらの潜在意味表現は、労働集約的なピクセルレベルのアノテーションを監督に大きく依存しており、医用画像のセグメント化におけるDPMの使用性を制限している。
この制限に対処するために、安価な医療用テキストアノテーションによる意味表現を改善し、拡散モデルに対する意味表現と言語対応を明確に確立するTextDiffと呼ばれる拡張拡散分割モデルを提案する。
具体的には,大規模な自然画像上での事前学習拡散モデルにおいて,逆拡散過程のマルコフステップの中間活性化を抽出し,相補的で容易に診断可能なテキスト情報と組み合わせることで,さらなる専門知識を学習する。
TextDiffはデュアルブランチのマルチモーダル構造を凍結し、クロスアテンション機構とピクセル分類器のみをトレーニングすることで、拡散モデルにおけるセマンティックな特徴の潜在的アライメントを診断記述とともにマイニングし、安価なテキストでセマンティック表現を強化する。
公開QaTa-COVID19データセットとMoNuSegデータセットの大規模な実験により、TextDiffは、いくつかのトレーニングサンプルしか持たない最先端のマルチモーダルセグメンテーション手法よりもはるかに優れていることが示された。
Aside from offering state-of-the-art performance in medical image generation, denoising diffusion probabilistic models (DPM) can also serve as a representation learner to capture semantic information and potentially be used as an image representation for downstream tasks, e.g., segmentation. However, these latent semantic representations rely heavily on labor-intensive pixel-level annotations as supervision, limiting the usability of DPM in medical image segmentation. To address this limitation, we propose an enhanced diffusion segmentation model, called TextDiff, that improves semantic representation through inexpensive medical text annotations, thereby explicitly establishing semantic representation and language correspondence for diffusion models. Concretely, TextDiff extracts intermediate activations of the Markov step of the reverse diffusion process in a pretrained diffusion model on large-scale natural images and learns additional expert knowledge by combining them with complementary and readily available diagnostic text information. TextDiff freezes the dual-branch multi-modal structure and mines the latent alignment of semantic features in diffusion models with diagnostic descriptions by only training the cross-attention mechanism and pixel classifier, making it possible to enhance semantic representation with inexpensive text. Extensive experiments on public QaTa-COVID19 and MoNuSeg datasets show that our TextDiff is significantly superior to the state-of-the-art multi-modal segmentation methods with only a few training samples. | 翻訳日:2024-07-09 20:17:13 公開日:2024-07-07 |
# PICA:物理学を駆使した布のアバター
PICA: Physics-Integrated Clothed Avatar ( http://arxiv.org/abs/2407.05324v1 ) ライセンス: Link先を確認 | Bo Peng, Yunfan Tao, Haoyu Zhan, Yudong Guo, Juyong Zhang, | (参考訳) PICAは, 物理学的精度のよい, 高忠実でアニマタブルな人間のアバターを, ゆるやかな衣服でも表現できる新しい表現法である。
以前のニューラルネットワークに基づく、アニマタブルな服を着た人間の表現は、通常、服と下層の身体の両方を表現するために単一のモデルを用いている。
効率的ではあるが、これらのアプローチは複雑な衣服のダイナミクスを正確に表現するのに失敗し、特にスライディングやゆったりとした衣服において、誤った変形と顕著なレンダリングアーティファクトをもたらす。
さらに、以前の作品では、衣服のダイナミクスをポーズ依存の変形として表現し、データ駆動型で新しいポーズアニメーションを促進する。
これはしばしば、運動の力学を忠実に表現せず、分布外ポーズで人工物を生成する傾向がある結果をもたらす。
これらの問題に対処するために、変形特性が異なる2つの個別3次元ガウススプラッティング(3DGS)モデルを採用し、人体と衣服を別々にモデル化する。
この区別により、それぞれの運動特性をよりよく扱うことができる。
この表現により、我々は、衣服力学の正確な表現を保証するために、グラフニューラルネットワーク(GNN)ベースの布体物理シミュレーションモジュールを統合する。
提案手法は, 慎重に設計した特徴により, 複雑で斬新な運転ポーズにおいて, 被服体の高忠実なレンダリングを実現し, 従来手法よりも大幅に優れていた。
We introduce PICA, a novel representation for high-fidelity animatable clothed human avatars with physics-accurate dynamics, even for loose clothing. Previous neural rendering-based representations of animatable clothed humans typically employ a single model to represent both the clothing and the underlying body. While efficient, these approaches often fail to accurately represent complex garment dynamics, leading to incorrect deformations and noticeable rendering artifacts, especially for sliding or loose garments. Furthermore, previous works represent garment dynamics as pose-dependent deformations and facilitate novel pose animations in a data-driven manner. This often results in outcomes that do not faithfully represent the mechanics of motion and are prone to generating artifacts in out-of-distribution poses. To address these issues, we adopt two individual 3D Gaussian Splatting (3DGS) models with different deformation characteristics, modeling the human body and clothing separately. This distinction allows for better handling of their respective motion characteristics. With this representation, we integrate a graph neural network (GNN)-based clothed body physics simulation module to ensure an accurate representation of clothing dynamics. Our method, through its carefully designed features, achieves high-fidelity rendering of clothed human bodies in complex and novel driving poses, significantly outperforming previous methods under the same settings. | 翻訳日:2024-07-09 20:17:13 公開日:2024-07-07 |
# 複数質問項目の難易度を指標としたモデル不確かさ機能の実現
Can Model Uncertainty Function as a Proxy for Multiple-Choice Question Item Difficulty? ( http://arxiv.org/abs/2407.05327v1 ) ライセンス: Link先を確認 | Leonidas Zotos, Hedderik van Rijn, Malvina Nissim, | (参考訳) 多重選択質問の難しさを見積もることは、テストのためにかなりの時間をかけて刺激を作り、操縦しなければならない教育者や、練習したい学習者にとって大きな助けとなるでしょう。
難易度推定への改善されたアプローチは、これまでに混在した結果となった。
このコントリビューションでは、質問、すなわち不確実性に答える際、弱点と見なされるような生成的大規模モデルの側面を活用し、不確実性に関する2つの異なる指標と実際の学生の反応分布の間の相関関係を探索するためにそれを利用する。
現在,いくつかの相関関係が弱いが,正解と誤解の場合にモデルの挙動が異なることや,その相関関係が,生物心理学のコースから得られた451の質問の詳細なデータセットに含まれる様々な質問タイプによって大きく異なることが判明した。
また,本研究の課題として,モデル不確実性をさらに活用する可能性が示唆された。
Estimating the difficulty of multiple-choice questions would be great help for educators who must spend substantial time creating and piloting stimuli for their tests, and for learners who want to practice. Supervised approaches to difficulty estimation have yielded to date mixed results. In this contribution we leverage an aspect of generative large models which might be seen as a weakness when answering questions, namely their uncertainty, and exploit it towards exploring correlations between two different metrics of uncertainty, and the actual student response distribution. While we observe some present but weak correlations, we also discover that the models' behaviour is different in the case of correct vs wrong answers, and that correlations differ substantially according to the different question types which are included in our fine-grained, previously unused dataset of 451 questions from a Biopsychology course. In discussing our findings, we also suggest potential avenues to further leverage model uncertainty as an additional proxy for item difficulty. | 翻訳日:2024-07-09 20:07:19 公開日:2024-07-07 |
# 因果効果同定のための高速プロキシ実験設計
Fast Proxy Experiment Design for Causal Effect Identification ( http://arxiv.org/abs/2407.05330v1 ) ライセンス: Link先を確認 | Sepehr Elahi, Sina Akbari, Jalal Etesami, Negar Kiyavash, Patrick Thiran, | (参考訳) 因果効果の同定は多くの分野において重要な問題である。
因果効果を推定する2つの長年のアプローチは、観察的および実験的(ランダム化)な研究である。
観測的研究は、原因を特定できない原因となる未測定の共起に苦しむことがある。
一方、対象変数の直接実験はコストがかかりすぎるか、実行不可能である可能性がある。
この2つのアプローチの中間点は、主ターゲットよりも低いコストで介入する変数に対して行われるプロキシ実験を通じて、興味の因果効果を推定することである。
Akbari et al [2022] は、この設定を研究し、因果効果の同定に最適な(最小コスト)実験を設計する問題はNP完全であり、最悪の場合において、指数関数的に多くのNPハード問題をサブルーチンとして解くことを必要とするナイーブなアルゴリズムを提供した。
本研究では, より効率的なアルゴリズムを設計し, 広範囲なシミュレーションで確認したように, この問題のいくつかを再検討する。
さらに、有効な調整セットによって与えられた効果を識別できる設計実験の密接な関連性について検討する。
Identifying causal effects is a key problem of interest across many disciplines. The two long-standing approaches to estimate causal effects are observational and experimental (randomized) studies. Observational studies can suffer from unmeasured confounding, which may render the causal effects unidentifiable. On the other hand, direct experiments on the target variable may be too costly or even infeasible to conduct. A middle ground between these two approaches is to estimate the causal effect of interest through proxy experiments, which are conducted on variables with a lower cost to intervene on compared to the main target. Akbari et al. [2022] studied this setting and demonstrated that the problem of designing the optimal (minimum-cost) experiment for causal effect identification is NP-complete and provided a naive algorithm that may require solving exponentially many NP-hard problems as a sub-routine in the worst case. In this work, we provide a few reformulations of the problem that allow for designing significantly more efficient algorithms to solve it as witnessed by our extensive simulations. Additionally, we study the closely-related problem of designing experiments that enable us to identify a given effect through valid adjustments sets. | 翻訳日:2024-07-09 20:07:19 公開日:2024-07-07 |
# 高次元量子領域への直接非エルミート測定と不確実性関係の実験的研究
Experimental investigation of direct non-Hermitian measurement and uncertainty relation towards high-dimensional quantum domain ( http://arxiv.org/abs/2407.05332v1 ) ライセンス: Link先を確認 | Yi-Tao Wang, Zhao-An Wang, Zhi-Peng Li, Xiao-Dong Zeng, Jia-Ming Ren, Wei Liu, Yuan-Ze Yang, Nai-Jie Guo, Lin-Ke Xie, Jun-You Liu, Yu-Hang Ma, Jian-Shun Tang, Chengjie Zhang, Chuan-Feng Li, Guang-Can Guo, | (参考訳) 量子系における非エルミート力学は、新しい現象を明らかにしているが、完全だが歪んだ非エルミート固有状態上の普遍的な量子射影機構は実験において明示的ではないため、有効な非エルミート量子測定の実装は依然として困難である。
この制限は、非エルミート可観測統計(例えば、非エルミート人口動態)の直接取得を妨げるとともに、不確実性関係のような非エルミート量子測定特性の調査も妨げている。
ここでは、非エルミート射影プロトコルを提示し、非エルミート不確実性関係を調査することによって、これらの課題に対処する。
我々は、擬エルミート観測値(PH)がエルミート観測値を超えて一般化される不確実性関係を導出する。
次に、一般量子状態の完全非エルミート固有ベクトルへの射影性を調べ、直和拡大空間上で有効な非エルミート射影測定を適用するための量子シミュレーション法を提案する。
その後、量子光学回路において量子シミュレータを実験的に構築し、単一光子量子トリット上の3次元非エルミタン量子測定を実現する。
このプラットフォームを用いて、異なるPH測定値を用いて不確実性関係を実験的に検討する。
我々の非エルミート量子測定法は状態独立であり、非エルミート量子射影統計を直接出力する。
Non-Hermitian dynamics in quantum systems have unveiled novel phenomena, yet the implementation of valid non-Hermitian quantum measurement remains a challenge, because a universal quantum projective mechanism on the complete but skewed non-Hermitian eigenstates is not explicit in experiment. This limitation hinders the direct acquisition of non-Hermitian observable statistics (e.g., non-Hermitian population dynamics), also constrains investigations of non-Hermitian quantum measurement properties such as uncertainty relation. Here, we address these challenges by presenting a non-Hermitian projective protocol and investigating the non-Hermitian uncertainty relation. We derive the uncertainty relation for pseudo-Hermitian (PH) observables that is generalized beyond the Hermitian ones. We then investigate the projective properties of general quantum states onto complete non-Hermitian eigenvectors, and present a quantum simulating method to apply the valid non-Hermitian projective measurement on a direct-sum dilated space. Subsequently, we experimentally construct a quantum simulator in the quantum optical circuit and realize the 3-dimensional non-Hermitian quantum measurement on the single-photon qutrit. Employing this platform, we explore the uncertainty relation experimentally with different PH metrics. Our non-Hermitian quantum measurement method is state-independent and outputs directly the non-Hermitian quantum projective statistics, paving the way for studies of extensive non-Hermitian observable in quantum domain. | 翻訳日:2024-07-09 20:07:19 公開日:2024-07-07 |
# 空間確率とGANを用いた放射状結晶構造を持つマルチスケールNMC粒子の生成
Generating multi-scale NMC particles with radial grain architectures using spatial stochastics and GANs ( http://arxiv.org/abs/2407.05333v1 ) ライセンス: Link先を確認 | Lukas Fuchs, Orkun Furat, Donal P. Finegan, Jeffery Allen, Francois L. E. Usseglio-Viretta, Bertan Ozdogru, Peter J. Weddle, Kandler Smith, Volker Schmidt, | (参考訳) リチウムイオン電池陰極の構造・物性関係を理解することは、速度性能とサイクル寿命のレジリエンスの最適化に不可欠である。
しかし, NMC811 などの陰極粒子の形態と電極性能との相関は, 特に粒径と粒径の顕著な違いから困難である。
実験では、このような多数の粒子を完全な粒度で画像化して表現性を達成することは、現在不可能である。
第二の課題は、十分な高解像度の3Dイメージング技術が高価であり、研究機関ではほとんど利用できないことである。
これらの課題に対処するために,2次元データから代表的3次元情報を生成し,コスト効率のよい2次元データを用いて3次元の材料をキャラクタリゼーションする立体生成対向ネットワーク(GAN)に基づくモデルフィッティング手法を提案する。
このマルチスケールモデルでは,実験データと統計的に類似した仮想陰極粒子を高速に生成できるため,数値シミュレーションによる仮想キャラクタリゼーションや材料試験に適している。
内部の粒状構造を持つシミュレーション粒子の大規模なデータセットが公開されている。
Understanding structure-property relationships of Li-ion battery cathodes is crucial for optimizing rate-performance and cycle-life resilience. However, correlating the morphology of cathode particles, such as in NMC811, and their inner grain architecture with electrode performance is challenging, particularly, due to the significant length-scale difference between grain and particle sizes. Experimentally, it is currently not feasible to image such a high number of particles with full granular detail to achieve representivity. A second challenge is that sufficiently high-resolution 3D imaging techniques remain expensive and are sparsely available at research institutions. To address these challenges, a stereological generative adversarial network (GAN)-based model fitting approach is presented that can generate representative 3D information from 2D data, enabling characterization of materials in 3D using cost-effective 2D data. Once calibrated, this multi-scale model is able to rapidly generate virtual cathode particles that are statistically similar to experimental data, and thus is suitable for virtual characterization and materials testing through numerical simulations. A large dataset of simulated particles with inner grain architecture has been made publicly available. | 翻訳日:2024-07-09 20:07:19 公開日:2024-07-07 |
# 人工知能、合理化、および公共部門における統制の限界--税政策最適化の場合
Artificial intelligence, rationalization, and the limits of control in the public sector: the case of tax policy optimization ( http://arxiv.org/abs/2407.05336v1 ) ライセンス: Link先を確認 | Jakob Mokander, Ralph Schroeder, | (参考訳) 公共部門における人工知能(AI)の使用は、長期的合理化と官僚化プロセスの継続と強化として最もよく理解されている。
Weberを参考に、これらのプロセスの中核は、道具的合理性、すなわち、任意の政策目標を達成するための最も計算可能で効率的な方法の置き換えであると考えている。
本稿では、Weberian合理化の核心にあるよく知られた緊張から生まれたAIシステムに向けて、世論と学問の両方において、批判の大部分がどれほどのものであるかを実証する。
この点を説明するために、我々は、税政策を最適化して特定の規範の終了を推し進め、経済的不平等を減らすためにAIシステムが使用される思考実験を紹介した。
分析の結果,社会的・経済的平等を促進する機械的税制の構築が可能であることが示唆された。
しかし、AIによるポリシーの最適化も強調している。
(i)他の競合する政治価値観を除外する。
(二)市民が互いに不合理な義務を負うことを過小評価し、
(三)自己決定的存在としての人間観を損なうもの。
現代の奨学金と擁護は、AIシステムが法的、倫理的、安全な構築であることを保証し、理性化の過程を支える中心的な仮定を強化することを目的としている。
それは過度に楽観的だ。
科学は手段しか提供できないし、目的を定めない。
それでも、公共部門におけるAIの使用は、リベラルな民主主義者の制度やプロセスにも恩恵をもたらす。
最も重要なことは、AI駆動のポリシー最適化は、規範的な終わりが明確で形式化され、公開の精査と議論の対象になるように要求する。
The use of artificial intelligence (AI) in the public sector is best understood as a continuation and intensification of long standing rationalization and bureaucratization processes. Drawing on Weber, we take the core of these processes to be the replacement of traditions with instrumental rationality, i.e., the most calculable and efficient way of achieving any given policy objective. In this article, we demonstrate how much of the criticisms, both among the public and in scholarship, directed towards AI systems spring from well known tensions at the heart of Weberian rationalization. To illustrate this point, we introduce a thought experiment whereby AI systems are used to optimize tax policy to advance a specific normative end, reducing economic inequality. Our analysis shows that building a machine-like tax system that promotes social and economic equality is possible. However, it also highlights that AI driven policy optimization (i) comes at the exclusion of other competing political values, (ii) overrides citizens sense of their noninstrumental obligations to each other, and (iii) undermines the notion of humans as self-determining beings. Contemporary scholarship and advocacy directed towards ensuring that AI systems are legal, ethical, and safe build on and reinforce central assumptions that underpin the process of rationalization, including the modern idea that science can sweep away oppressive systems and replace them with a rule of reason that would rescue humans from moral injustices. That is overly optimistic. Science can only provide the means, they cannot dictate the ends. Nonetheless, the use of AI in the public sector can also benefit the institutions and processes of liberal democracies. Most importantly, AI driven policy optimization demands that normative ends are made explicit and formalized, thereby subjecting them to public scrutiny and debate. | 翻訳日:2024-07-09 20:07:19 公開日:2024-07-07 |
# 生成AIを監査するための青写真
A Blueprint for Auditing Generative AI ( http://arxiv.org/abs/2407.05338v1 ) ライセンス: Link先を確認 | Jakob Mokander, Justin Curl, Mihir Kshirsagar, | (参考訳) 生成的AIシステムの普及は、重大な倫理的、社会的課題と結びついている。
その結果、政策立案者、学術研究者、社会擁護団体はすべて、こうした制度の監査を要求している。
しかし、既存の監査手順は、創発的な能力を示し、幅広い下流タスクに適応する、生成的AIシステムによって引き起こされるガバナンス上の課題に対処できない。
本章では,このようなシステムの監査方法に関する新たな青写真について概説し,そのギャップに対処する。
具体的には、ガバナンス監査(生成AIシステムの設計と普及を行う技術提供者)、モデル監査(事前トレーニング後の生成AIシステム)、アプリケーション監査(生成AIシステムに基づくアプリケーション)が相互に補完し、通知する3層的なアプローチを提案する。
これら3つのレベルに対する監査は、構造化され協調された方法で実施される場合、生成的AIシステムによって引き起こされる倫理的・社会的リスクの特定と管理において、実現可能かつ効果的なメカニズムであることを示す。
とは言っても、監査が合理的に達成できることについては、現実的に続けることが重要です。
この理由から、この章では、我々の3層アプローチだけでなく、生成AIシステムの監査の可能性についても論じている。
この章は最終的に、技術提供者や政策立案者に利用可能な方法論的ツールキットを拡張し、技術的、倫理的、法的観点から生成AIシステムを分析し評価することを目指している。
The widespread use of generative AI systems is coupled with significant ethical and social challenges. As a result, policymakers, academic researchers, and social advocacy groups have all called for such systems to be audited. However, existing auditing procedures fail to address the governance challenges posed by generative AI systems, which display emergent capabilities and are adaptable to a wide range of downstream tasks. In this chapter, we address that gap by outlining a novel blueprint for how to audit such systems. Specifically, we propose a three-layered approach, whereby governance audits (of technology providers that design and disseminate generative AI systems), model audits (of generative AI systems after pre-training but prior to their release), and application audits (of applications based on top of generative AI systems) complement and inform each other. We show how audits on these three levels, when conducted in a structured and coordinated manner, can be a feasible and effective mechanism for identifying and managing some of the ethical and social risks posed by generative AI systems. That said, it is important to remain realistic about what auditing can reasonably be expected to achieve. For this reason, the chapter also discusses the limitations not only of our three-layered approach but also of the prospect of auditing generative AI systems at all. Ultimately, this chapter seeks to expand the methodological toolkit available to technology providers and policymakers who wish to analyse and evaluate generative AI systems from technical, ethical, and legal perspectives. | 翻訳日:2024-07-09 20:07:19 公開日:2024-07-07 |
# 企業AIガバナンスの課題とベストプラクティス:バイオ医薬品産業からの教訓
Challenges and Best Practices in Corporate AI Governance:Lessons from the Biopharmaceutical Industry ( http://arxiv.org/abs/2407.05339v1 ) ライセンス: Link先を確認 | Jakob Mökander, Margi Sheth, Mimmi Gersbro-Sundler, Peder Blomgren, Luciano Floridi, | (参考訳) 人工知能(AI)システムの利用は、経済的、社会的に大きな利益をもたらすことを約束する一方で、倫理的、法的、技術的課題とも結びついている。
ビジネスリーダは、関連するリスクを管理しながら、自動化のメリットを最大限に享受する方法という問題に直面します。
最初のステップとして、多くの企業は、AIシステムの設計と利用を導くことを目的とした様々な倫理原則に身を捧げてきた。
ここまでうまくいった。
しかし、十分に意図された倫理原則を効果的に実践するにはどうすればよいのか?
AIガバナンスを運用しようとする企業が、どのような課題を待ち受けているのか?
本稿では,バイオ医薬品企業であるAstraZenecaにおける,AIガバナンスの展開と展開に関する私たちの経験を生かして,これらの疑問に対処する。
この記事では、AIガバナンスを運用しようとする組織が直面する課題について紹介する。
これらの質問には、AIガバナンスの物質的スコープの定義方法、分散化された組織間で標準を調和させる方法、特定のAIガバナンスイニシアチブの影響を測定する方法などが含まれている。
AstraZenecaがこれらの運用上の問題をどのように管理したかを示すことで、プロジェクトマネージャ、CIO、AI実践者、データプライバシ担当者に、汎用的なベストプラクティスでAIガバナンスフレームワークを設計および実装する責任を負わせたいと考えています。
基本的に、AIガバナンスの運用を目指す企業は、既存のポリシとガバナンス構造の構築、実践的かつアクション指向の用語の使用、開発と調達におけるリスク管理の重視、継続的な教育と変革管理を通じて従業員に権限を与えるように奨励されている。
While the use of artificial intelligence (AI) systems promises to bring significant economic and social benefits, it is also coupled with ethical, legal, and technical challenges. Business leaders thus face the question of how to best reap the benefits of automation whilst managing the associated risks. As a first step, many companies have committed themselves to various sets of ethics principles aimed at guiding the design and use of AI systems. So far so good. But how can well-intentioned ethical principles be translated into effective practice? And what challenges await companies that attempt to operationalize AI governance? In this article, we address these questions by drawing on our first-hand experience of shaping and driving the roll-out of AI governance within AstraZeneca, a biopharmaceutical company. The examples we discuss highlight challenges that any organization attempting to operationalize AI governance will have to face. These include questions concerning how to define the material scope of AI governance, how to harmonize standards across decentralized organizations, and how to measure the impact of specific AI governance initiatives. By showcasing how AstraZeneca managed these operational questions, we hope to provide project managers, CIOs, AI practitioners, and data privacy officers responsible for designing and implementing AI governance frameworks within other organizations with generalizable best practices. In essence, companies seeking to operationalize AI governance are encouraged to build on existing policies and governance structures, use pragmatic and action-oriented terminology, focus on risk management in development and procurement, and empower employees through continuous education and change management. | 翻訳日:2024-07-09 20:07:19 公開日:2024-07-07 |
# ResNet18の残留ストリームの解釈
Interpreting the Residual Stream of ResNet18 ( http://arxiv.org/abs/2407.05340v1 ) ライセンス: Link先を確認 | André Longon, | (参考訳) ディープニューラルネットワーク(DNN)によって学習された計算の機械的理解は、完全には程遠い。
視覚的物体認識の分野では、先行研究はInceptionV1の内部構造を照らしているが、異なるアーキテクチャを持つDNNはほとんど探索されていない。
本稿では、InceptionV1に欠けているアーキテクチャメカニズムである残留ストリームに特に焦点をあてて、ResNet18を調査する。
入力特徴が出力にスキップするか、ブロック特徴が出力を上書きするか、あるいは出力が入力特徴とブロック特徴の混在である。
さらに,入力の小型特徴とブロックの大規模特徴とを混合することにより,多数の残差ストリームチャネルがスケール不変表現を計算していることを示す。
これはスケール同値の普遍性を示す証拠をマウントするだけでなく、残留ストリームがスケール不変性をさらに実装することを示す。
本稿では,視覚オブジェクト認識における残差ストリームの解釈から,フレキシブルな特徴マネージャと大規模不変表現を構築する媒体であることが確認された。
A mechanistic understanding of the computations learned by deep neural networks (DNNs) is far from complete. In the domain of visual object recognition, prior research has illuminated inner workings of InceptionV1, but DNNs with different architectures have remained largely unexplored. This work investigates ResNet18 with a particular focus on its residual stream, an architectural mechanism which InceptionV1 lacks. We observe that for a given block, channel features of the stream are updated along a spectrum: either the input feature skips to the output, the block feature overwrites the output, or the output is some mixture between the input and block features. Furthermore, we show that many residual stream channels compute scale invariant representations through a mixture of the input's smaller-scale feature with the block's larger-scale feature. This not only mounts evidence for the universality of scale equivariance, but also presents how the residual stream further implements scale invariance. Collectively, our results begin an interpretation of the residual stream in visual object recognition, finding it to be a flexible feature manager and a medium to build scale invariant representations. | 翻訳日:2024-07-09 20:07:19 公開日:2024-07-07 |
# Switch, the Ladder, and the Matrix: AIシステムの分類モデル
The Switch, the Ladder, and the Matrix: Models for Classifying AI Systems ( http://arxiv.org/abs/2407.05341v1 ) ライセンス: Link先を確認 | Jakob Mokander, Margi Sheth, David Watson, Luciano Floridi, | (参考訳) 人工知能(AI)システムを設計し、デプロイする組織は、ますますハイレベルで倫理的な原則にコミットしている。
しかし、AI倫理の原則と実践の間にはまだギャップがある。
AI倫理を運用しようとする組織が直面する大きな障害のひとつは、明確に定義された材料スコープの欠如である。
別の言い方をすれば、どのシステムやプロセスにAI倫理原則を適用するべきかという疑問は、まだ答えられていない。
もちろん、AIの普遍的な定義は存在せず、異なるシステムは異なる倫理的課題を提起する。
それにもかかわらず、現実的な問題解決の要求は、物事を分類して、グループ化が特定の目的のために成功する行動を促進するよう要求する。
本稿では、AIガバナンスを実践するために、AIシステムを分類する以前の試みをレビューし、比較する。
過去の文献で見つかったAIシステムを分類しようとする試みは、3つのメンタルモデルのうちの1つを用いていることがわかった。
スイッチ(英: Switch)とは、どのシステムがAIシステムであるか、またはその特性によっては考慮されない2進法である。
ラダー(Ladder)とは、リスクに基づくアプローチで、システムの倫理的リスクを分類する手法である。
マトリックス(Matrix)は、コンテキスト、データ入力、決定モデルなど、様々な側面を考慮に入れたシステムの多次元分類である。
AIシステムを分類するこれらのモデルには、それぞれ独自の長所と短所がある。
AIシステムをシンプルなメンタルモデルに分類する方法を概念化することによって、私たちは、AIガバナンスを実際に運用するために必要な概念的なツールで、AIシステムを設計、デプロイ、規制する組織を提供したいと思っています。
Organisations that design and deploy artificial intelligence (AI) systems increasingly commit themselves to high-level, ethical principles. However, there still exists a gap between principles and practices in AI ethics. One major obstacle organisations face when attempting to operationalise AI Ethics is the lack of a well-defined material scope. Put differently, the question to which systems and processes AI ethics principles ought to apply remains unanswered. Of course, there exists no universally accepted definition of AI, and different systems pose different ethical challenges. Nevertheless, pragmatic problem-solving demands that things should be sorted so that their grouping will promote successful actions for some specific end. In this article, we review and compare previous attempts to classify AI systems for the purpose of implementing AI governance in practice. We find that attempts to classify AI systems found in previous literature use one of three mental model. The Switch, i.e., a binary approach according to which systems either are or are not considered AI systems depending on their characteristics. The Ladder, i.e., a risk-based approach that classifies systems according to the ethical risks they pose. And the Matrix, i.e., a multi-dimensional classification of systems that take various aspects into account, such as context, data input, and decision-model. Each of these models for classifying AI systems comes with its own set of strengths and weaknesses. By conceptualising different ways of classifying AI systems into simple mental models, we hope to provide organisations that design, deploy, or regulate AI systems with the conceptual tools needed to operationalise AI governance in practice. | 翻訳日:2024-07-09 20:07:19 公開日:2024-07-07 |
# 干渉を意識する:視覚言語モデルのパラメータ学習における事前学習知識の保持
Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models ( http://arxiv.org/abs/2407.05342v1 ) ライセンス: Link先を確認 | Longxiang Tang, Zhuotao Tian, Kai Li, Chunming He, Hantao Zhou, Hengshuang Zhao, Xiu Li, Jiaya Jia, | (参考訳) 本研究は,ドメイン分布と対象クラスがタスク毎に異なる,現実的かつ困難な連続学習シナリオであるドメインクラス増分学習の問題に対処する。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
しかし、これは新しい問題を引き起こす: 事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に邪魔され、固有のゼロショット能力が損なわれる可能性がある。
既存の手法では、膨大な計算オーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
この問題を効果的に解決するために,情報干渉を避ける観点から,VLMの事前学習した知識を保ちながら,DIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
具体的には,新たに学習した知識を凍結したバックボーンに注入する機構を設計し,事前学習した知識に最小限の悪影響を及ぼす。
さらに, この残余特性により, 未確認分布からテストデータに対する情報注入過程を明示的に制御し, 分散対応統合校正方式が実現される。
実験では、トレーニングされたパラメータの0.86%しか使用せず、トレーニング時間を大幅に短縮する、現在の最先端アプローチを上回ることが示されている。
コードは、https://github.com/lloongx/DIKI で入手できる。
This study addresses the Domain-Class Incremental Learning problem, a realistic but challenging continual learning scenario where both the domain distribution and target classes vary across tasks. To handle these diverse tasks, pre-trained Vision-Language Models (VLMs) are introduced for their strong generalizability. However, this incurs a new problem: the knowledge encoded in the pre-trained VLMs may be disturbed when adapting to new tasks, compromising their inherent zero-shot ability. Existing methods tackle it by tuning VLMs with knowledge distillation on extra datasets, which demands heavy computation overhead. To address this problem efficiently, we propose the Distribution-aware Interference-free Knowledge Integration (DIKI) framework, retaining pre-trained knowledge of VLMs from a perspective of avoiding information interference. Specifically, we design a fully residual mechanism to infuse newly learned knowledge into a frozen backbone, while introducing minimal adverse impacts on pre-trained knowledge. Besides, this residual property enables our distribution-aware integration calibration scheme, explicitly controlling the information implantation process for test data from unseen distributions. Experiments demonstrate that our DIKI surpasses the current state-of-the-art approach using only 0.86% of the trained parameters and requiring substantially less training time. Code is available at: https://github.com/lloongx/DIKI . | 翻訳日:2024-07-09 20:07:19 公開日:2024-07-07 |
# 量子可観測物の単発ラベリング
Single-shot labeling of quantum observables ( http://arxiv.org/abs/2407.05351v1 ) ライセンス: Link先を確認 | Nidhin Sudarsanan Ragini, Mário Ziman, | (参考訳) 量子オブザーバブル(POVM)の特定の種類の識別可能性問題を特定・研究し、そこでは、置換効果を持つ可観測物が関与し、ラベリング問題(英語版)と呼ぶ。
その結果、完全に“ラベル付け”できるバイナリオブザーバブルを特定します。
本研究では,これらの問題を単一ショット方式で研究する。
We identify and study a particular class of distinguishability problems for quantum observables (POVMs), in which observables with permuted effects are involved, which we call as the labeling problem. Consequently, we identify the binary observables those can be "labeled" perfectly. In this work, we study these problems in the single-shot regime. | 翻訳日:2024-07-09 20:07:19 公開日:2024-07-07 |
# テキスト-画像拡散モデルによるフレーズレベルグラウンドの探索
Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model ( http://arxiv.org/abs/2407.05352v1 ) ライセンス: Link先を確認 | Danni Yang, Ruohan Dong, Jiayi Ji, Yiwei Ma, Haowei Wang, Xiaoshuai Sun, Rongrong Ji, | (参考訳) 近年,拡散モデルによる視覚理解能力の実証が進んでいる。
素早い学習を活用して文を構成することで、これらのモデルは分類と視覚的接地作業の習熟度を示した。
しかし、既存のアプローチは主に文レベルのローカライズを行う能力を示しており、句レベルの理解に文脈情報を活用する可能性はほとんど探索されていない。
本稿では,Panoptic Narrative Grounding (PNG) をプロキシタスクとして利用して,この能力をさらに検討する。
PNGは、複数の名詞句で言及されているオブジェクトのインスタンスを、与えられた物語テキストに分割することを目的としている。
具体的には、DiffPNGフレームワークを導入する。DiffPNGフレームワークは、プロセスをローカライゼーション、セグメンテーション、精細化の一連のステップに分解することで、拡散のアーキテクチャーを完全に活用する。
このフレームワークは最初、クロスアテンション機構を用いてアンカーポイントを特定し、その後、ゼロショットPNGを達成するために自己アテンションでセグメンテーションを行う。
さらに,セグメンテーションマスクの品質を高めるため,SAMに基づく改良モジュールを導入する。
PNGデータセットに関する広範な実験により、DiffPNGはゼロショットのPNGタスク設定において強い性能を達成し、文脈認識・フレーズレベル理解のための拡散モデルの能力を決定的に証明した。
ソースコードは \url{https://github.com/nini0919/DiffPNG} で入手できる。
Recently, diffusion models have increasingly demonstrated their capabilities in vision understanding. By leveraging prompt-based learning to construct sentences, these models have shown proficiency in classification and visual grounding tasks. However, existing approaches primarily showcase their ability to perform sentence-level localization, leaving the potential for leveraging contextual information for phrase-level understanding largely unexplored. In this paper, we utilize Panoptic Narrative Grounding (PNG) as a proxy task to investigate this capability further. PNG aims to segment object instances mentioned by multiple noun phrases within a given narrative text. Specifically, we introduce the DiffPNG framework, a straightforward yet effective approach that fully capitalizes on the diffusion's architecture for segmentation by decomposing the process into a sequence of localization, segmentation, and refinement steps. The framework initially identifies anchor points using cross-attention mechanisms and subsequently performs segmentation with self-attention to achieve zero-shot PNG. Moreover, we introduce a refinement module based on SAM to enhance the quality of the segmentation masks. Our extensive experiments on the PNG dataset demonstrate that DiffPNG achieves strong performance in the zero-shot PNG task setting, conclusively proving the diffusion model's capability for context-aware, phrase-level understanding. Source code is available at \url{https://github.com/nini0919/DiffPNG}. | 翻訳日:2024-07-09 20:07:19 公開日:2024-07-07 |
# VideoCoT:Active Annotationツールを備えたビデオチャット用データセット
VideoCoT: A Video Chain-of-Thought Dataset with Active Annotation Tool ( http://arxiv.org/abs/2407.05355v1 ) ライセンス: Link先を確認 | Yan Wang, Yawen Zeng, Jingsheng Zheng, Xiaofen Xing, Jin Xu, Xiangmin Xu, | (参考訳) MLLM(Multimodal large language model)は盛んであるが、特にプロンプトエンジニアリング、ビデオチェーン・オブ・シークレット(CoT)、ビデオのチューニングといったサブフィールドにおいて、ビデオよりも注目度が低い画像に焦点を当てている。
そこで我々は,ビデオ中のCoTデータセットの収集から,ビデオOpenQAへの導出とMLLMの推論能力の向上を図る。
残念ながら、このようなビデオCoTデータセットを作成するのは容易ではない。
人間のアノテーションは複雑で高価でありながら、幻覚の問題のため機械生成は信頼できないことを考慮し、能動的学習パラダイムの下で機械と人間の専門家を組み合わせた自動アノテーションツールを開発する。
アクティブラーニングはモデルと人間の専門家の対話的な戦略であり、この方法では、人間のラベル付けの作業量を削減し、データセットの品質を保証することができる。
自動アノテーションツールの助けを借りて、VideoCoT、TopicQA、TopicCoTという3つのデータセットをコントリビュートしようとしています。
さらに, MLLMの複雑な推論能力を最大化するために, CoT を利用した, 収集したデータセットに基づく簡易かつ効果的なベンチマークを提案する。
大規模な実験は、我々のソリューションの有効性を実証する。
Multimodal large language models (MLLMs) are flourishing, but mainly focus on images with less attention than videos, especially in sub-fields such as prompt engineering, video chain-of-thought (CoT), and instruction tuning on videos. Therefore, we try to explore the collection of CoT datasets in videos to lead to video OpenQA and improve the reasoning ability of MLLMs. Unfortunately, making such video CoT datasets is not an easy task. Given that human annotation is too cumbersome and expensive, while machine-generated is not reliable due to the hallucination issue, we develop an automatic annotation tool that combines machine and human experts, under the active learning paradigm. Active learning is an interactive strategy between the model and human experts, in this way, the workload of human labeling can be reduced and the quality of the dataset can be guaranteed. With the help of the automatic annotation tool, we strive to contribute three datasets, namely VideoCoT, TopicQA, TopicCoT. Furthermore, we propose a simple but effective benchmark based on the collected datasets, which exploits CoT to maximize the complex reasoning capabilities of MLLMs. Extensive experiments demonstrate the effectiveness our solution. | 翻訳日:2024-07-09 20:07:19 公開日:2024-07-07 |
# 頭部ポーズ推定のためのデータ拡張のパワーについて
On the power of data augmentation for head pose estimation ( http://arxiv.org/abs/2407.05357v1 ) ライセンス: Link先を確認 | Michael Welter, | (参考訳) 深層学習は、モノクラー画像から人間の頭部のポーズを予測することで、過去10年間、驚くべき成功を収めてきた。
インザワイルドインプットでは、研究コミュニティは主として、半合成的な1つのトレーニングセットに依存している。
本稿では, 自然画像へのより良い一般化を実現するために, 合成データの異なるフレーバーの組み合わせを提案する。
さらに、従来の外面回転合成によるデータボリュームのさらなる拡張も検討した。
ネットワークアーキテクチャと標準的な特徴抽出器を組み合わせることで、精度と効率の両面での競争モデルが得られ、実用的なリアルタイムアプリケーションにおいて完全な6DoFポーズ推定が可能となった。
Deep learning has been impressively successful in the last decade in predicting human head poses from monocular images. For in-the-wild inputs, the research community has predominantly relied on a single training set of semi-synthetic nature. This paper suggest the combination of different flavors of synthetic data in order to achieve better generalization to natural images. Moreover, additional expansion of the data volume using traditional out-of-plane rotation synthesis is considered. Together with a novel combination of losses and a network architecture with a standard feature-extractor, a competitive model is obtained, both in accuracy and efficiency, which allows full 6 DoF pose estimation in practical real-time applications. | 翻訳日:2024-07-09 20:07:19 公開日:2024-07-07 |
# CPM:音声視覚分割のためのクラス条件プロンプティングマシン
CPM: Class-conditional Prompting Machine for Audio-visual Segmentation ( http://arxiv.org/abs/2407.05358v1 ) ライセンス: Link先を確認 | Yuanhong Chen, Chong Wang, Yuyuan Liu, Hu Wang, Gustavo Carneiro, | (参考訳) オーディオ・ビジュアル・セグメンテーション (AVS) は、オーディオ・ビジュアル・キューに基づいた音質オブジェクトを正確にセグメンテーションすることを目的とした新しいタスクである。
AVS学習システムの成功は、モーダル間相互作用の有効性に依存する。
このような要求は、トランスフォーマーベースのセグメンテーションアーキテクチャを活用することで自然に達成できる。
しかし,AVSでは,特に学習された音声クエリが明確な意味的手がかりを提供していない場合,クロスアテンションの有効性の低下や不安定なバイパーティイトマッチングなどのトランスフォーマーベースの手法の固有のトレーニング問題を増幅することができる。
本稿では,これら2つの問題を,CPM(Class-conditional Prompting Machine)を用いて解決する。
CPMは、クラスに依存しないクエリとクラス条件のクエリを組み合わせた学習戦略により、バイパーティイトマッチングを改善している。
クロスモーダルアテンションの有効性は,音声・視覚・関節モダリティの新しい学習目標によって向上する。
我々はAVSベンチマーク実験を行い、その手法がSOTA(State-of-the-art)セグメンテーションの精度を実現することを示す。
Audio-visual segmentation (AVS) is an emerging task that aims to accurately segment sounding objects based on audio-visual cues. The success of AVS learning systems depends on the effectiveness of cross-modal interaction. Such a requirement can be naturally fulfilled by leveraging transformer-based segmentation architecture due to its inherent ability to capture long-range dependencies and flexibility in handling different modalities. However, the inherent training issues of transformer-based methods, such as the low efficacy of cross-attention and unstable bipartite matching, can be amplified in AVS, particularly when the learned audio query does not provide a clear semantic clue. In this paper, we address these two issues with the new Class-conditional Prompting Machine (CPM). CPM improves the bipartite matching with a learning strategy combining class-agnostic queries with class-conditional queries. The efficacy of cross-modal attention is upgraded with new learning objectives for the audio, visual and joint modalities. We conduct experiments on AVS benchmarks, demonstrating that our method achieves state-of-the-art (SOTA) segmentation accuracy. | 翻訳日:2024-07-09 20:07:19 公開日:2024-07-07 |
# Emilia:大規模音声生成のための多言語・多言語・多言語音声データセット
Emilia: An Extensive, Multilingual, and Diverse Speech Dataset for Large-Scale Speech Generation ( http://arxiv.org/abs/2407.05361v1 ) ライセンス: Link先を確認 | Haorui He, Zengqiang Shang, Chaoren Wang, Xuyuan Li, Yicheng Gu, Hua Hua, Liwei Liu, Chen Yang, Jiaqi Li, Peiyang Shi, Yuancheng Wang, Kai Chen, Pengyuan Zhang, Zhizheng Wu, | (参考訳) 近年,大規模学習データを用いて音声生成モデルに大きな進歩を遂げている。
しかし、研究コミュニティは、大規模で多様な、そして自発的な音声データが不足しているため、非常に自然で人間らしい音声を作り出すのに苦労している。
そこで,本研究では,単語生成用アノテーションを用いた高品質な学習データへの変換を目的とした,最初のオープンソース前処理パイプラインであるEmilia-Pipeについて述べる。
Emiliaは、6つの言語で101k時間以上のスピーチから始まり、様々な話し方で多様なスピーチを特徴としている。
Emiliaのスケールアップを容易にするために、オープンソースのパイプラインであるEmilia-Pipeは、数分間でモデルのトレーニングに備えた生の音声データを1時間処理することができる。
エミリアの有効性を実験的に検証した。
デモは、https://emilia-dataset.github.io/Emilia-Demo-Page/.comで公開されている。
Recently, speech generation models have made significant progress by using large-scale training data. However, the research community struggle to produce highly spontaneous and human-like speech due to the lack of large-scale, diverse, and spontaneous speech data. This paper presents \textit{Emilia}, the first multilingual speech generation dataset from in-the-wild speech data, and Emilia-Pipe, the first open-source preprocessing pipeline designed to transform in-the-wild speech data into high-quality training data with annotations for speech generation. Emilia starts with over 101k hours of speech in six languages and features diverse speech with varied speaking styles. To facilitate the scale-up of Emilia, the open-source pipeline Emilia-Pipe can process one hour of raw speech data ready for model training in a few mins, which enables the research community to collaborate on large-scale speech generation research. Experimental results validate the effectiveness of Emilia. Demos are available at: https://emilia-dataset.github.io/Emilia-Demo-Page/. | 翻訳日:2024-07-09 19:57:34 公開日:2024-07-07 |
# 3次元視覚接地のためのマルチブランチ協調学習ネットワーク
Multi-branch Collaborative Learning Network for 3D Visual Grounding ( http://arxiv.org/abs/2407.05363v1 ) ライセンス: Link先を確認 | Zhipeng Qian, Yiwei Ma, Zhekai Lin, Jiayi Ji, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji, | (参考訳) 3D参照表現理解(3DREC)とセグメンテーション(3DRES)は重なり合う目標を持ち、コラボレーションの可能性を示している。
しかし、既存の協調的なアプローチは、1つのタスクの結果に大きく依存し、もう1つのタスクの予測を行い、効果的なコラボレーションを制限する。
3DRECタスクと3DRESタスクに個別のブランチを採用することで、各タスクの特定の情報を学ぶ能力が向上し、補完的な知識が得られます。
そこで本研究では、3DRECタスクと3DRESタスクの独立ブランチを含むMCLNフレームワークを提案する。
これにより、各タスクの専用の探索と、ブランチ間の効果的な調整が可能になる。
さらに,これらの分岐間の相互強化を容易にするために,相対的スーパーポイントアグリゲーション (RSA) モジュールと適応的ソフトアライメント (ASA) モジュールを導入する。
これらのモジュールは2つの分岐からの予測結果の正確なアライメントに大きく貢献し、モジュールにキー位置への注意を割り当てるよう指示した。
その結果,3DRECのAcc@0.5,3DRESのmIOUの5.22%,3DRECのAcc@0.5,3DRESのAcc@0.5の3.27%の増加が得られた。
3D referring expression comprehension (3DREC) and segmentation (3DRES) have overlapping objectives, indicating their potential for collaboration. However, existing collaborative approaches predominantly depend on the results of one task to make predictions for the other, limiting effective collaboration. We argue that employing separate branches for 3DREC and 3DRES tasks enhances the model's capacity to learn specific information for each task, enabling them to acquire complementary knowledge. Thus, we propose the MCLN framework, which includes independent branches for 3DREC and 3DRES tasks. This enables dedicated exploration of each task and effective coordination between the branches. Furthermore, to facilitate mutual reinforcement between these branches, we introduce a Relative Superpoint Aggregation (RSA) module and an Adaptive Soft Alignment (ASA) module. These modules significantly contribute to the precise alignment of prediction results from the two branches, directing the module to allocate increased attention to key positions. Comprehensive experimental evaluation demonstrates that our proposed method achieves state-of-the-art performance on both the 3DREC and 3DRES tasks, with an increase of 3.27% in Acc@0.5 for 3DREC and 5.22% in mIOU for 3DRES. | 翻訳日:2024-07-09 19:57:34 公開日:2024-07-07 |
# PTaRL:空間校正によるプロトタイプベース語彙表現学習
PTaRL: Prototype-based Tabular Representation Learning via Space Calibration ( http://arxiv.org/abs/2407.05364v1 ) ライセンス: Link先を確認 | Hangting Ye, Wei Fan, Xiaozhuang Song, Shun Zheng, He Zhao, Dandan Guo, Yi Chang, | (参考訳) タブラルデータは、医療、エンジニアリング、金融など、さまざまな現実世界の分野において、主に重要な役割を担っている。
近年のディープラーニングの成功により、ディープネットワーク(例えば、Transformer、ResNet)に基づく多くの表層機械学習(ML)メソッドが、表層ベンチマークで競合的なパフォーマンスを達成した。
しかし、既存の深層表型ML手法は表現の絡み合いや局所化に悩まされ、予測性能が損なわれ、表型タスクのパフォーマンスに矛盾が生じる。
これらの問題を解決するために,表型MLにプロトタイプ学習を適用する新たな方向を探り,表型予測タスクのためのプロトタイプベースの表型表現学習フレームワークであるPTaRLを提案する。
PTaRLの中核となる考え方は、プロトタイプベースの射影空間(P-Space)を構築し、グローバルなデータプロトタイプの周囲に絡み合った表現を学ぶことである。
具体的には、PTaRLは主に2つの段階を含む。
一 表現のためのP空間の基底ベクトルとしてグローバルプロトタイプを構築するプロトタイプ生成及び
(ii)P-Spaceにデータサンプルを投影し,コアとなるグローバルデータ情報をOptimal Transport経由で保持するプロトタイプ・プロジェクション。
そして、不整合表現をさらに獲得するために、PTaRLを2つの戦略で制約する。
(i)P空間内の異なる表現のグローバルプロトタイプに向けて座標を多様化するために、表現校正のための多様化制約を提起する。
2) P-空間におけるプロトタイプの絡み合いを避けるため,グローバルプロトタイプの独立性を確保するために行列直交化制約を導入する。
最後に、PTaRLと最先端の深い表型MLモデルを組み合わせた様々な表型ベンチマーク実験を行い、その結果、一貫した優位性を示した。
Tabular data have been playing a mostly important role in diverse real-world fields, such as healthcare, engineering, finance, etc. With the recent success of deep learning, many tabular machine learning (ML) methods based on deep networks (e.g., Transformer, ResNet) have achieved competitive performance on tabular benchmarks. However, existing deep tabular ML methods suffer from the representation entanglement and localization, which largely hinders their prediction performance and leads to performance inconsistency on tabular tasks. To overcome these problems, we explore a novel direction of applying prototype learning for tabular ML and propose a prototype-based tabular representation learning framework, PTaRL, for tabular prediction tasks. The core idea of PTaRL is to construct prototype-based projection space (P-Space) and learn the disentangled representation around global data prototypes. Specifically, PTaRL mainly involves two stages: (i) Prototype Generation, that constructs global prototypes as the basis vectors of P-Space for representation, and (ii) Prototype Projection, that projects the data samples into P-Space and keeps the core global data information via Optimal Transport. Then, to further acquire the disentangled representations, we constrain PTaRL with two strategies: (i) to diversify the coordinates towards global prototypes of different representations within P-Space, we bring up a diversification constraint for representation calibration; (ii) to avoid prototype entanglement in P-Space, we introduce a matrix orthogonalization constraint to ensure the independence of global prototypes. Finally, we conduct extensive experiments in PTaRL coupled with state-of-the-art deep tabular ML models on various tabular benchmarks and the results have shown our consistent superiority. | 翻訳日:2024-07-09 19:57:34 公開日:2024-07-07 |
# ElecBench: 大規模言語モデルの分散評価ベンチマーク
ElecBench: a Power Dispatch Evaluation Benchmark for Large Language Models ( http://arxiv.org/abs/2407.05365v1 ) ライセンス: Link先を確認 | Xiyuan Zhou, Huan Zhao, Yuheng Cheng, Yuji Cao, Gaoqi Liang, Guolong Liu, Junhua Zhao, | (参考訳) 電力セクターは、グリッド安定性の急激な需要と再生可能エネルギー統合と電力市場のダイナミクスによって引き起こされる複雑な課題に応えて、革新的な技術的解決策をますます求めている。
この文脈において、大規模言語モデル(LLM)は、その優れた自然言語処理、論理的推論、一般化能力によって、効率を改善し、電力セクターのインテリジェントな進歩を促進する重要な技術となっている。
これらの可能性にもかかわらず、電力セクターにおけるLCMの性能評価ベンチマークが欠如していることは、これらの技術の有効利用を制限している。
このギャップに対処するために、電力セクター内のLLMの評価ベンチマークである"ElecBench"を紹介した。
ElecBenchは、セクター固有のシナリオを包括的にカバーし、専門知識のテストを強化し、意思決定の精度を向上させることで、既存の評価ベンチマークの欠点を克服することを目指している。
このフレームワークは、シナリオを一般的な知識とプロフェッショナルビジネスに分類し、さらに6つのパフォーマンス指標(事実性、論理性、安定性、セキュリティ、公正性、表現性)に分類し、パワーセクターにおけるLLMアプリケーションの能力と限界に関する深い洞察を提供する24のサブメトリックに分割する。
透明性を確保するため、私たちは完全なテストセットを公開し、さまざまなシナリオやメトリクスにわたる8つのLCMのパフォーマンスを評価しました。
ElecBenchは、パワーセクターにおけるLLMアプリケーションの標準ベンチマークとして機能し、シナリオ、メトリクス、モデルの継続的な更新をサポートし、技術的進歩とアプリケーションを促進することを目指している。
In response to the urgent demand for grid stability and the complex challenges posed by renewable energy integration and electricity market dynamics, the power sector increasingly seeks innovative technological solutions. In this context, large language models (LLMs) have become a key technology to improve efficiency and promote intelligent progress in the power sector with their excellent natural language processing, logical reasoning, and generalization capabilities. Despite their potential, the absence of a performance evaluation benchmark for LLM in the power sector has limited the effective application of these technologies. Addressing this gap, our study introduces "ElecBench", an evaluation benchmark of LLMs within the power sector. ElecBench aims to overcome the shortcomings of existing evaluation benchmarks by providing comprehensive coverage of sector-specific scenarios, deepening the testing of professional knowledge, and enhancing decision-making precision. The framework categorizes scenarios into general knowledge and professional business, further divided into six core performance metrics: factuality, logicality, stability, security, fairness, and expressiveness, and is subdivided into 24 sub-metrics, offering profound insights into the capabilities and limitations of LLM applications in the power sector. To ensure transparency, we have made the complete test set public, evaluating the performance of eight LLMs across various scenarios and metrics. ElecBench aspires to serve as the standard benchmark for LLM applications in the power sector, supporting continuous updates of scenarios, metrics, and models to drive technological progress and application. | 翻訳日:2024-07-09 19:57:34 公開日:2024-07-07 |
# 教師付きコントラスト学習とアーティスト情報を用いた音楽時代の認識
Music Era Recognition Using Supervised Contrastive Learning and Artist Information ( http://arxiv.org/abs/2407.05368v1 ) ライセンス: Link先を確認 | Qiqi He, Xuchen Song, Weituo Hao, Ju-Chiang Wang, Wei-Tsung Lu, Wei Li, | (参考訳) 60年代のポピュラー音楽は90年代の音楽と違うのか?
以前の研究では、多段階の傾向にまたがって、器楽変化や大音量増加に関連するパターンや規則がいくつか存在することが示されている。
これは、オーディオやアーティスト情報などの音楽的特徴から歌の時代を知覚することが可能であることを示している。
音楽時代情報は、プレイリストの生成とレコメンデーションにとって重要な機能である。
しかし、曲のリリース年は、多くの状況ではアクセスできない。
本稿では,音楽時代認識の新たな課題について述べる。
課題を音楽分類問題として定式化し,教師付きコントラスト学習に基づく解を提案する。
音声から年齢を予測するために,音声に基づくモデルを開発した。
アーティスト情報が入手可能な場合には,マルチモーダル入力を受信するための音声モデルを拡張し,マルチモーダルコントラスト学習(MMC)と呼ばれるフレームワークを開発し,トレーニングを強化する。
マイノリティ・ソング・データセットの実験結果から,3年以内の許容範囲で54%の精度を実現し,MCCフレームワークにアーティスト情報を組み込むことで,さらに9%の改善が達成された。
Does popular music from the 60s sound different than that of the 90s? Prior study has shown that there would exist some variations of patterns and regularities related to instrumentation changes and growing loudness across multi-decadal trends. This indicates that perceiving the era of a song from musical features such as audio and artist information is possible. Music era information can be an important feature for playlist generation and recommendation. However, the release year of a song can be inaccessible in many circumstances. This paper addresses a novel task of music era recognition. We formulate the task as a music classification problem and propose solutions based on supervised contrastive learning. An audio-based model is developed to predict the era from audio. For the case where the artist information is available, we extend the audio-based model to take multimodal inputs and develop a framework, called MultiModal Contrastive (MMC) learning, to enhance the training. Experimental result on Million Song Dataset demonstrates that the audio-based model achieves 54% in accuracy with a tolerance of 3-years range; incorporating the artist information with the MMC framework for training leads to 9% improvement further. | 翻訳日:2024-07-09 19:57:34 公開日:2024-07-07 |
# 不均衡半監督学習のための学習ラベルのリファインメントと閾値調整
Learning Label Refinement and Threshold Adjustment for Imbalanced Semi-Supervised Learning ( http://arxiv.org/abs/2407.05370v1 ) ライセンス: Link先を確認 | Zeju Li, Ying-Qiu Zheng, Chen Chen, Saad Jbabdi, | (参考訳) 半教師付き学習(SSL)アルゴリズムは、不均衡なトレーニングデータに晒された場合、うまく機能しない。
このシナリオでは、生成された擬似ラベルは多数派に対してバイアスを示すことができ、これらの擬似ラベルを使用するモデルは、このバイアスをさらに増幅することができる。
本稿では,疑似ラベル改善としきい値調整を含む不均衡SSLの擬似ラベル化戦略を,統計的解析のレンズを用いて検討する。
不均衡なクラス分布が擬似ラベルに偏った場合、ヒューリスティック戦略や非校正モデルの信頼度を用いて擬似ラベルを生成する既存のSSLアルゴリズムは信頼できないことがわかった。
そこで本研究では,Validationデータ(SEVAL)に基づく擬似ラベル最適化によるセミ教師学習を導入し,不均衡SSLにおける擬似ラベルの質を高める。
本稿では,学習データセットの分割から洗練されたパラメータとしきい値のパラメータをクラスバランスで学習することを提案する。
SEVALは、擬似ラベルの精度を改善して特定のタスクに適応し、クラスごとに擬似ラベルの正確性を保証する。
実験の結果、SEVALは最先端のSSL手法を超越し、様々な不均衡なSSL状況において、より正確で効果的な擬似ラベルを提供することがわかった。
SEVALは、そのシンプルさと柔軟性により、さまざまなSSLテクニックを効果的に強化することができる。
コードは ~\footnote{\url{https://github.com/ZerojumpLine/SEVAL}} で公開されている。
Semi-supervised learning (SSL) algorithms struggle to perform well when exposed to imbalanced training data. In this scenario, the generated pseudo-labels can exhibit a bias towards the majority class, and models that employ these pseudo-labels can further amplify this bias. Here we investigate pseudo-labeling strategies for imbalanced SSL including pseudo-label refinement and threshold adjustment, through the lens of statistical analysis. We find that existing SSL algorithms which generate pseudo-labels using heuristic strategies or uncalibrated model confidence are unreliable when imbalanced class distributions bias pseudo-labels. To address this, we introduce SEmi-supervised learning with pseudo-label optimization based on VALidation data (SEVAL) to enhance the quality of pseudo-labelling for imbalanced SSL. We propose to learn refinement and thresholding parameters from a partition of the training dataset in a class-balanced way. SEVAL adapts to specific tasks with improved pseudo-labels accuracy and ensures pseudo-labels correctness on a per-class basis. Our experiments show that SEVAL surpasses state-of-the-art SSL methods, delivering more accurate and effective pseudo-labels in various imbalanced SSL situations. SEVAL, with its simplicity and flexibility, can enhance various SSL techniques effectively. The code is publicly available~\footnote{\url{https://github.com/ZerojumpLine/SEVAL}}. | 翻訳日:2024-07-09 19:57:34 公開日:2024-07-07 |
# 感覚分析と感情認識のためのモダリティを欠いたマルチモーダル・プロンプト学習
Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition ( http://arxiv.org/abs/2407.05374v1 ) ライセンス: Link先を確認 | Zirun Guo, Tao Jin, Zhou Zhao, | (参考訳) マルチモーダルモデルの開発は、多モーダル感情分析と感情認識を著しく進歩させた。
しかし、現実世界の応用では、様々なモダリティが欠如しているため、しばしばモデルの性能が低下する。
本研究では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマフレームワークを提案する。
提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。
これらのプロンプトは、欠落したモダリティ特徴の生成を可能にし、モダリティ内およびモダリティ間情報の学習を容易にする。
迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
提案手法は,すべての評価指標において,他の手法よりも優れていた。
提案手法の有効性とロバスト性を実証するために, 大規模な実験およびアブレーション実験を行い, 欠落したモダリティを効果的に扱えることを示す。
The development of multimodal models has significantly advanced multimodal sentiment analysis and emotion recognition. However, in real-world applications, the presence of various missing modality cases often leads to a degradation in the model's performance. In this work, we propose a novel multimodal Transformer framework using prompt learning to address the issue of missing modalities. Our method introduces three types of prompts: generative prompts, missing-signal prompts, and missing-type prompts. These prompts enable the generation of missing modality features and facilitate the learning of intra- and inter-modality information. Through prompt learning, we achieve a substantial reduction in the number of trainable parameters. Our proposed method outperforms other methods significantly across all evaluation metrics. Extensive experiments and ablation studies are conducted to demonstrate the effectiveness and robustness of our method, showcasing its ability to effectively handle missing modalities. | 翻訳日:2024-07-09 19:57:34 公開日:2024-07-07 |
# 最大概念差によるオンラインドリフト検出
Online Drift Detection with Maximum Concept Discrepancy ( http://arxiv.org/abs/2407.05375v1 ) ライセンス: Link先を確認 | Ke Wan, Yi Liang, Susik Yoon, | (参考訳) 膨大な量のデータストリームからの継続的な学習は、インターネット時代において非常に重要なものになる。
しかし、データストリームは時間とともに同じ分布に従わないことが多く、概念ドリフトと呼ばれる現象につながる。
固定静的モデルは,概念ドリフトデータストリームの推測には信頼性が低いため,概念ドリフトを検出する適応機構を確立することが重要である。
コンセプトドリフト検出の現在の手法は、主に下流モデルのラベルやエラー率が与えられ、あるいは基礎となる統計特性がデータストリームに存在すると仮定している。
しかし、これらのアプローチは、現実のシナリオでより一般的である複雑な不規則な分布シフトを伴う高次元データストリームに対処するのに苦労する。
本稿では,最大平均誤差に基づく新しい概念ドリフト検出手法であるMDD-DDを提案する。
本手法は, ラベルや統計特性に頼らずに, コントラスト学習により, 様々な形態のコンセプトドリフトを適応的に同定することができる。
合成・実世界のシナリオ下での徹底的な実験により,提案手法は概念ドリフトの同定において既存のベースラインよりも優れ,説明可能性の高い定性解析を可能にすることを実証した。
Continuous learning from an immense volume of data streams becomes exceptionally critical in the internet era. However, data streams often do not conform to the same distribution over time, leading to a phenomenon called concept drift. Since a fixed static model is unreliable for inferring concept-drifted data streams, establishing an adaptive mechanism for detecting concept drift is crucial. Current methods for concept drift detection primarily assume that the labels or error rates of downstream models are given and/or underlying statistical properties exist in data streams. These approaches, however, struggle to address high-dimensional data streams with intricate irregular distribution shifts, which are more prevalent in real-world scenarios. In this paper, we propose MCD-DD, a novel concept drift detection method based on maximum concept discrepancy, inspired by the maximum mean discrepancy. Our method can adaptively identify varying forms of concept drift by contrastive learning of concept embeddings without relying on labels or statistical properties. With thorough experiments under synthetic and real-world scenarios, we demonstrate that the proposed method outperforms existing baselines in identifying concept drifts and enables qualitative analysis with high explainability. | 翻訳日:2024-07-09 19:57:34 公開日:2024-07-07 |
# 大規模言語モデル群における集合的革新
Collective Innovation in Groups of Large Language Models ( http://arxiv.org/abs/2407.05377v1 ) ライセンス: Link先を確認 | Eleni Nisioti, Sebastian Risi, Ida Momennejad, Pierre-Yves Oudeyer, Clément Moulin-Frier, | (参考訳) 私たちの環境にある既存の要素をどのように組み合わせて新しいものを作るか、継続的に探求する能力です。
言語は人間の文化において重要な役割を担い、個人の認知能力を高め、コミュニケーションを形作る。
しかし、集団的革新のほとんどのモデルは、認知能力や言語能力をエージェントに割り当てない。
ここでは、エージェントがLittle Alchemy 2をプレイするLarge Language Models(LLM)の集合的イノベーションに関する計算的研究を紹介する。
まず,LLMを単独で研究し,有用なスキルと限界の両方を示すことを発見した。
そして,その行動に関する情報を共有するLLMのグループについて検討し,集団的パフォーマンスに及ぼす社会的接続性の影響に着目した。
従来の人間・計算研究と一致して、動的接続性を持つ群が完全連結群より優れていたことを観察する。
我々の研究は、ジェネレーティブ人工知能アルゴリズムと人間が互いに革新するにつれて、ますます関連性が高まっている集団イノベーションの今後の研究の機会と課題を明らかにします。
Human culture relies on collective innovation: our ability to continuously explore how existing elements in our environment can be combined to create new ones. Language is hypothesized to play a key role in human culture, driving individual cognitive capacities and shaping communication. Yet the majority of models of collective innovation assign no cognitive capacities or language abilities to agents. Here, we contribute a computational study of collective innovation where agents are Large Language Models (LLMs) that play Little Alchemy 2, a creative video game originally developed for humans that, as we argue, captures useful aspects of innovation landscapes not present in previous test-beds. We, first, study an LLM in isolation and discover that it exhibits both useful skills and crucial limitations. We, then, study groups of LLMs that share information related to their behaviour and focus on the effect of social connectivity on collective performance. In agreement with previous human and computational studies, we observe that groups with dynamic connectivity out-compete fully-connected groups. Our work reveals opportunities and challenges for future studies of collective innovation that are becoming increasingly relevant as Generative Artificial Intelligence algorithms and humans innovate alongside each other. | 翻訳日:2024-07-09 19:57:34 公開日:2024-07-07 |
# AiGAS-dEVL:極端検証レイテンシ下でのドリフトデータストリームに対する適応的インクリメンタルニューラルガスモデル
AiGAS-dEVL: An Adaptive Incremental Neural Gas Model for Drifting Data Streams under Extreme Verification Latency ( http://arxiv.org/abs/2407.05379v1 ) ライセンス: Link先を確認 | Maria Arostegi, Miren Nekane Bilbao, Jesus L. Lobo, Javier Del Ser, | (参考訳) 現代のデータ生成速度は、ラベル付けプロセスのかなりのコストとともに、増加し続けるため、機械学習モデルは、データが部分的にラベル付けされたシナリオに直面します。
このような監視が無期限に利用できない極端なケースは、極端な検証レイテンシと呼ばれる。
一方、ストリーミング設定では、データフローはパターンの非定常性(コンセプトドリフト)をもたらす外生的要因の影響を受け、データストリームから漸進的に学習した説得力のあるモデルは、そのモデル化された知識をストリーム内の概念に適応させる。
本研究は,これら2つの条件が混在する因果関係に対処するため,流路内のドリフトに適応する適応機構が,監視の欠如によって問題視され,検証の欠如による概念の進化を追跡するためのさらなるメカニズムが要求される。
そこで本研究では,AiGAS-dEVL (Adaptive Incremental Neural GAS model for drifting Streams under Extreme Verification Latency) という新しい手法を提案する。
提案手法は,これらの特徴空間における概念の進化,その行動の変化の検出,およびモデルにおけるそのような変化の影響を軽減するための適応ポリシーの設計を,時間とともにオンラインに分析することによって,特徴空間における概念の進化が促進されることを明らかにする。
いくつかの合成データセット上でのAiGAS-dEVLの性能評価を行い、このストリーム学習設定に取り組むために近年提案されている最先端のアプローチと比較した。
以上の結果から,AiGAS-dEVLは,他のベースラインに対して競合的に動作し,単純かつ解釈可能なインスタンスベースの適応戦略を確保しつつ,ベンチマーク内の複数のデータセットに対して優れた適応性を示すことが明らかとなった。
The ever-growing speed at which data are generated nowadays, together with the substantial cost of labeling processes cause Machine Learning models to face scenarios in which data are partially labeled. The extreme case where such a supervision is indefinitely unavailable is referred to as extreme verification latency. On the other hand, in streaming setups data flows are affected by exogenous factors that yield non-stationarities in the patterns (concept drift), compelling models learned incrementally from the data streams to adapt their modeled knowledge to the concepts within the stream. In this work we address the casuistry in which these two conditions occur together, by which adaptation mechanisms to accommodate drifts within the stream are challenged by the lack of supervision, requiring further mechanisms to track the evolution of concepts in the absence of verification. To this end we propose a novel approach, AiGAS-dEVL (Adaptive Incremental neural GAS model for drifting Streams under Extreme Verification Latency), which relies on growing neural gas to characterize the distributions of all concepts detected within the stream over time. Our approach exposes that the online analysis of the behavior of these prototypical points over time facilitates the definition of the evolution of concepts in the feature space, the detection of changes in their behavior, and the design of adaptation policies to mitigate the effect of such changes in the model. We assess the performance of AiGAS-dEVL over several synthetic datasets, comparing it to that of state-of-the-art approaches proposed in the recent past to tackle this stream learning setup. Our results reveal that AiGAS-dEVL performs competitively with respect to the rest of baselines, exhibiting a superior adaptability over several datasets in the benchmark while ensuring a simple and interpretable instance-based adaptation strategy. | 翻訳日:2024-07-09 19:57:34 公開日:2024-07-07 |
# 多重閾値を用いた教師なし外乱検出の再検討
Rethinking Unsupervised Outlier Detection via Multiple Thresholding ( http://arxiv.org/abs/2407.05382v1 ) ライセンス: Link先を確認 | Zhonghang Liu, Panzhong Lu, Guoyang Xie, Zhichao Lu, Wen-Yan Lin, | (参考訳) 教師なし画像の外れ値検出の領域では、外れ値の割り当ては、その後のタスクであるラベルのしきい値予測よりも重要である。
これは、分離不能なアウトリーチスコア関数の最適しきい値を決定することが不適切な問題であるからである。
しかしながら、予測ラベルの欠如は、現在の外れ値検出器の実際の応用を隠蔽するだけでなく、データセットの自己スーパービジョンを活用することによって、これらの手法を拡張しないようにもしている。
既存のスコアリング手法を改善するために,マルチしきい値(Multi-T)モジュールを提案する。
2つのしきい値を生成して、不正なターゲットデータセットから不整合と外接点を分離する一方、外接値はより優れた特徴表現を得るために使用され、不整合は非汚染多様体を提供する。
大規模実験により,Multi-T が提案した出力スコアリング法を大幅に改善できることが確認された。
さらに、Multi-Tは、最先端であるナイーブ距離ベースの手法に寄与する。
In the realm of unsupervised image outlier detection, assigning outlier scores holds greater significance than its subsequent task: thresholding for predicting labels. This is because determining the optimal threshold on non-separable outlier score functions is an ill-posed problem. However, the lack of predicted labels not only hiders some real applications of current outlier detectors but also causes these methods not to be enhanced by leveraging the dataset's self-supervision. To advance existing scoring methods, we propose a multiple thresholding (Multi-T) module. It generates two thresholds that isolate inliers and outliers from the unlabelled target dataset, whereas outliers are employed to obtain better feature representation while inliers provide an uncontaminated manifold. Extensive experiments verify that Multi-T can significantly improve proposed outlier scoring methods. Moreover, Multi-T contributes to a naive distance-based method being state-of-the-art. | 翻訳日:2024-07-09 19:57:34 公開日:2024-07-07 |
# リアルタイムUAV追跡のための動的初期出力を用いた動作ブラストロバスト視覚変換器の学習
Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking ( http://arxiv.org/abs/2407.05383v1 ) ライセンス: Link先を確認 | You Wu, Xucheng Wang, Dan Zeng, Hengzhou Ye, Xiaolan Xie, Qijun Zhao, Shuiwang Li, | (参考訳) 近年、トレーニング済みのViTバックボーンを用いたシングルストリームアーキテクチャの採用が急増していることは、汎用的な視覚追跡の分野において有望な進歩を示している。
機能抽出と統合を結合フレームワークに統合することで、これらのアーキテクチャはパフォーマンス、効率、堅牢性を改善します。
しかし、これらのフレームワークをUAV追跡に最適化する研究は限られている。
本稿では,リアルタイムなUAVトラッキングのために,Transformerブロックを動的に終了する適応型計算フレームワークに調整することで,このフレームワークの効率を向上する。
この背景にある動機は、課題が少ないタスクを追跡することは、低レベルの特徴表現を使って適切に対処できるということです。
単純なタスクは、要求の少ない低レベルの機能で処理されることが多い。
このアプローチにより、複雑なタスクに集中し、より簡単なタスクのためにリソースを保存することで、モデルがより効率的に計算資源を使用することができる。
この論文で導入されたもう1つの顕著な拡張は、動きのぼかし処理におけるViTsの有効性の改善である。
これは、シミュレーションされた動きのぼかしに対する目標の特徴表現の不変性を強制することにより、動きのぼかしのロバスト表現を取得することで達成される。
提案されたアプローチはBDTrackと呼ばれている。
5つのトラッキングベンチマークで実施した大規模な実験は、我々のアプローチの有効性と汎用性を検証し、リアルタイムUAVトラッキングにおける最先端のソリューションとして確立した。
コードはhttps://github.com/wuyou3474/BDTrack.comで公開されている。
Recently, the surge in the adoption of single-stream architectures utilizing pre-trained ViT backbones represents a promising advancement in the field of generic visual tracking. By integrating feature extraction and fusion into a cohesive framework, these architectures offer improved performance, efficiency, and robustness. However, there has been limited exploration into optimizing these frameworks for UAV tracking. In this paper, we boost the efficiency of this framework by tailoring it into an adaptive computation framework that dynamically exits Transformer blocks for real-time UAV tracking. The motivation behind this is that tracking tasks with fewer challenges can be adequately addressed using low-level feature representations. Simpler tasks can often be handled with less demanding, lower-level features. This approach allows the model use computational resources more efficiently by focusing on complex tasks and conserving resources for easier ones. Another significant enhancement introduced in this paper is the improved effectiveness of ViTs in handling motion blur, a common issue in UAV tracking caused by the fast movements of either the UAV, the tracked objects, or both. This is achieved by acquiring motion blur robust representations through enforcing invariance in the feature representation of the target with respect to simulated motion blur. The proposed approach is dubbed BDTrack. Extensive experiments conducted on five tracking benchmarks validate the effectiveness and versatility of our approach, establishing it as a cutting-edge solution in real-time UAV tracking. Code is released at: https://github.com/wuyou3474/BDTrack. | 翻訳日:2024-07-09 19:57:34 公開日:2024-07-07 |
# 多様性の調和:正準相関解析とニューラルネットワークの融合
Harmony in Diversity: Merging Neural Networks with Canonical Correlation Analysis ( http://arxiv.org/abs/2407.05385v1 ) ライセンス: Link先を確認 | Stefan Horoi, Albert Manuel Orozco Camacho, Eugene Belilovsky, Guy Wolf, | (参考訳) アンサンブルによる複数の訓練されたモデルの予測を組み合わせることは、一般にモデルの異なる学習特徴を活用することによって精度を向上させるのに良い方法であるが、高い計算と記憶コストが伴う。
モデル融合(英: Model fusion)とは、パラメータを組み合わせることで複数のモデルを1つにマージする行為であり、これらのコストを削減するが、実際にはうまく機能しない。
実際、ニューラルネットワークのロスランドスケープは高次元かつ非凸であり、学習によって発見されたミニマは、通常、高損失バリアによって分離される。
最近の多くの研究は、1つのネットワークの特徴と2つ目の特徴とを一致させ、パラメータ空間におけるそれらの間の線形経路の損失障壁を低くすることに焦点を当てている。
しかし、異なるモデルのニューロンの間に1対1のマッピングが存在すると仮定するため、置換は制限的である。
我々は,正準相関解析に基づく新しいモデルマージアルゴリズムCCA Mergeを提案し,モデル特徴の線形結合の相関を最大化することを目的とする。
我々のアライメント手法は、トレーニングされたモデルの平均化やデータ分割の相違により、過去の方法よりもパフォーマンスが向上することを示す。
さらに、この分析を、2つ以上のモデルがマージされる難易度の設定にまで拡張し、CCA Mergeが過去の方法よりもはるかにうまく機能していることに気付きました。
私たちのコードはhttps://github.com/shoroi/align-n-mergeで公開されています。
Combining the predictions of multiple trained models through ensembling is generally a good way to improve accuracy by leveraging the different learned features of the models, however it comes with high computational and storage costs. Model fusion, the act of merging multiple models into one by combining their parameters reduces these costs but doesn't work as well in practice. Indeed, neural network loss landscapes are high-dimensional and non-convex and the minima found through learning are typically separated by high loss barriers. Numerous recent works have been focused on finding permutations matching one network features to the features of a second one, lowering the loss barrier on the linear path between them in parameter space. However, permutations are restrictive since they assume a one-to-one mapping between the different models' neurons exists. We propose a new model merging algorithm, CCA Merge, which is based on Canonical Correlation Analysis and aims to maximize the correlations between linear combinations of the model features. We show that our alignment method leads to better performances than past methods when averaging models trained on the same, or differing data splits. We also extend this analysis into the harder setting where more than 2 models are merged, and we find that CCA Merge works significantly better than past methods. Our code is publicly available at https://github.com/shoroi/align-n-merge | 翻訳日:2024-07-09 19:57:34 公開日:2024-07-07 |
# $\ket{ GHZ_{ 3 } }$状態に依存する多人数量子私的等式比較スキーム
A Multiparty Quantum Private Equality Comparison scheme relying on $\ket{ GHZ_{ 3 } }$ states ( http://arxiv.org/abs/2407.05386v1 ) ライセンス: Link先を確認 | Theodore Andronikos, Alla Sirokofskich, | (参考訳) 本稿では,GHZ3三重項の最大絡み合いを利用したマルチパーティ量子プライベート比較を実現する,革新的な絡み合いベースのプロトコルを提案する。
主な動機は、現代の量子コンピュータで実行できるプロトコルの設計である。
これは、億万長者の数に関係なく、プロトコルがGHZ3三重項のみを使用するためである。
より複雑な多粒子絡み合った状態が可能であるが、既存の量子装置で生成することは困難であり、特に多くの参加者を含むシナリオにおいて、準備時間と複雑さが延長される。
ベル状態以降のGHZ3状態の生成が最も容易であるGHZ3状態に頼ることで,これらの欠点を回避し,プロトコルの実践的な実装に向けて一歩踏み出す。
このプロトコルの重要な定量的特徴は、必要となる量子資源が、億万長者の数と比較される情報の量の両方において線形であることである。
プロトコルの注目すべき側面は、並列実行とシーケンシャル実行の両方に適していることである。
プロトコルの量子部分の実行は、完全に並列に行われると想定されているが、順次実装することもできる。
したがって、もし量子資源が1行でプロトコルの実行に十分でないなら、億万長者を小さなグループに分割し、これらのグループを順次処理することができる。
特に、当社のプロトコルには2つのサードパーティが含まれており、現在はSophiaが伴っている。
この二重セットアップは、すべての億万長者の運命を同時に処理することを可能にする。
実装面では、すべての億万長者は、アダマールとCNOTゲートからなる同様のプライベート量子回路を使用するため、均一性を保証する。
最後に、プロトコルは情報理論的に安全であり、外部の関係者が占いや内部のプレイヤーがお互いの秘密の番号を知るのを妨げている。
This paper introduces an innovative entanglement-based protocol that accomplishes multiparty quantum private comparison leveraging maximally entangled GHZ3 triplets. The primary motivation is the design of a protocol that can be executed by contemporary quantum computers. This is made possible because the protocol uses only GHZ3 triplets, irrespective of the number of millionaires. While more complex multi-particle entangled states are possible, they are challenging to produce with existing quantum apparatus, leading to extended preparation time and complexity, particularly in scenarios involving numerous participants. By relying on GHZ3 states, which are the easiest to produce after Bell states, we avoid these drawbacks, and take a step towards the practical implementation of the protocol. An important quantitative characteristic of this protocol is that the required quantum resources are linear both in the number of millionaires and the volume of information to be compared. A notable aspect of the protocol is its suitability for both parallel and sequential execution. Although the execution of the quantum part of the protocol is envisioned to take place completely in parallel, it is also possible to be implemented sequentially. So, if the quantum resources do not suffice for the execution of the protocol in one go, it is possible to partition the millionaires into smaller groups and process these groups sequentially. Notably, our protocol involves two third parties; Trent is now accompanied by Sophia. This dual setup allows simultaneous processing of all n millionaires' fortunes. Implementation-wise, uniformity is ensured as all millionaires use similar private quantum circuits composed of Hadamard and CNOT gates. Lastly, the protocol is information-theoretically secure, preventing outside parties from learning about fortunes or inside players from knowing each other's secret numbers. | 翻訳日:2024-07-09 19:57:34 公開日:2024-07-07 |
# Forest2Seq: シークエンシャルな屋内シーン合成に先立つリバイバル化
Forest2Seq: Revitalizing Order Prior for Sequential Indoor Scene Synthesis ( http://arxiv.org/abs/2407.05388v1 ) ライセンス: Link先を確認 | Qi Sun, Hang Zhou, Wengang Zhou, Li Li, Houqiang Li, | (参考訳) リアルな3D屋内シーンを合成することは、伝統的に専門家デザイナーによる手作業によるアレンジメントとアノテーションに依存している難しい作業である。
近年の自己回帰モデルでは、このプロセスが自動化されているが、現実のシーンに存在する関係や階層のセマンティックな理解が欠如しており、性能は限られている。
本稿では,室内シーンの合成を順序対応型シーケンシャル学習問題として定式化するフレームワークであるフォレスト2Seqを提案する。
Forest2Seqは、本質的に順序のないシーンオブジェクトのコレクションを構造化され、順序付けられた階層的なシーンツリーと森林に整理する。
クラスタリングに基づくアルゴリズムと幅優先のトラバースを用いて、フォレスト2セックは意味のある順序付けを導き、トランスフォーマーを使用してリアルな3Dシーンを自動回帰的に生成する。
標準ベンチマークによる実験結果は、FIDとKLスコアを大幅に改善した上で、トップパフォーマンスのベースラインと比較して、より現実的なシーンを合成する際のフォレスト2Seqの優位性を示している。
下流タスクとアブレーション研究のための追加実験は、3次元シーン生成における先行的な順序を組み込むことの重要性を裏付けるものである。
Synthesizing realistic 3D indoor scenes is a challenging task that traditionally relies on manual arrangement and annotation by expert designers. Recent advances in autoregressive models have automated this process, but they often lack semantic understanding of the relationships and hierarchies present in real-world scenes, yielding limited performance. In this paper, we propose Forest2Seq, a framework that formulates indoor scene synthesis as an order-aware sequential learning problem. Forest2Seq organizes the inherently unordered collection of scene objects into structured, ordered hierarchical scene trees and forests. By employing a clustering-based algorithm and a breadth-first traversal, Forest2Seq derives meaningful orderings and utilizes a transformer to generate realistic 3D scenes autoregressively. Experimental results on standard benchmarks demonstrate Forest2Seq's superiority in synthesizing more realistic scenes compared to top-performing baselines, with significant improvements in FID and KL scores. Our additional experiments for downstream tasks and ablation studies also confirm the importance of incorporating order as a prior in 3D scene generation. | 翻訳日:2024-07-09 19:57:34 公開日:2024-07-07 |
# 水中画像強調のためのイメージコンディション拡散変換器
Image-Conditional Diffusion Transformer for Underwater Image Enhancement ( http://arxiv.org/abs/2407.05389v1 ) ライセンス: Link先を確認 | Xingyang Nie, Su Pan, Xiaoyu Zhai, Shifei Tao, Fengzhong Qu, Biao Wang, Huilin Ge, Guojie Xiao, | (参考訳) 水中画像強調(UIE)は水中操作と海洋工学の重要性から注目されている。
画像条件拡散変換器(ICDT)を用いた新しいUIE法を提案する。
本手法は, 劣化した水中画像を条件入力とし, ICDTを適用した潜時空間に変換する。
ICDTは、分散確率モデル(DDPM)の従来のU-Netバックボーンをトランスフォーマーに置き換え、トランスフォーマーからのスケーラビリティなどの良好な特性を継承する。
さらに,分散を伴うハイブリッド損失関数を用いてICDTを訓練し,より優れたログ類似性を実現するとともに,サンプリング処理を著しく高速化する。
ICDTのスケーラビリティを実験的に評価し、水中画像NetデータセットにおけるUIEの以前の成果と比較する。
優れたスケーリング特性に加えて、最大のモデルであるICDT-XL/2は、画像強調の最先端(SOTA)品質を達成し、すべての比較手法より優れています。
Underwater image enhancement (UIE) has attracted much attention owing to its importance for underwater operation and marine engineering. Motivated by the recent advance in generative models, we propose a novel UIE method based on image-conditional diffusion transformer (ICDT). Our method takes the degraded underwater image as the conditional input and converts it into latent space where ICDT is applied. ICDT replaces the conventional U-Net backbone in a denoising diffusion probabilistic model (DDPM) with a transformer, and thus inherits favorable properties such as scalability from transformers. Furthermore, we train ICDT with a hybrid loss function involving variances to achieve better log-likelihoods, which meanwhile significantly accelerates the sampling process. We experimentally assess the scalability of ICDTs and compare with prior works in UIE on the Underwater ImageNet dataset. Besides good scaling properties, our largest model, ICDT-XL/2, outperforms all comparison methods, achieving state-of-the-art (SOTA) quality of image enhancement. | 翻訳日:2024-07-09 19:47:49 公開日:2024-07-07 |
# 量子可観測物の多重ショットラベリング
Multiple-shot labeling of quantum observables ( http://arxiv.org/abs/2407.05392v1 ) ライセンス: Link先を確認 | Seyed Arash Ghoreishi, Nidhin Sudarsanan Ragini, Mario Ziman, Sk Sazim, | (参考訳) 量子可観測性識別タスクの特定のクラスが[Physical Review A 109, 052415 (2024)]で紹介された。
この作業では、与えられた測定装置の単一実装が利用可能である「単一ショット」方式でタスクを調査した。
本研究では,非バイナリオブザーバブルのタスクと,有限個の実装にアクセス可能なマルチショットシナリオについて検討する。
A particular class of quantum observable discrimination tasks, which are equivalent to identifying the outcome label associations of unlabeled observables, was introduced in [Physical Review A 109, 052415 (2024)]. In that work, the tasks were investigated within the "single-shot" regime, where a single implementation of the given measurement devices is available. In this work, we explore these tasks for non-binary observables as well as within the multiple-shot scenario, where we have access to finitely many implementations. | 翻訳日:2024-07-09 19:47:49 公開日:2024-07-07 |
# バックドアディフェンスを用いた進化的トリガー検出と軽量モデル修復
Evolutionary Trigger Detection and Lightweight Model Repair Based Backdoor Defense ( http://arxiv.org/abs/2407.05396v1 ) ライセンス: Link先を確認 | Qi Zhou, Zipeng Ye, Yubo Tang, Wenjian Luo, Yuhui Shi, Yan Jia, | (参考訳) ディープニューラルネットワーク(DNN)は、自律運転や顔認識など、多くの分野で広く利用されている。
しかし、DNNモデルはバックドア攻撃に対して脆弱である。
DNNモデルのバックドアは、トリガーによる有毒な入力によってアクティベートされ、誤った予測につながるため、アプリケーションに深刻なセキュリティ問題が発生する。
現在の防衛は、特に物理世界のようにトリガーのサイズや数が変動している場合に、限られた計算資源でバックドアを効果的に排除することは困難である。
進化的トリガ検出と軽量モデル修復に基づく効率的なバックドア防御を提案する。
CAM-focus Evolutionary Trigger Filter (CETF) をトリガ検出のための第1フェーズとして提案する。
CETFは進化的アルゴリズムを用いた効果的なサンプル前処理手法であり、実験結果から、CETFはトリガによる画像とクリーンな画像とを正確に区別するだけでなく、バックドア攻撃時の簡易性や安定性の面で広く利用することができることがわかった。
本手法の第2フェーズでは,CETFが検出したトリガをモデル修復に用いる軽量なアンラーニング手法を活用し,バックドアとバッチ正規化層との基盤的相関性を具体的に示す。
ソースコードは受理後公開される。
Deep Neural Networks (DNNs) have been widely used in many areas such as autonomous driving and face recognition. However, DNN model is fragile to backdoor attack. A backdoor in the DNN model can be activated by a poisoned input with trigger and leads to wrong prediction, which causes serious security issues in applications. It is challenging for current defenses to eliminate the backdoor effectively with limited computing resources, especially when the sizes and numbers of the triggers are variable as in the physical world. We propose an efficient backdoor defense based on evolutionary trigger detection and lightweight model repair. In the first phase of our method, CAM-focus Evolutionary Trigger Filter (CETF) is proposed for trigger detection. CETF is an effective sample-preprocessing based method with the evolutionary algorithm, and our experimental results show that CETF not only distinguishes the images with triggers accurately from the clean images, but also can be widely used in practice for its simplicity and stability in different backdoor attack situations. In the second phase of our method, we leverage several lightweight unlearning methods with the trigger detected by CETF for model repair, which also constructively demonstrate the underlying correlation of the backdoor with Batch Normalization layers. Source code will be published after accepted. | 翻訳日:2024-07-09 19:47:49 公開日:2024-07-07 |
# 予測的学生モデルのためのMADD基準に基づく公正な後処理手法
A Fair Post-Processing Method based on the MADD Metric for Predictive Student Models ( http://arxiv.org/abs/2407.05398v1 ) ライセンス: Link先を確認 | Mélina Verger, Chunyang Fan, Sébastien Lallé, François Bouchet, Vanda Luengo, | (参考訳) 予測的な学生モデルは、学習環境においてますます使われている。
しかし、それらの利用の社会的影響が増大しているため、これらのモデルが予測において十分正確かつ公平であることはより重要になっている。
アルゴリズムの公正性を評価するため、新しい計量法、すなわちモデル絶対密度距離(MADD)が教育で開発された。
本測定法は,アルゴリズム上の不公平さを定量化するために,学生の2つのグループについて,予測モデルがどう振る舞うかを計測することを可能にする。
そこで本研究では,本測定値に基づく後処理手法を開発し,関連する予測モデルの結果の精度を保ちながら,公平性を向上することを目的とする。
我々は,シミュレーションと実世界の教育データを用いて,オンラインコースにおける学生の成功を予測するタスクについて実験を行い,その結果を得た。
ソースコードとデータはhttps://github.com/melinaverger/MADD で公開されています。
Predictive student models are increasingly used in learning environments. However, due to the rising social impact of their usage, it is now all the more important for these models to be both sufficiently accurate and fair in their predictions. To evaluate algorithmic fairness, a new metric has been developed in education, namely the Model Absolute Density Distance (MADD). This metric enables us to measure how different a predictive model behaves regarding two groups of students, in order to quantify its algorithmic unfairness. In this paper, we thus develop a post-processing method based on this metric, that aims at improving the fairness while preserving the accuracy of relevant predictive models' results. We experiment with our approach on the task of predicting student success in an online course, using both simulated and real-world educational data, and obtain successful results. Our source code and data are in open access at https://github.com/melinaverger/MADD . | 翻訳日:2024-07-09 19:47:49 公開日:2024-07-07 |
# IL-TUR:インドの法律文理解と推論のためのベンチマーク
IL-TUR: Benchmark for Indian Legal Text Understanding and Reasoning ( http://arxiv.org/abs/2407.05399v1 ) ライセンス: Link先を確認 | Abhinav Joshi, Shounak Paul, Akshat Sharma, Pawan Goyal, Saptarshi Ghosh, Ashutosh Modi, | (参考訳) 世界中の法制度は、事例や文書の指数的な増加と共に浸水している。
法体系を合理化するためには、法律文書を自動的に処理し、理解するためのNLPおよびML技術を開発する必要がある。
しかし、法域に特化して設計された様々なNLPモデルの評価と比較は困難である。
本稿では, IL-TUR: Benchmark for Indian Legal Text Understanding and Reasoningを提案する。
IL-TURには、モノリンガル(英語、ヒンディー語)と多言語(インド語)のドメイン固有のタスクが含まれており、インドの法律文書に対する理解と推論の観点から、法体系の異なる側面に対処している。
各タスクのベースラインモデル(LLMベースを含む)を提示し、モデルと基礎的真理のギャップを概説する。
法律分野におけるさらなる研究を促進するために、研究コミュニティが法的テキスト理解システムをアップロードして比較できるリーダーボード(https://exploration-lab.github.io/IL-TUR/)を作成します。
Legal systems worldwide are inundated with exponential growth in cases and documents. There is an imminent need to develop NLP and ML techniques for automatically processing and understanding legal documents to streamline the legal system. However, evaluating and comparing various NLP models designed specifically for the legal domain is challenging. This paper addresses this challenge by proposing IL-TUR: Benchmark for Indian Legal Text Understanding and Reasoning. IL-TUR contains monolingual (English, Hindi) and multi-lingual (9 Indian languages) domain-specific tasks that address different aspects of the legal system from the point of view of understanding and reasoning over Indian legal documents. We present baseline models (including LLM-based) for each task, outlining the gap between models and the ground truth. To foster further research in the legal domain, we create a leaderboard (available at: https://exploration-lab.github.io/IL-TUR/) where the research community can upload and compare legal text understanding systems. | 翻訳日:2024-07-09 19:47:49 公開日:2024-07-07 |
# iSign: インド手話処理のベンチマーク
iSign: A Benchmark for Indian Sign Language Processing ( http://arxiv.org/abs/2407.05404v1 ) ライセンス: Link先を確認 | Abhinav Joshi, Romit Mohanty, Mounika Kanakanti, Andesha Mangla, Sudeep Choudhary, Monali Barbate, Ashutosh Modi, | (参考訳) Indian Sign Languageには、機械学習と自動言語処理のためのデータ駆動アプローチを開発するための限られたリソースがある。
テキスト/オーディオベースの言語処理技術は、過去数年間で膨大な研究の関心と大幅な改善を示してきたが、より多くのリソースを必要とするため、手話は追いつく必要がある。
このギャップを埋めるため、本研究では、インド手話処理(ISL)のベンチマークであるiSignを提案する。
私たちはこの仕事に3つの主要な貢献をしている。
まず、118K以上のビデオ文/フレーズペアを持つISL- Englishデータセットの1つをリリースする。
我々の知る限りでは、ISLで利用可能な最大の手話データセットである。
次に,複数の NLP 固有のタスク (SignVideo2Text, SignPose2Text, Text2Pose, Word Prediction, Sign Semantics) を提案する。
第3に、提案したベンチマークに関する詳細な洞察と、ISLの動作に関する言語的な洞察を提供する。
我々は手話処理の評価を合理化し,手話研究コミュニティにおける手話研究のギャップに対処する。
データセット、タスク、モデルを以下のWebサイトでリリースします。
Indian Sign Language has limited resources for developing machine learning and data-driven approaches for automated language processing. Though text/audio-based language processing techniques have shown colossal research interest and tremendous improvements in the last few years, Sign Languages still need to catch up due to the need for more resources. To bridge this gap, in this work, we propose iSign: a benchmark for Indian Sign Language (ISL) Processing. We make three primary contributions to this work. First, we release one of the largest ISL-English datasets with more than 118K video-sentence/phrase pairs. To the best of our knowledge, it is the largest sign language dataset available for ISL. Second, we propose multiple NLP-specific tasks (including SignVideo2Text, SignPose2Text, Text2Pose, Word Prediction, and Sign Semantics) and benchmark them with the baseline models for easier access to the research community. Third, we provide detailed insights into the proposed benchmarks with a few linguistic insights into the workings of ISL. We streamline the evaluation of Sign Language processing, addressing the gaps in the NLP research community for Sign Languages. We release the dataset, tasks, and models via the following website: https://exploration-lab.github.io/iSign/ | 翻訳日:2024-07-09 19:47:49 公開日:2024-07-07 |
# CosyVoice: 教師付きセマンティックトークンに基づくスケーラブルな多言語ゼロショットテキスト音声合成器
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens ( http://arxiv.org/abs/2407.05407v1 ) ライセンス: Link先を確認 | Zhihao Du, Qian Chen, Shiliang Zhang, Kai Hu, Heng Lu, Yexin Yang, Hangrui Hu, Siqi Zheng, Yue Gu, Ziyang Ma, Zhijie Yan, | (参考訳) 近年,大規模言語モデル (LLM) に基づくテキスト音声合成 (TTS) が主流となる傾向が見られた。
このパラダイムでは、音声信号はトークンシーケンスに識別され、LLMによってテキストをプロンプトとしてモデル化され、トークンベースのボコーダによって波形に再構成される。
明らかに、LLMベースのTSモデルでは、音声トークンが重要な役割を果たす。
現在の音声トークンは教師なしの方法で学習され、明示的な意味情報やテキストへのアライメントが欠如している。
本稿では,ベクトル量子化をエンコーダに挿入することにより,多言語音声認識モデルから導出される,教師付き意味トークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
実験結果から,教師付き意味トークンは,ゼロショット音声クローニングにおいて,コンテンツ一貫性と話者類似性の観点から,既存の教師なしトークンよりも有意に優れていた。
さらに,大規模データの利用により合成性能が向上し,CosyVoiceのスケーラビリティが向上することが判明した。
我々の知る限りでは、これはTSモデルに教師付き音声トークンを組み込む最初の試みである。
Recent years have witnessed a trend that large language model (LLM) based text-to-speech (TTS) emerges into the mainstream due to their high naturalness and zero-shot capacity. In this paradigm, speech signals are discretized into token sequences, which are modeled by an LLM with text as prompts and reconstructed by a token-based vocoder to waveforms. Obviously, speech tokens play a critical role in LLM-based TTS models. Current speech tokens are learned in an unsupervised manner, which lacks explicit semantic information and alignment to the text. In this paper, we propose to represent speech with supervised semantic tokens, which are derived from a multilingual speech recognition model by inserting vector quantization into the encoder. Based on the tokens, we further propose a scalable zero-shot TTS synthesizer, CosyVoice, which consists of an LLM for text-to-token generation and a conditional flow matching model for token-to-speech synthesis. Experimental results show that supervised semantic tokens significantly outperform existing unsupervised tokens in terms of content consistency and speaker similarity for zero-shot voice cloning. Moreover, we find that utilizing large-scale data further improves the synthesis performance, indicating the scalable capacity of CosyVoice. To the best of our knowledge, this is the first attempt to involve supervised speech tokens into TTS models. | 翻訳日:2024-07-09 19:47:49 公開日:2024-07-07 |
# リカレントニューラルネットワークを用いた合成テストデータ生成:位置紙
Synthetic Test Data Generation Using Recurrent Neural Networks: A Position Paper ( http://arxiv.org/abs/2407.05410v1 ) ライセンス: Link先を確認 | Razieh Behjati, Erik Arisholm, Chao Tan, Margrethe M. Bedregal, | (参考訳) 製品ライクなテスト環境でのテストは、多くの産業における品質保証プロセスの重要な部分です。
このようなテスト環境のプロビジョニングは、情報集約型サービスのために、さまざまなユーザシナリオをシミュレートするために、十分にリッチなデータベースをセットアップする必要がある。
プロダクションデータはおそらくゴールドスタンダードだが、多くの組織、特に公共部門では、プライバシの懸念により、テスト目的でプロダクションデータを使用することはできない。
代替手段は、匿名化されたデータ、または合成生成されたデータを使用することである。
本稿では,これらの代替案について詳述し,産業的文脈で比較する。
さらに、この目的のために、合成データ生成とリカレントニューラルネットワークの利用について検討する。
予備実験では、リカレントニューラルネットワークを用いて、代表的かつ高精度なデータを生成することができた。
これらの結果は、ここで論じる新たな研究課題を開き、今後の研究について検討する計画である。
Testing in production-like test environments is an essential part of quality assurance processes in many industries. Provisioning of such test environments, for information-intensive services, involves setting up databases that are rich-enough to enable simulating a wide variety of user scenarios. While production data is perhaps the gold-standard here, many organizations, particularly within the public sectors, are not allowed to use production data for testing purposes due to privacy concerns. The alternatives are to use anonymized data, or synthetically generated data. In this paper, we elaborate on these alternatives and compare them in an industrial context. Further we focus on synthetic data generation and investigate the use of recurrent neural networks for this purpose. In our preliminary experiments, we were able to generate representative and highly accurate data using a recurrent neural network. These results open new research questions that we discuss here, and plan to investigate in our future research. | 翻訳日:2024-07-09 19:47:49 公開日:2024-07-07 |
# 中間言語によるコード生成の評価
Assessing Code Generation with Intermediate Languages ( http://arxiv.org/abs/2407.05411v1 ) ライセンス: Link先を確認 | Xun Deng, Sicheng Zhong, Honghua Dong, Jingyu Hu, Sidi Mohamed Beillahi, Xujie Si, Fan Long, | (参考訳) 思考の連鎖(COT)のような中間段階の方法論は、コード生成におけるLLM(Large Language Models)の性能向上に有効であることを示した。
本研究では、様々なプログラミング言語、自然言語ソリューション、擬似コードを含む中間言語の利用について検討し、コード生成タスクにおけるLLMの性能への影響を体系的に評価する。
実験では、CodeLlama、GPT、Mistralファミリーにまたがる11のモデルと、新たにリリースされた小さなモデルを含む。
以上の結果から, 中間言語は一般に, 最先端性能を達成できていない大規模モデルにおいて, 高い有効性を示すことが明らかとなった。
自然言語は、全ての対象言語にまたがる最も効果的な中間表現として一貫して現れる。
しかし、異なるモデルと対象言語にまたがって、普遍的に有効な中間形式言語は見つからない。
さらに,中間解の正しさと最終生成との間には弱い相関関係がみられ,改良は言語固有の伝達よりも連鎖効果に由来する可能性が示唆された。
興味深いことに、GPTファミリーモデルでは、明示的な自己補正命令を伴わずに複数回実行することで、学習言語間で性能が向上することを発見した。
Intermediate step methodologies like chain of thoughts (COT) have demonstrated effectiveness in enhancing the performance of Large Language Models (LLMs) on code generation. This study explores the utilization of intermediate languages, including various programming languages, natural language solutions, and pseudo-code, and systematically evaluates their impact on the performance of LLMs in code generation tasks. Our experiments encompass eleven models across the CodeLlama, GPT, and Mistral families, as well as newly released smaller models. Our findings reveal that intermediate languages generally exhibit greater efficacy in larger models that have not yet achieved state-of-the-art performance. Natural language consistently emerges as the most effective intermediate representation across all target languages. However, we observe no universally effective intermediate formal language across different models and target languages. Furthermore, we uncover a weak correlation between the correctness of intermediate solutions and final generation, suggesting that improvements may stem from the chain-of-thought effect rather than language-specific transfer. Interestingly, we discover that for GPT family models, prompting multiple times without explicit self-correction instructions yields performance gains across the studied languages. | 翻訳日:2024-07-09 19:47:49 公開日:2024-07-07 |
# FM-OSD:基礎モデルによる解剖学的ランドマークのワンショット検出
FM-OSD: Foundation Model-Enabled One-Shot Detection of Anatomical Landmarks ( http://arxiv.org/abs/2407.05412v1 ) ライセンス: Link先を確認 | Juzheng Miao, Cheng Chen, Keli Zhang, Jie Chuai, Quanzheng Li, Pheng-Ann Heng, | (参考訳) 解剖学的ランドマークのワンショット検出は、最小ラベル付きデータを用いて有望な結果を生み出すことで、その効率に大きな注目を集めている。
しかし、現在の手法の成功は、有効な特徴抽出器を事前訓練するための広範囲な未ラベルデータの利用に大きく依存しており、大量の未ラベルデータが利用できないシナリオにおける適用性を制限している。
本稿では,医用画像の正確なランドマーク検出を行うための基礎モデルを用いた最初の一発ランドマーク検出(FM-OSD)フレームワークを提案する。
具体的には,視覚基盤モデルの凍結画像エンコーダを特徴抽出器として使用し,大域的特徴デコーダと局所的特徴デコーダを導入し,抽出した特徴の分解能を粗い方法で向上させる。
導入された特徴デコーダは、距離対応の類似性学習損失で効率よく訓練され、単一のテンプレート画像からドメイン知識を組み込む。
さらに, 基礎モデルにより得られた類似度マップの分散の場合, ランドマーク検出の堅牢性と精度を向上させるために, 新たな双方向マッチング戦略を開発した。
本手法を2つの公開解剖学的ランドマーク検出データセットで検証する。
本手法は,単一のテンプレート画像のみを用いることで,最先端のワンショットランドマーク検出法よりも優れていることを示す。
One-shot detection of anatomical landmarks is gaining significant attention for its efficiency in using minimal labeled data to produce promising results. However, the success of current methods heavily relies on the employment of extensive unlabeled data to pre-train an effective feature extractor, which limits their applicability in scenarios where a substantial amount of unlabeled data is unavailable. In this paper, we propose the first foundation model-enabled one-shot landmark detection (FM-OSD) framework for accurate landmark detection in medical images by utilizing solely a single template image without any additional unlabeled data. Specifically, we use the frozen image encoder of visual foundation models as the feature extractor, and introduce dual-branch global and local feature decoders to increase the resolution of extracted features in a coarse to fine manner. The introduced feature decoders are efficiently trained with a distance-aware similarity learning loss to incorporate domain knowledge from the single template image. Moreover, a novel bidirectional matching strategy is developed to improve both robustness and accuracy of landmark detection in the case of scattered similarity map obtained by foundation models. We validate our method on two public anatomical landmark detection datasets. By using solely a single template image, our method demonstrates significant superiority over strong state-of-the-art one-shot landmark detection methods. | 翻訳日:2024-07-09 19:47:49 公開日:2024-07-07 |
# SBoRA: 地域重み更新による低ランク適応
SBoRA: Low-Rank Adaptation with Regional Weight Updates ( http://arxiv.org/abs/2407.05413v1 ) ライセンス: Link先を確認 | Lai-Man Po, Yuyang Liu, Haoxuan Wu, Tianqi Zhang, Wing-Yin Yu, Zeyu Jiang, Kun Li, | (参考訳) 本稿では,Low-Rank Adaptation (LoRA) とOrthogonal Adaptation (Orthogonal Adaptation) の先駆的な業績を生かした,大規模言語モデルのためのパラメータ効率の良い微調整手法であるStandard Basis LoRA(SBoRA)を紹介する。
SBoRAは、学習性能を高めながら、LoRAの計算およびメモリ要求をさらに削減する。
直交標準基底ベクトルを利用してAまたはBのいずれかの低ランク行列を初期化することにより、SBoRAは局所的な重み更新とメモリ効率の良い微調整を可能にする。
このアプローチは、SBoRA-FAとSBoRA-FBの2つの変種を生み出し、そこでは、行列の1つだけが更新され、結果として、行や列の多数がスパース更新行列となる。
その結果、微調整されたモデルの重量の大部分は、事前訓練された重量から変化しないままとなった。
このSBoRAの特徴は、局所的な体重の更新が起こり、新しいタスクに効率的に適応する人間の脳のモジュラー構造を思い出させる。
実験の結果,Lora よりも SBoRA-FA の方が,コモンセンス推論や算術推論など,様々な微調整タスクにおいて優れていることが示された。
さらに、様々なスケールの量子化LLaMAモデルにおけるQSBoRAの有効性を評価し、新しいタスクへの効率的な適応の可能性を強調した。
コードはhttps://github.com/CityUHK-AI/SBoRAで入手できる。
This paper introduces Standard Basis LoRA (SBoRA), a novel parameter-efficient fine-tuning approach for Large Language Models that builds upon the pioneering works of Low-Rank Adaptation (LoRA) and Orthogonal Adaptation. SBoRA further reduces the computational and memory requirements of LoRA while enhancing learning performance. By leveraging orthogonal standard basis vectors to initialize one of the low-rank matrices, either A or B, SBoRA enables regional weight updates and memory-efficient fine-tuning. This approach gives rise to two variants, SBoRA-FA and SBoRA-FB, where only one of the matrices is updated, resulting in a sparse update matrix with a majority of zero rows or columns. Consequently, the majority of the fine-tuned model's weights remain unchanged from the pre-trained weights. This characteristic of SBoRA, wherein regional weight updates occur, is reminiscent of the modular organization of the human brain, which efficiently adapts to new tasks. Our empirical results demonstrate the superiority of SBoRA-FA over LoRA in various fine-tuning tasks, including commonsense reasoning and arithmetic reasoning. Furthermore, we evaluate the effectiveness of QSBoRA on quantized LLaMA models of varying scales, highlighting its potential for efficient adaptation to new tasks. Code is available at https://github.com/CityUHK-AI/SBoRA | 翻訳日:2024-07-09 19:47:49 公開日:2024-07-07 |
# DIVESPOT:ポイントクラウドに基づく物の杭の深さ積分体積推定
DIVESPOT: Depth Integrated Volume Estimation of Pile of Things Based on Point Cloud ( http://arxiv.org/abs/2407.05415v1 ) ライセンス: Link先を確認 | Yiran Ling, Rongqiang Zhao, Yixuan Shen, Dongbo Li, Jing Jin, Jie Liu, | (参考訳) 杭状物体の非接触体積推定は, 穀物, 石炭, 鉱業, 石材などの工業的シナリオにおいて大きな可能性を秘めている。
しかし、これらのシナリオに既存の手法を用いることは、不安定な測定ポーズ、大きな光干渉、トレーニングデータ収集の難しさ、大きな山による計算負担などによって困難である。
以上の課題に対処するため,本研究では,ポイントクラウド技術に基づくDIVESPOT(Depth Integrated Volume EStimation of Pile Of Things)を提案する。
不安定な計測ポーズの課題に対しては、RANSAC(Random Sample Consensus)とHDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)に基づいて、ポイントクラウドのポーズ補正とフィルタリングアルゴリズムを設計する。
光干渉に対処し、トレーニングデータに依存するのを避けるために、高さ分布に基づく地上特徴抽出アルゴリズムを提案し、RGB非依存を実現する。
計算負担を軽減するため、圧縮されたボクセルを用いて正確な推定を行うことができるように、記憶空間最適化戦略を開発する。
実験の結果, DIVESPOT法により, 杭点雲の非データ駆動RGB非依存セグメンテーションが可能であり, 体積計算相対誤差を2%以下に抑えることができた。
ボクセルメッシュを90%圧縮しても、平均誤差は3%以下である。
Non-contact volume estimation of pile-type objects has considerable potential in industrial scenarios, including grain, coal, mining, and stone materials. However, using existing method for these scenarios is challenged by unstable measurement poses, significant light interference, the difficulty of training data collection, and the computational burden brought by large piles. To address the above issues, we propose the Depth Integrated Volume EStimation of Pile Of Things (DIVESPOT) based on point cloud technology in this study. For the challenges of unstable measurement poses, the point cloud pose correction and filtering algorithm is designed based on the Random Sample Consensus (RANSAC) and the Hierarchical Density-Based Spatial Clustering of Applications with Noise (HDBSCAN). To cope with light interference and to avoid the relying on training data, the height-distribution-based ground feature extraction algorithm is proposed to achieve RGB-independent. To reduce the computational burden, the storage space optimizing strategy is developed, such that accurate estimation can be acquired by using compressed voxels. Experimental results demonstrate that the DIVESPOT method enables non-data-driven, RGB-independent segmentation of pile point clouds, maintaining a volume calculation relative error within 2%. Even with 90% compression of the voxel mesh, the average error of the results can be under 3%. | 翻訳日:2024-07-09 19:47:49 公開日:2024-07-07 |
# 半教師型医用画像分割のためのセグメンテーションモデルを用いたクロスプロンピング整合性
Cross Prompting Consistency with Segment Anything Model for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2407.05416v1 ) ライセンス: Link先を確認 | Juzheng Miao, Cheng Chen, Keli Zhang, Jie Chuai, Quanzheng Li, Pheng-Ann Heng, | (参考訳) 半教師付き学習(SSL)は,医用画像のセグメンテーションにおいて顕著な進歩を遂げている。
効率的なSSLを実現するには、限られたラベル付きデータから効率的に学習し、豊富なラベル付きデータからの知識を効果的に活用する必要がある。
SAM(Segment Anything Model)のような視覚基盤モデルの最近の発展は、サンプル効率の向上とともに顕著な適応性を示している。
SSLにおける基礎モデルのパワーを活用するために,半教師付き医用画像分割のためのセグメンテーションモデル(CPC-SAM)を用いたクロスプロンプト整合法を提案する。
本手法はSAMのユニークなプロンプト設計を用いて,2つのデコーダブランチ間でのプロンプトと監督を自動的に生成し,ラベル付きデータとラベルなしデータの両方から効果的に学習する。
さらに、新しいプロンプト整合性正規化を設計し、プロンプト位置感度を低減し、異なるプロンプト下での出力不変性を向上する。
本手法を2つの医用画像分割作業で検証する。
異なるラベル付きデータ比とモダリティを用いた広範囲な実験は、現在最先端のSSL法よりも提案手法の方が優れており、9%以上のDiceが乳がんセグメンテーションタスクで改善されている。
Semi-supervised learning (SSL) has achieved notable progress in medical image segmentation. To achieve effective SSL, a model needs to be able to efficiently learn from limited labeled data and effectively exploiting knowledge from abundant unlabeled data. Recent developments in visual foundation models, such as the Segment Anything Model (SAM), have demonstrated remarkable adaptability with improved sample efficiency. To harness the power of foundation models for application in SSL, we propose a cross prompting consistency method with segment anything model (CPC-SAM) for semi-supervised medical image segmentation. Our method employs SAM's unique prompt design and innovates a cross-prompting strategy within a dual-branch framework to automatically generate prompts and supervisions across two decoder branches, enabling effectively learning from both scarce labeled and valuable unlabeled data. We further design a novel prompt consistency regularization, to reduce the prompt position sensitivity and to enhance the output invariance under different prompts. We validate our method on two medical image segmentation tasks. The extensive experiments with different labeled-data ratios and modalities demonstrate the superiority of our proposed method over the state-of-the-art SSL methods, with more than 9% Dice improvement on the breast cancer segmentation task. | 翻訳日:2024-07-09 19:47:49 公開日:2024-07-07 |
# 分解の肩に立たせられたパラメータ効率の良い微調整について
See Further for Parameter Efficient Fine-tuning by Standing on the Shoulders of Decomposition ( http://arxiv.org/abs/2407.05417v1 ) ライセンス: Link先を確認 | Chongjie Si, Xiaokang Yang, Wei Shen, | (参考訳) 事前訓練および微調整フレームワークにおける大規模な基礎モデルの急速な拡張は、より大きなモデルがより良い結果をもたらすことがしばしばあることを暗示している。
しかし、大規模な基礎モデルのスケールアップにより、微調整とパラメータ記憶のコストが上昇し、広範囲な適応が不可能になった。
この課題はパラメータ効率の微調整(PEFT)の発展に拍車をかけたもので、パラメータの選択サブセットを最適化し、残りを固定し、計算やストレージのオーバーヘッドを大幅に削減することに焦点を当てている。
近年、PEFTで大きな成功を収めているのを目撃しているが、これらの手法の背後にある基本原理の深い理解はいまだに未解明のままである。
この目的のために、ここでは、分解の観点からそれらを分離することで、すべてのアプローチを統一する第一歩を踏み出します。
我々はこれらの手法の総合的な数学的解析を開始し、基礎となるメカニズムを深く掘り下げることができ、異なる手法間の性能の違いの背景にある理由を探る。
さらに,本理論から着想を得たPEFT手法を,PEFT技術の性能向上を目的とした簡易かつ効果的なフレームワークとともに導入した。
複数のデータセットにまたがって実施した実証実験により,これらの手法の有効性が実証され,解析的知見の指導の下で理論的妥当性と実用的性能の改善が示された。
我々の研究は、PEFTや他の技術に対する研究者の理解を深め、コミュニティ全体でのさらなる検討と研究の推進につながると信じています。
The rapid expansion of large foundation models within the pre-training and fine-tuning framework has underscored that larger models often yield better results. However, the scaling up of large foundation models has led to soaring costs in fine-tuning and parameter storage, rendering extensive adaptations impractical. This challenge has sparked the development of parameter-efficient fine-tuning (PEFT), which focuses on optimizing a select subset of parameters while keeping the rest fixed, significantly lowering computational and storage overheads. While recent years have witnessed a significant success in PEFT, a deep understanding of the fundamental principles behind these methods remains unexplored. To this end, here we take the first step to unify all approaches by dissecting them from a decomposition perspective. We initiate a comprehensive mathematical analysis of these methods, allowing us to delve deeply into their underlying mechanisms, and we explore the reasons behind the variations in performance among different techniques. Furthermore, inspired by our theoretical analysis, we introduce two novel PEFT methods alongside a simple yet effective framework designed to enhance the performance of PEFT techniques across various applications. Our empirical validations, conducted across multiple datasets, demonstrate the efficacy of these methods, showcasing both theoretical validity and practical performance improvements under the guidance of our analytical findings. We believe our work will deepen researchers' understanding of PEFT and other techniques, prompting further contemplation and advancing the research across the whole community. | 翻訳日:2024-07-09 19:47:49 公開日:2024-07-07 |
# EMBANet: 柔軟なマルチブランチアテンションネットワーク
EMBANet: A Flexible Efffcient Multi-branch Attention Network ( http://arxiv.org/abs/2407.05418v1 ) ライセンス: Link先を確認 | Keke Zu, Hu Zhang, Jian Lu, Lei Zhang, Chen Xu, | (参考訳) この研究は、入力テンソルを処理し、マルチスケール特徴写像を得るための新しいモジュール、すなわち、マルチブランチ・コンキャット(MBC)を提示する。
提案したMBCモジュールは、変換演算子の種類と分岐数を柔軟に調整することで、注目ネットワークの設計に新たな自由度(DoF)をもたらす。
この研究では、多重化と分割という2つの重要な変換作用素が考慮され、どちらもより粒度の細かいマルチスケールな特徴を表現でき、受容場の範囲を拡大することができる。
MBCとアテンションモジュールを統合することで、長距離チャネル依存性を確立するための特徴マップのチャネルワイズ相互作用を捉えるために、マルチブランチアテンション(MBA)モジュールを開発する。
提案したMBAとResNetのボトルネックブロック内の3x3畳み込みを置換することにより、最先端のバックボーンCNNモデルに容易に接続可能な、新しいブロック、EMBA(Multi-branch attention)が得られる。
さらに、EMBAブロックを積み重ねることで、EMBANetと呼ばれる新しいバックボーンネットワークを確立する。
提案するEMBANetは, 分類, 検出, セグメンテーションなどのコンピュータビジョンタスクにおいて, 広範囲に評価されている。
そして、人気のあるバックボーンよりも一貫して優れたパフォーマンスを示している。
This work presents a novel module, namely multi-branch concat (MBC), to process the input tensor and obtain the multi-scale feature map. The proposed MBC module brings new degrees of freedom (DoF) for the design of attention networks by allowing the type of transformation operators and the number of branches to be flexibly adjusted. Two important transformation operators, multiplex and split, are considered in this work, both of which can represent multi-scale features at a more granular level and increase the range of receptive fields. By integrating the MBC and attention module, a multi-branch attention (MBA) module is consequently developed to capture the channel-wise interaction of feature maps for establishing the long-range channel dependency. By substituting the 3x3 convolutions in the bottleneck blocks of the ResNet with the proposed MBA, a novel block namely efficient multi-branch attention (EMBA) is obtained, which can be easily plugged into the state-of-the-art backbone CNN models. Furthermore, a new backbone network called EMBANet is established by stacking the EMBA blocks. The proposed EMBANet is extensively evaluated on representative computer vision tasks including: classification, detection, and segmentation. And it demonstrates consistently superior performance over the popular backbones. | 翻訳日:2024-07-09 19:47:49 公開日:2024-07-07 |
# ドメイン特化手続き型ビデオ要約のためのマルチモーダル言語モデル
Multimodal Language Models for Domain-Specific Procedural Video Summarization ( http://arxiv.org/abs/2407.05419v1 ) ライセンス: Link先を確認 | Nafisa Hussain, | (参考訳) ビデオはアイデアを伝え、物語を語り、特に長期のチュートリアルを通じて詳細な指示を与える強力な媒体として機能する。
このようなチュートリアルは、自分のペースで新しいスキルを学ぶのに価値があるが、その長さと内容が密集しているため、圧倒的に多い。
視聴者はしばしば、正確な測定やステップバイステップの実行詳細といった特定の情報を求め、キーセグメントを効率的に抽出し、要約することが不可欠である。
長いビデオのハイライトを要約し、検出できるインテリジェントで時間に敏感なビデオアシスタントが注目されている。
マルチモーダル大規模言語モデルの最近の進歩は、そのようなアシスタントを開発するための有望なソリューションを提供する。
本研究では,ビデオ要約とステップ・バイ・ステップ・インストラクション生成のためのマルチモーダルモデルについて検討する。
これらのモデルは、ビデオフレーム間のアクション間の時間的出来事と関係を理解する必要がある。
提案手法は,調理や医療などの特定の領域におけるパフォーマンスを向上させるための微調整のTimeChatに焦点をあてる。
料理用のTastyや医療処置用のMedVidQAといったドメイン固有のデータセットのモデルをトレーニングすることで、指導ビデオの簡潔で正確な要約を生成する能力を高めることを目指している。
これらのデータセットをキュレートして再構成し、高品質なビデオ中心のインストラクションデータを作成する。
以上の結果から, ドメイン固有の手続きデータに微調整を施すと, TimeChatは長めの動画において, 重要な指導ステップの抽出と要約を大幅に改善できることがわかった。
本研究は、各ドメインのユニークな側面に合わせて、個別化されたステップバイステップのガイダンスを提供することにより、実践的なタスクを支援するための特殊なマルチモーダルモデルの可能性を示す。
Videos serve as a powerful medium to convey ideas, tell stories, and provide detailed instructions, especially through long-format tutorials. Such tutorials are valuable for learning new skills at one's own pace, yet they can be overwhelming due to their length and dense content. Viewers often seek specific information, like precise measurements or step-by-step execution details, making it essential to extract and summarize key segments efficiently. An intelligent, time-sensitive video assistant capable of summarizing and detecting highlights in long videos is highly sought after. Recent advancements in Multimodal Large Language Models offer promising solutions to develop such an assistant. Our research explores the use of multimodal models to enhance video summarization and step-by-step instruction generation within specific domains. These models need to understand temporal events and relationships among actions across video frames. Our approach focuses on fine-tuning TimeChat to improve its performance in specific domains: cooking and medical procedures. By training the model on domain-specific datasets like Tasty for cooking and MedVidQA for medical procedures, we aim to enhance its ability to generate concise, accurate summaries of instructional videos. We curate and restructure these datasets to create high-quality video-centric instruction data. Our findings indicate that when finetuned on domain-specific procedural data, TimeChat can significantly improve the extraction and summarization of key instructional steps in long-format videos. This research demonstrates the potential of specialized multimodal models to assist with practical tasks by providing personalized, step-by-step guidance tailored to the unique aspects of each domain. | 翻訳日:2024-07-09 19:38:04 公開日:2024-07-07 |
# BiRoDiff:二足歩行ロボットのための拡散ポリシー
BiRoDiff: Diffusion policies for bipedal robot locomotion on unseen terrains ( http://arxiv.org/abs/2407.05424v1 ) ライセンス: Link先を確認 | GVS Mothish, Manan Tayal, Shishir Kolathaya, | (参考訳) 未知の地形での移動は、二足歩行ロボットが新しい現実世界の課題に対処するために必須であり、災害対応と探索においてその実用性を拡張する。
本研究では,複数の地形で移動する単一歩行制御系を学習する軽量なフレームワークを提案する。
拡散モデルに基づくリアルタイムロボットコントローラを設計し、異なる速度の複数の動作を単一のポリシーでキャプチャするだけでなく、見えない地形でもうまく一般化する。
私たちのコントローラはオフラインデータで学習します。これはスケーラビリティやトレーニングスキームの単純さといった側面におけるオンライン学習よりも優れています。
我々は,独自の二足歩行ロボットStoch BiRoのシミュレーションにおいて,拡散モデルに基づくポリシーコントローラを設計,実装した。
我々は、その一般化能力と、巨大な搭載計算を必要とする典型的な生成モデルに対する高周波制御ステップ生成を実証した。
Locomotion on unknown terrains is essential for bipedal robots to handle novel real-world challenges, thus expanding their utility in disaster response and exploration. In this work, we introduce a lightweight framework that learns a single walking controller that yields locomotion on multiple terrains. We have designed a real-time robot controller based on diffusion models, which not only captures multiple behaviours with different velocities in a single policy but also generalizes well for unseen terrains. Our controller learns with offline data, which is better than online learning in aspects like scalability, simplicity in training scheme etc. We have designed and implemented a diffusion model-based policy controller in simulation on our custom-made Bipedal Robot model named Stoch BiRo. We have demonstrated its generalization capability and high frequency control step generation relative to typical generative models, which require huge onboarding compute. | 翻訳日:2024-07-09 19:38:04 公開日:2024-07-07 |
# 音波伝搬としての拡散:超音波画像生成のための物理モデル
Diffusion as Sound Propagation: Physics-inspired Model for Ultrasound Image Generation ( http://arxiv.org/abs/2407.05428v1 ) ライセンス: Link先を確認 | Marina Domínguez, Yordanka Velikova, Nassir Navab, Mohammad Farid Azampour, | (参考訳) ディープラーニング(DL)メソッドは通常、データ分散を効果的に学習するために大きなデータセットを必要とする。
しかし、医療分野では、データが量的に制限されることが多く、ラベル付きデータの取得にはコストがかかる。
このデータ不足を軽減するため、データ拡張技術が一般的である。
これらの技術の中で、生成モデルはデータセットの拡大において重要な役割を果たす。
しかし、超音波(US)イメージングでは、超音波物理の監視により生成されたデータの信頼性は低下することが多い。
本稿では、この画像のモダリティに特化して設計された物理に基づく拡散モデルを導入することにより、生成されたUS画像の品質を向上させるための新しいアプローチを提案する。
提案モデルは,超音波画像における音波伝搬の自然な挙動を模倣する米国固有のスケジューラ方式を取り入れたものである。
提案手法は,US画像における減衰ダイナミクスのモデル化に有効であることを示す。
提案手法は,標準生成モデル測定値に基づく定性的および定量的な結果の両方を提示する。
私たちのコードはhttps://github.com/marinadominguez/diffusion-for-us-imagesで利用可能です。
Deep learning (DL) methods typically require large datasets to effectively learn data distributions. However, in the medical field, data is often limited in quantity, and acquiring labeled data can be costly. To mitigate this data scarcity, data augmentation techniques are commonly employed. Among these techniques, generative models play a pivotal role in expanding datasets. However, when it comes to ultrasound (US) imaging, the authenticity of generated data often diminishes due to the oversight of ultrasound physics. We propose a novel approach to improve the quality of generated US images by introducing a physics-based diffusion model that is specifically designed for this image modality. The proposed model incorporates an US-specific scheduler scheme that mimics the natural behavior of sound wave propagation in ultrasound imaging. Our analysis demonstrates how the proposed method aids in modeling the attenuation dynamics in US imaging. We present both qualitative and quantitative results based on standard generative model metrics, showing that our proposed method results in overall more plausible images. Our code is available at https://github.com/marinadominguez/diffusion-for-us-images | 翻訳日:2024-07-09 19:38:04 公開日:2024-07-07 |
# LTLBench:大規模言語モデルにおける時間論理推論の評価ベンチマークに向けて
LTLBench: Towards Benchmarks for Evaluating Temporal Logic Reasoning in Large Language Models ( http://arxiv.org/abs/2407.05434v1 ) ライセンス: Link先を確認 | Weizhi Tang, Vaishak Belle, | (参考訳) 時間的推論(TR)は人工知能の重要な構成要素であり、時間的情報や出来事間の関係を理解し処理する。
大規模言語モデル(LLM)におけるTR能力の発見と研究のために,TR能力のさまざまな側面を評価するために,様々な方法で様々なデータセットが構築されている。
本研究では,ランダム指向グラフ生成,LTL式,およびNuSMVモデルチェッカーを活用することで,LLMのTR能力を評価するためのデータセット構築のためのパイプラインの設計と開発を行う新しい手法を提案する。
パイプラインに基づいて、2000のTR課題からなるベンチマークとしてLTLBenchを構築し、6つのLLMを評価した。
さらに, TR問題の複雑化とLLMの性能に及ぼすイベント数および公式演算子数の増加の影響を明らかにするために, 追加実験を行った。
LLM は TR 問題に対処する上で有望であるが, 複雑な TR に苦しむことが実証されている。
この研究は、将来のTR評価に有用なツールを提供するとともに、LLMにおけるTR能力に関する洞察を提供することができると期待している。
Temporal reasoning (TR) is a critical component of artificial intelligence, encompassing understanding and processing temporal information and relationships between events. To discover and study the TR ability in Large Language Models (LLMs), various datasets have been constructed in different ways for evaluating various aspects of TR ability. Our work proposes a novel approach to design and develop a pipeline for constructing datasets to evaluate the TR ability of LLMs by leveraging random directed graph generation, LTL formula, and the NuSMV model checker. Based on the pipeline, we have also constructed a dataset as a benchmark, namely LTLBench, consisting of 2,000 TR challenges and evaluated six LLMs with it. Furthermore, we have conducted additional experiments to discover the impact of increasing the number of events and formula operators on the complexity of TR problems and the performance of LLMs. We have demonstrated that although LLMs exhibit some promise in handling TR challenges, they still struggle with complex TR. We expect this work can offer insights into TR ability in LLMs while also providing a valuable tool for future TR evaluations. | 翻訳日:2024-07-09 19:38:04 公開日:2024-07-07 |
# LLMによるコンピュータプログラミング教育の強化:Pythonコード生成のための効果的なプロンプトエンジニアリングに関する研究
Enhancing Computer Programming Education with LLMs: A Study on Effective Prompt Engineering for Python Code Generation ( http://arxiv.org/abs/2407.05437v1 ) ライセンス: Link先を確認 | Tianyu Wang, Nianjun Zhou, Zhixiong Chen, | (参考訳) 大規模言語モデル(LLM)とプロンプトエンジニアリングは、パーソナライズされた教育を通じてコンピュータプログラミング教育を前進させる大きな可能性を秘めている。
本論では, 多様な教育ニーズに合わせた迅速な技術戦略の体系的分類, それらの能力を超えた複雑な問題を解決するためのLLMの強化, それらの戦略を評価・実装するための堅牢な枠組みの確立, という3つの重要な研究課題について検討する。
本手法では,教育的要件に基づいてプログラミング質問を分類し,様々な迅速なエンジニアリング戦略を適用し,LLM生成応答の有効性を評価する。
GPT-4o、GPT-4o、Llama3-8b、Mixtral-8x7bによるLeetCodeやUSACOのようなデータセットの実験では、GPT-4oは、特に"複数ステップ"のプロンプト戦略において、他のモデルよりも一貫して優れていることが示されている。
提案手法は, 基礎学習, 競争準備, 高度な問題解決に推奨される具体的な戦略により, LLM性能を著しく向上させることが示唆された。
本研究は, LLMの教育効果を最大化する上で, ファシリテーター・エンジニアリングが果たす重要な役割を浮き彫りにするものである。
これらの戦略を体系的に分類し,テストすることにより,LLMに基づく学習体験を最適化するための教育者および学生の総合的な枠組みを提供する。
今後の研究は、これらの戦略を洗練し、コンピュータプログラミング教育における教育的成果をさらに高めるために、現在のLLMの限界に対処することに集中すべきである。
Large language models (LLMs) and prompt engineering hold significant potential for advancing computer programming education through personalized instruction. This paper explores this potential by investigating three critical research questions: the systematic categorization of prompt engineering strategies tailored to diverse educational needs, the empowerment of LLMs to solve complex problems beyond their inherent capabilities, and the establishment of a robust framework for evaluating and implementing these strategies. Our methodology involves categorizing programming questions based on educational requirements, applying various prompt engineering strategies, and assessing the effectiveness of LLM-generated responses. Experiments with GPT-4, GPT-4o, Llama3-8b, and Mixtral-8x7b models on datasets such as LeetCode and USACO reveal that GPT-4o consistently outperforms others, particularly with the "multi-step" prompt strategy. The results show that tailored prompt strategies significantly enhance LLM performance, with specific strategies recommended for foundational learning, competition preparation, and advanced problem-solving. This study underscores the crucial role of prompt engineering in maximizing the educational benefits of LLMs. By systematically categorizing and testing these strategies, we provide a comprehensive framework for both educators and students to optimize LLM-based learning experiences. Future research should focus on refining these strategies and addressing current LLM limitations to further enhance educational outcomes in computer programming instruction. | 翻訳日:2024-07-09 19:38:04 公開日:2024-07-07 |
# Si/SiGe量子ドットにおける個々の電荷変動器の安定化
Stabilizing an individual charge fluctuator in a Si/SiGe quantum dot ( http://arxiv.org/abs/2407.05439v1 ) ライセンス: Link先を確認 | Feiyang Ye, Ammar Ellaboudy, John M. Nichol, | (参考訳) 電荷ノイズは、シリコンスピン量子ビットにおけるゲート密度の改善の大きな障害である。
デバイス製造の改善、動的デカップリング、リアルタイムパラメータ推定など、電荷ノイズを軽減するための多くの方法が存在する。
本研究では,半導体量子ドットにおける電荷ノイズを低減させる新しい手法を,ノイズ源自体を制御することによって実証する。
2つの古典的フィードバック法を用いて、Si/SiGe量子ドット内の個々の電荷の2レベルゆらぎを安定化する。
これらの制御方法は、ノイズパワースペクトルの低周波成分を桁違いに低減する。
これらの技術は、どちらの状態でも揺らぎ器を安定化させることも可能である。
将来的には、量子ドットスピン量子ビットにおけるコヒーレンス時間の改善が期待できる。
Charge noise is a major obstacle to improved gate fidelities in silicon spin qubits. Numerous methods exist to mitigate charge noise, including improving device fabrication, dynamical decoupling, and real-time parameter estimation. In this work, we demonstrate a new class of techniques to mitigate charge noise in semiconductor quantum dots by controlling the noise sources themselves. Using two different classical feedback methods, we stabilize an individual charged two-level fluctuator in a Si/SiGe quantum dot. These control methods reduce the low-frequency component of the noise power spectrum by an order of magnitude. These techniques also enable stabilizing the fluctuator in either of its states. In the future, such techniques may enable improved coherence times in quantum-dot spin qubits. | 翻訳日:2024-07-09 19:38:04 公開日:2024-07-07 |
# 説明可能なAI: 基礎疾患分類のための正常および拡張ResNetモデルの比較分析
Explainable AI: Comparative Analysis of Normal and Dilated ResNet Models for Fundus Disease Classification ( http://arxiv.org/abs/2407.05440v1 ) ライセンス: Link先を確認 | P. N. Karthikayan, Yoga Sri Varshan V, Hitesh Gupta Kattamuri, Umarani Jayaraman, | (参考訳) 本稿では網膜基底像からの疾患分類のための拡張Residual Network(ResNet)モデルを提案する。
拡張畳み込みフィルタは、ResNetモデル(Dilated ResNet)の上位層における通常の畳み込みフィルタを置き換えるために用いられる。
本研究では,ディープラーニングを応用し,説明可能なAI技術によって強化されたコンピュータ支援診断ツールを紹介する。
これらのテクニックは、ツールの意思決定プロセスを透過的にすることで、医療専門家がAIの診断決定を理解し、信頼することを可能にします。
それらは、信頼性と倫理的使用を保証するために、AIアプリケーションに透明性を求める声が高まっている、今日のヘルスケアの状況に特に関係している。
拡張ResNetは、網膜眼疾患の分類精度を高め、必要な計算時間を短縮するために、通常のResNetの代替として使用される。
この研究で使用されるデータセットは眼疾患知能認識(Ocular Disease Intelligent Recognition, ODIR)データセットである。
この研究で使用される評価指標には、精度、リコール、精度、F1スコアが含まれる。
本研究では、ResNet-18、ResNet-34、ResNet-50、ResNet-101、ResNet-152の5種類のモデルに対して、通常のResNetモデルと拡張ResNetモデルの比較研究を行った。
The dilated ResNet model showed promising results than normal ResNet with average F1 score of 0.71, 0.70, 0.69, 0.67, 0.70 for the each variants in ODIR multiclass disease classification。
This paper presents dilated Residual Network (ResNet) models for disease classification from retinal fundus images. Dilated convolution filters are used to replace normal convolution filters in the higher layers of the ResNet model (dilated ResNet) in order to improve the receptive field compared to the normal ResNet model for disease classification. This study introduces computer-assisted diagnostic tools that employ deep learning, enhanced with explainable AI techniques. These techniques aim to make the tool's decision-making process transparent, thereby enabling medical professionals to understand and trust the AI's diagnostic decision. They are particularly relevant in today's healthcare landscape, where there is a growing demand for transparency in AI applications to ensure their reliability and ethical use. The dilated ResNet is used as a replacement for the normal ResNet to enhance the classification accuracy of retinal eye diseases and reduce the required computing time. The dataset used in this work is the Ocular Disease Intelligent Recognition (ODIR) dataset which is a structured ophthalmic database with eight classes covering most of the common retinal eye diseases. The evaluation metrics used in this work include precision, recall, accuracy, and F1 score. In this work, a comparative study has been made between normal ResNet models and dilated ResNet models on five variants namely ResNet-18, ResNet-34, ResNet-50, ResNet-101, and ResNet-152. The dilated ResNet model shows promising results as compared to normal ResNet with an average F1 score of 0.71, 0.70, 0.69, 0.67, and 0.70 respectively for the above respective variants in ODIR multiclass disease classification. | 翻訳日:2024-07-09 19:38:04 公開日:2024-07-07 |
# 推薦における協調的信号を符号化する言語モデル
Language Models Encode Collaborative Signals in Recommendation ( http://arxiv.org/abs/2407.05441v1 ) ライセンス: Link先を確認 | Leheng Sheng, An Zhang, Yi Zhang, Yuxin Chen, Xiang Wang, Tat-Seng Chua, | (参考訳) 近年の研究では、言語モデル(LM)が単なる意味論を超えた豊かな世界知識を符号化し、様々な分野において大きな注目を集めていることが実証されている。
しかし、レコメンデーション領域では、LMが暗黙的にユーザの好み情報をエンコードするかどうかは不明である。
LMと従来のレコメンダモデルが言語と行動モデリングの目的に大きなギャップがあるため、2つの異なる表現空間を学習するという一般的な理解とは対照的に、この研究はそのような理解を再考し、言語表現空間から直接レコメンデーション空間を抽出することを模索する。
意外なことに、先進的なLM表現から線形にマッピングされた項目表現は、より優れたレコメンデーション性能が得られることを示した。
この結果は、言語表現空間と効果的なレコメンデーション空間の間の準同型を示唆し、協調的な信号が実際に高度なLM内に符号化されることを示唆している。
これらの知見に触発されて、従来のIDベースの埋め込みではなく、アイテムテキストメタデータ(タイトルなど)の言語表現を利用するAlphaRecという、シンプルで効果的な協調フィルタリング(CF)モデルを提案する。
具体的には、AlphaRecは、多層パーセプトロン(MLP)、グラフ畳み込み、コントラスト学習(CL)損失関数の3つの主要コンポーネントで構成されており、実装とトレーニングが極めて容易である。
実験の結果、AlphaRecは複数のデータセット上で主要なIDベースのCFモデルよりも優れており、このレベルのパフォーマンスを達成するためのテキスト埋め込みによるレコメンデータの最初のインスタンスであることがわかった。
さらに、AlphaRecは新しい言語表現ベースのCFパラダイムを導入し、実装が容易で、軽量で、迅速な収束、新しいドメインで優れたゼロショットレコメンデーション能力、ユーザの意図を認識している。
Recent studies empirically indicate that language models (LMs) encode rich world knowledge beyond mere semantics, attracting significant attention across various fields. However, in the recommendation domain, it remains uncertain whether LMs implicitly encode user preference information. Contrary to the prevailing understanding that LMs and traditional recommender models learn two distinct representation spaces due to a huge gap in language and behavior modeling objectives, this work rethinks such understanding and explores extracting a recommendation space directly from the language representation space. Surprisingly, our findings demonstrate that item representations, when linearly mapped from advanced LM representations, yield superior recommendation performance. This outcome suggests the homomorphism between the language representation space and an effective recommendation space, implying that collaborative signals may indeed be encoded within advanced LMs. Motivated by these findings, we propose a simple yet effective collaborative filtering (CF) model named AlphaRec, which utilizes language representations of item textual metadata (e.g., titles) instead of traditional ID-based embeddings. Specifically, AlphaRec is comprised of three main components: a multilayer perceptron (MLP), graph convolution, and contrastive learning (CL) loss function, making it extremely easy to implement and train. Our empirical results show that AlphaRec outperforms leading ID-based CF models on multiple datasets, marking the first instance of such a recommender with text embeddings achieving this level of performance. Moreover, AlphaRec introduces a new language-representation-based CF paradigm with several desirable advantages: being easy to implement, lightweight, rapid convergence, superior zero-shot recommendation abilities in new domains, and being aware of user intention. | 翻訳日:2024-07-09 19:38:04 公開日:2024-07-07 |
# セキュリティの認識,プライバシの認識,および電子支払アプリケーションのユニバーサルデザインに向けて
Towards Perceived Security, Perceived Privacy, and the Universal Design of E-Payment Applications ( http://arxiv.org/abs/2407.05446v1 ) ライセンス: Link先を確認 | Urvashi Kishnani, Isabella Cardenas, Jailene Castillo, Rosalyn Conry, Lukas Rodwin, Rika Ruiz, Matthew Walther, Sanchari Das, | (参考訳) 新型コロナウイルス(COVID-19)のパンデミックを契機に、デジタル通貨取引やキャッシュレス支払いが増加し、電子決済アプリケーションの利用が増加している。
したがって、e支払いアプリケーションの現在の姿勢を、セキュリティ、プライバシ、ユーザビリティの3つの主要な視点から理解し、評価することが不可欠である。
そこで私たちは,ユーザとテストしたい機能を含む電子支払いアプリケーションの高忠実なプロトタイプを作成しました。
その後、パイロット調査を行い、プロトタイプをテストした12人の参加者を募集しました。
セキュリティとプライバシの両方が、E支払いアプリケーションのユーザにとって重要であることが分かっています。
さらに、一部の参加者は、アプリケーションのユーザビリティに基づいて、セキュリティとプライバシの強さを認識している。
電子支払アプリケーションのユニバーサルデザインのようなレコメンデーションを提供する。
With the growth of digital monetary transactions and cashless payments, encouraged by the COVID-19 pandemic, use of e-payment applications is on the rise. It is thus imperative to understand and evaluate the current posture of e-payment applications from three major user-facing angles: security, privacy, and usability. To this, we created a high-fidelity prototype of an e-payment application that encompassed features that we wanted to test with users. We then conducted a pilot study where we recruited 12 participants who tested our prototype. We find that both security and privacy are important for users of e-payment applications. Additionally, some participants perceive the strength of security and privacy based on the usability of the application. We provide recommendations such as universal design of e-payment applications. | 翻訳日:2024-07-09 19:38:04 公開日:2024-07-07 |
# 室内環境認識のためのクラスタ距離予測による自己教師付き学習
Self-supervised Learning via Cluster Distance Prediction for Operating Room Context Awareness ( http://arxiv.org/abs/2407.05448v1 ) ライセンス: Link先を確認 | Idris Hamoud, Alexandros Karargyris, Aidean Sharghi, Omid Mohareri, Nicolas Padoy, | (参考訳) セマンティックセグメンテーション(Semantic segmentation)とアクティビティ分類(Activity classification)は、インテリジェントな手術システムを構築する上で重要な要素である。
オペレーティング・ルームでは、セマンティックセグメンテーションは、臨床環境を意識したロボットを作る中心であり、アクティビティ分類は、より高いレベルでORワークフローを理解することを目的としている。
最先端のセマンティックセグメンテーションとアクティビティ認識アプローチは、スケーラブルではない、完全に管理されている。
自己監督は、必要な注釈付きデータの量を減らすことができる。
ToFカメラで撮影したORシーン画像を利用したORシーン理解のための新しい3次元自己教師型タスクを提案する。
2次元画像の特徴に着目した手作りのプレテクスチャタスクと対照的に,提案課題は深度マップを利用して画像パッチの相対的な3次元距離を予測することである。
3次元空間コンテキストの学習は、下流タスクの識別的特徴を生成する。
本手法は臨床シナリオから得られた多視点データを含む2つのタスクとデータセットを用いて評価する。
特に,自己教師型学習の活用が最多である低レジデータ上では,両タスクのパフォーマンスが顕著に向上することを示す。
Semantic segmentation and activity classification are key components to creating intelligent surgical systems able to understand and assist clinical workflow. In the Operating Room, semantic segmentation is at the core of creating robots aware of clinical surroundings, whereas activity classification aims at understanding OR workflow at a higher level. State-of-the-art semantic segmentation and activity recognition approaches are fully supervised, which is not scalable. Self-supervision can decrease the amount of annotated data needed. We propose a new 3D self-supervised task for OR scene understanding utilizing OR scene images captured with ToF cameras. Contrary to other self-supervised approaches, where handcrafted pretext tasks are focused on 2D image features, our proposed task consists of predicting the relative 3D distance of image patches by exploiting the depth maps. Learning 3D spatial context generates discriminative features for our downstream tasks. Our approach is evaluated on two tasks and datasets containing multi-view data captured from clinical scenarios. We demonstrate a noteworthy improvement of performance on both tasks, specifically on low-regime data where utility of self-supervised learning is the highest. | 翻訳日:2024-07-09 19:38:04 公開日:2024-07-07 |
# SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformer for Text Detoxification (英語)
SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformers for Text Detoxification ( http://arxiv.org/abs/2407.05449v1 ) ライセンス: Link先を確認 | Elisei Rykov, Konstantin Zaytsev, Ivan Anisimov, Alexandr Voronin, | (参考訳) 本稿では,SmurfCat チームの PAN-2024 コンペティションにおける多言語テキストの解法を提案する。
機械翻訳によるデータ拡張と特別なフィルタリング手法を用いて,テキストのデトックス化のための追加の多言語並列データセットを収集した。
得られたデータを用いて,mT0 や Aya などの多言語列列列列モデルをテキストデトックス化タスクで微調整した。
最終モデルにORPOアライメント手法を適用した。
我々の最終モデルはわずか37億のパラメータしか持たず、ウクライナ語の最先端結果と他の言語の最先端結果が得られる。
競技では, 自動評価では0.52点, 最終評価では0.74点で2位となった。
This paper presents a solution for the Multilingual Text Detoxification task in the PAN-2024 competition of the SmurfCat team. Using data augmentation through machine translation and a special filtering procedure, we collected an additional multilingual parallel dataset for text detoxification. Using the obtained data, we fine-tuned several multilingual sequence-to-sequence models, such as mT0 and Aya, on a text detoxification task. We applied the ORPO alignment technique to the final model. Our final model has only 3.7 billion parameters and achieves state-of-the-art results for the Ukrainian language and near state-of-the-art results for other languages. In the competition, our team achieved first place in the automated evaluation with a score of 0.52 and second place in the final human evaluation with a score of 0.74. | 翻訳日:2024-07-09 19:38:04 公開日:2024-07-07 |
# 実世界と合成車両の前方カメラ画像のためのセマンティックセグメンテーション
Semantic Segmentation for Real-World and Synthetic Vehicle's Forward-Facing Camera Images ( http://arxiv.org/abs/2407.05452v1 ) ライセンス: Link先を確認 | Tuan T. Nguyen, Phan Le, Yasir Hassan, Mina Sartipi, | (参考訳) 本稿では,第5回Smoky Mountains Computational Sciences Data Challenge, Challenge 3を提出する。
これは、車両の前向きカメラからの実世界の画像と合成画像の両方におけるセマンティックセグメンテーション問題の解決策である。
我々は、日当たり、雪量、雨量などの異なる屋外状況の諸領域でよく機能するロバストモデルの構築に注力する。
特に,本手法はモデル開発とドメイン適応の2つの方向で開発されている。
モデル開発では,高分解能ネットワーク(HRNet)をベースラインとして使用する。
次に、このベースラインsは、オブジェクトコンテキスト表現(OCR)と階層的マルチスケール注意(HMA)の2つの粗大なモデルによって処理され、より堅牢な機能を得る。
ドメイン適応のために、ドメインベースのバッチ正規化(DNB)を実装し、多様なドメインからの分散シフトを減らす。
提案手法は, 81.259 平均交叉結合 (mIoU) を検証セットで生成する。
本稿では,意味的セグメンテーション問題における領域適応のための実世界のデータと合成データの併用の有効性について検討する。
In this paper, we present the submission to the 5th Annual Smoky Mountains Computational Sciences Data Challenge, Challenge 3. This is the solution for semantic segmentation problem in both real-world and synthetic images from a vehicle s forward-facing camera. We concentrate in building a robust model which performs well across various domains of different outdoor situations such as sunny, snowy, rainy, etc. In particular, our method is developed with two main directions: model development and domain adaptation. In model development, we use the High Resolution Network (HRNet) as the baseline. Then, this baseline s result is processed by two coarse-to-fine models: Object-Contextual Representations (OCR) and Hierarchical Multi-scale Attention (HMA) to get the better robust feature. For domain adaption, we implement the Domain-Based Batch Normalization (DNB) to reduce the distribution shift from diverse domains. Our proposed method yield 81.259 mean intersection-over-union (mIoU) in validation set. This paper studies the effectiveness of employing real-world and synthetic data to handle the domain adaptation in semantic segmentation problem. | 翻訳日:2024-07-09 19:38:04 公開日:2024-07-07 |
# イジングモデルとライドバーグ原子配列における量子超臨界
Quantum Supercriticality in the Ising Model and Rydberg Atom Array ( http://arxiv.org/abs/2407.05455v1 ) ライセンス: Link先を確認 | Junsen Wang, Enze Lv, Xinyang Li, Yuliang Jin, Wei Li, | (参考訳) 普遍的なスケーリングの挙動を特徴とする超臨界性は、古典的な液体ガス臨界点に接近する興味深い現象として現れる。
本研究では,この重要な概念を量子臨界点(QCP)近傍の量子多体系に拡張し,テンソルネットワーク計算とIsingモデルとRydberg原子配列のスケーリング解析を行った。
超臨界で流体的な量子状態は、強いゆらぎと強く絡み合っていることが示され、その性質は、サセプティビリティの普遍的なスケーリングによって特徴づけられる: $\chi_z \sim (h_x-h_x^c)^{-\gamma}$, correlation length $\xi \sim (h_x-h_x^c)^{-\nu}$, fidelity susceptibility $\chi_F \sim (h_x -h_x^c)^{d\nu - 2}$, and entanglement entropy $S_{\rm E} \sim \ln{(h_x -h_x^c)}$。
ここで、$\gamma$ と $\nu$ は臨界指数を表し、$d$ は系の次元であり、$h_x^c$ はイジング QCP の臨界逆体である。
普遍的スケーリングの挙動は、2つの超臨界交叉線(h_z$-$h_x$)平面、$|h_z| \propto (h_x - h_x^c)^{\beta + \gamma}$ で囲まれた体制で明らかにされる。
Rydberg原子配列と量子イジング磁石は、創発的な超臨界現象を探索し、普遍的なスケーリングを特定するための利用可能なプラットフォームを提供する。
本研究は、磁気システムおよび量子シミュレーションによる量子超臨界の探索の基礎を確立する。
Supercriticality, featured with universal scaling behaviors, emerges as an intriguing phenomenon proximate to the classical liquid-gas critical point. In this study, we extend this significant concept to quantum many-body systems near the quantum critical point (QCP), employing tensor network calculations and scaling analyses of the Ising model and Rydberg atom array. The supercritical, fluid-like, quantum states are found to be strongly fluctuating and highly entangled, as characterized by the universal scalings in susceptibility $\chi_z \sim (h_x-h_x^c)^{-\gamma}$, correlation length $\xi \sim (h_x-h_x^c)^{-\nu}$, fidelity susceptibility $\chi_F \sim (h_x - h_x^c)^{d\nu - 2}$, and entanglement entropy $S_{\rm E} \sim \ln{(h_x - h_x^c)}$. Here, $\gamma$ and $\nu$ represent critical exponents, $d$ is the dimension of the system, and $h_x^c$ is the critical transverse field of the Ising QCP. The universal scaling behaviors are revealed in the regime enclosed by two quantum supercritical crossover lines in the longitudinal-transverse field ($h_z$-$h_x$) plane, $|h_z| \propto (h_x - h_x^c)^{\beta + \gamma}$ relating to critical exponents $\beta$ and $\gamma$, where the response functions, measures of entanglement, and fidelity susceptibility reach their maxima. We propose that Rydberg atom arrays and quantum Ising magnets provide available platforms for exploring emergent supercritical phenomena and identifying the universal scalings. The present work establishes a foundation for exploring quantum supercriticality in magnetic systems and through quantum simulations. | 翻訳日:2024-07-09 19:38:04 公開日:2024-07-07 |
# 認知診断モデルに関する調査研究 : 新たな展開と今後の方向性
A Survey of Models for Cognitive Diagnosis: New Developments and Future Directions ( http://arxiv.org/abs/2407.05458v1 ) ライセンス: Link先を確認 | Fei Wang, Weibo Gao, Qi Liu, Jiatong Li, Guanhao Zhao, Zheng Zhang, Zhenya Huang, Mengxiao Zhu, Shijin Wang, Wei Tong, Enhong Chen, | (参考訳) 認知診断は、能力レベルや知識熟達といった人間の認知状態を評価する効果的な測定ツールとして、何十年にもわたって開発されてきた。
教育、スポーツ、心理学的診断など幅広い分野に適用されている。
認知状態に対するより良い認識を提供することにより、十分に設計された医療、教育戦略、職業訓練などのパーソナライズされたサービスの基盤となることができる。
本研究の目的は,認知診断の現在のモデルについて,機械学習を用いた新たな展開に注目した調査を行うことである。
モデル構造,パラメータ推定アルゴリズム,モデル評価方法,適用例を比較して,認知診断モデルの最近の傾向を概観する。
さらに,探索にふさわしい今後の方向性についても論じる。
さらに、我々は2つのPythonライブラリをリリースしています。EduDataは、私たちが収集した関連する公開データセットへのアクセスを簡単にし、EduCDMは、人気のあるCDMを実装し、アプリケーションと研究の両方の目的を容易にします。
Cognitive diagnosis has been developed for decades as an effective measurement tool to evaluate human cognitive status such as ability level and knowledge mastery. It has been applied to a wide range of fields including education, sport, psychological diagnosis, etc. By providing better awareness of cognitive status, it can serve as the basis for personalized services such as well-designed medical treatment, teaching strategy and vocational training. This paper aims to provide a survey of current models for cognitive diagnosis, with more attention on new developments using machine learning-based methods. By comparing the model structures, parameter estimation algorithms, model evaluation methods and applications, we provide a relatively comprehensive review of the recent trends in cognitive diagnosis models. Further, we discuss future directions that are worthy of exploration. In addition, we release two Python libraries: EduData for easy access to some relevant public datasets we have collected, and EduCDM that implements popular CDMs to facilitate both applications and research purposes. | 翻訳日:2024-07-09 19:38:04 公開日:2024-07-07 |
# CAV-AD: CAVネットワークにおける異常データと異常センサの検出のためのロバストフレームワーク
CAV-AD: A Robust Framework for Detection of Anomalous Data and Malicious Sensors in CAV Networks ( http://arxiv.org/abs/2407.05461v1 ) ライセンス: Link先を確認 | Md Sazedur Rahman, Mohamed Elmahallawy, Sanjay Madria, Samuel Frimpong, | (参考訳) コネクテッド・アンド・オートマチック・ビークル(CAV)の採用は、公共交通機関、地下鉱業、農業など様々な産業で大きな関心を集めている。
しかし、CAVはセンサーの読み取りに頼っているため、重大な脅威に弱い。
これらの読み取りを操作することは、CAVネットワークのセキュリティを損なう可能性がある。
CAVネットワークに対するいくつかの異常検出(AD)アプローチが提案されているが、しばしば失敗する。
一 特定のセンサにおける複数の異常を高精度又はF1スコアで検出し、
二 攻撃されている特定のセンサを特定すること。
そこで本研究では,複数の異常データ中の異常読みを識別し,悪意のあるセンサを識別する,CAVネットワークに適した新しいフレームワークであるCAV-ADを提案する。
具体的には、CAV-ADは2つの主成分から構成される。
一 最適化オムニスケールCNN(O-OS-CNN)と呼ばれる新しいCNNモデルアーキテクチャで、入力時系列データに対して可能なカーネルサイズをすべて生成し、最適な時間スケールを選択する。
二 異常読影の値を高めるための増幅ブロックであって、異常を検出するための感度を高めること。
それだけでなく、CAV-ADは提案されたO-OS-CNNとカルマンフィルタを統合し、悪意のあるセンサーを即座に識別する。
我々は,同時攻撃と定常攻撃の両方を含む実世界のデータセットを用いてCAV-ADを広範囲に訓練し,複数の異常から侵入を検出する際の性能を評価し,より困難なシナリオを示す。
以上の結果から,CAV-ADの精度は98%,F1スコアは99%と高い結果を得た。
The adoption of connected and automated vehicles (CAVs) has sparked considerable interest across diverse industries, including public transportation, underground mining, and agriculture sectors. However, CAVs' reliance on sensor readings makes them vulnerable to significant threats. Manipulating these readings can compromise CAV network security, posing serious risks for malicious activities. Although several anomaly detection (AD) approaches for CAV networks are proposed, they often fail to: i) detect multiple anomalies in specific sensor(s) with high accuracy or F1 score, and ii) identify the specific sensor being attacked. In response, this paper proposes a novel framework tailored to CAV networks, called CAV-AD, for distinguishing abnormal readings amidst multiple anomaly data while identifying malicious sensors. Specifically, CAV-AD comprises two main components: i) A novel CNN model architecture called optimized omni-scale CNN (O-OS-CNN), which optimally selects the time scale by generating all possible kernel sizes for input time series data; ii) An amplification block to increase the values of anomaly readings, enhancing sensitivity for detecting anomalies. Not only that, but CAV-AD integrates the proposed O-OS-CNN with a Kalman filter to instantly identify the malicious sensors. We extensively train CAV-AD using real-world datasets containing both instant and constant attacks, evaluating its performance in detecting intrusions from multiple anomalies, which presents a more challenging scenario. Our results demonstrate that CAV-AD outperforms state-of-the-art methods, achieving an average accuracy of 98% and an average F1 score of 89\%, while accurately identifying the malicious sensors. | 翻訳日:2024-07-09 19:38:04 公開日:2024-07-07 |
# 検索型蒸留によるタスクエキスパートの育成
Training Task Experts through Retrieval Based Distillation ( http://arxiv.org/abs/2407.05463v1 ) ライセンス: Link先を確認 | Jiaxin Ge, Xueying Jia, Vijay Viswanathan, Hongyin Luo, Graham Neubig, | (参考訳) 特殊タスクのためのデプロイ可能なモデルを作成する最も信頼できる方法の1つは、十分な量の高品質なタスク固有データを取得することである。
しかし、専門的なタスクでは、そのようなデータセットは存在しないことが多い。
既存の方法は、大きな言語モデル(LLM)からそのようなデータを作成し、そのような知識をより小さなモデルに蒸留することで、この問題に対処する。
しかし、これらの手法はLLMの出力の品質によって制限されており、繰り返しまたは誤ったデータを生成する傾向がある。
本研究では、まずリッチなオンラインソースからデータを取得し、その後ドメイン固有のデータに変換するRetrieval Based Distillation(ReBase)を提案する。
この方法はデータの多様性を大幅に向上させる。
さらに、ReBaseはChain-of-Thought推論を生成し、LCMの推論能力を蒸留する。
その結果,SQuADは最大7.8%,MNLIは1.37%,BigBench-Hardは1.94%向上した。
One of the most reliable ways to create deployable models for specialized tasks is to obtain an adequate amount of high-quality task-specific data. However, for specialized tasks, often such datasets do not exist. Existing methods address this by creating such data from large language models (LLMs) and then distilling such knowledge into smaller models. However, these methods are limited by the quality of the LLMs output, and tend to generate repetitive or incorrect data. In this work, we present Retrieval Based Distillation (ReBase), a method that first retrieves data from rich online sources and then transforms them into domain-specific data. This method greatly enhances data diversity. Moreover, ReBase generates Chain-of-Thought reasoning and distills the reasoning capacity of LLMs. We test our method on 4 benchmarks and results show that our method significantly improves performance by up to 7.8% on SQuAD, 1.37% on MNLI, and 1.94% on BigBench-Hard. | 翻訳日:2024-07-09 17:39:22 公開日:2024-07-07 |
# 機械学習を用いた真理実験:合成情報、偽情報、真偽情報のスペクトル分析と説明可能な分類
Experiments with truth using Machine Learning: Spectral analysis and explainable classification of synthetic, false, and genuine information ( http://arxiv.org/abs/2407.05464v1 ) ライセンス: Link先を確認 | Vishnu S. Pendyala, Madhulika Dutta, | (参考訳) 誤情報はまだ社会問題であり、Large Language Models (LLMs) の登場はそれに加えられただけである。
本稿では, 何年にもわたって研究が続けられてきたにもかかわらず, 問題がまだ解決されていない理由を, スペクトル分析, 可視化, 説明可能性の観点から, テキスト形式での合成, 虚偽, 真偽の情報を分析し, 文献における多くの解決法について考察する。
目的のための情報を表現するために、複数のデータセットに様々な埋め込み技術が使用される。
これらの埋め込みに使用されるスペクトルおよび非スペクトルの多彩な手法には、t-distributed Stochastic Neighbor Embedding (t-SNE)、主成分分析(PCA)、変分オートエンコーダ(VAE)がある。
分類は複数の機械学習アルゴリズムを用いて行われる。
局所的解釈可能なモデルに依存しない説明(LIME)、SHAP(SHapley Additive ExPlanations)、統合勾配(Integrated Gradients)が分類の説明に使用される。
分析と説明は、誤報は真の情報と非常に密接に絡み合っており、機械学習アルゴリズムは、文献の主張にもかかわらず、両者を分けるのにあまり効果的ではないことを示している。
Misinformation is still a major societal problem and the arrival of Large Language Models (LLMs) only added to it. This paper analyzes synthetic, false, and genuine information in the form of text from spectral analysis, visualization, and explainability perspectives to find the answer to why the problem is still unsolved despite multiple years of research and a plethora of solutions in the literature. Various embedding techniques on multiple datasets are used to represent information for the purpose. The diverse spectral and non-spectral methods used on these embeddings include t-distributed Stochastic Neighbor Embedding (t-SNE), Principal Component Analysis (PCA), and Variational Autoencoders (VAEs). Classification is done using multiple machine learning algorithms. Local Interpretable Model-Agnostic Explanations (LIME), SHapley Additive exPlanations (SHAP), and Integrated Gradients are used for the explanation of the classification. The analysis and the explanations generated show that misinformation is quite closely intertwined with genuine information and the machine learning algorithms are not as effective in separating the two despite the claims in the literature. | 翻訳日:2024-07-09 17:39:22 公開日:2024-07-07 |
# TensorFlowとPyTorchのバインディングが機械学習ソフトウェアの品質に与える影響について
Studying the Impact of TensorFlow and PyTorch Bindings on Machine Learning Software Quality ( http://arxiv.org/abs/2407.05466v1 ) ライセンス: Link先を確認 | Hao Li, Gopi Krishnan Rajbahadur, Cor-Paul Bezemer, | (参考訳) マシンラーニングフレームワーク(TensorFlowやPyTorchなど)のバインディングにより、フレームワークのデフォルト言語(通常はPython)とは異なるプログラミング言語を使用して、フレームワークの機能を統合することが可能になる。
本稿では,C#,Rust,Python,JavaScriptにおけるTensorFlowとPyTorchのバインディングが,5つの広く使用されているディープラーニングモデルのトレーニングおよび推論の実行において,正確性(トレーニングとテストの精度)と時間コスト(トレーニングと推論時間)の観点からソフトウェア品質に与える影響について検討する。
実験により、あるモデルがひとつのバインディングでトレーニングされ、同じフレームワークの別のバインディングでの推論に使用されることが、精度を損なうことなく明らかとなった。
我々の研究は、非デフォルトバインディングを使用することで、デフォルトのPythonバインディングと比較して、同じレベルの正確性を保ちながら、時間的コストの観点から機械学習ソフトウェアの品質を向上させることができることを初めて示しました。
Bindings for machine learning frameworks (such as TensorFlow and PyTorch) allow developers to integrate a framework's functionality using a programming language different from the framework's default language (usually Python). In this paper, we study the impact of using TensorFlow and PyTorch bindings in C#, Rust, Python and JavaScript on the software quality in terms of correctness (training and test accuracy) and time cost (training and inference time) when training and performing inference on five widely used deep learning models. Our experiments show that a model can be trained in one binding and used for inference in another binding for the same framework without losing accuracy. Our study is the first to show that using a non-default binding can help improve machine learning software quality from the time cost perspective compared to the default Python binding while still achieving the same level of correctness. | 翻訳日:2024-07-09 17:39:22 公開日:2024-07-07 |
# IBMのGen AIモデル開発を支えるインフラ
The infrastructure powering IBM's Gen AI model development ( http://arxiv.org/abs/2407.05467v1 ) ライセンス: Link先を確認 | Talia Gershon, Seetharami Seelam, Brian Belgodere, Milton Bonilla, Lan Hoang, Danny Barnett, I-Hsin Chung, Apoorve Mohan, Ming-Hung Chen, Lixiang Luo, Robert Walkup, Constantinos Evangelinos, Shweta Salaria, Marc Dombrowa, Yoonho Park, Apo Kayi, Liran Schour, Alim Alim, Ali Sydney, Pavlos Maniotis, Laurent Schares, Bernard Metzler, Bengi Karacali-Akyamac, Sophia Wen, Tatsuhiro Chiba, Sunyanan Choochotkaew, Takeshi Yoshimura, Claudia Misale, Tonia Elengikal, Kevin O Connor, Zhuoran Liu, Richard Molina, Lars Schneidenbach, James Caden, Christopher Laibinis, Carlos Fonseca, Vasily Tarasov, Swaminathan Sundararaman, Frank Schmuck, Scott Guthridge, Jeremy Cohn, Marc Eshel, Paul Muench, Runyu Liu, William Pointer, Drew Wyskida, Bob Krull, Ray Rose, Brent Wolfe, William Cornejo, John Walter, Colm Malone, Clifford Perucci, Frank Franco, Nigel Hinds, Bob Calio, Pavel Druyan, Robert Kilduff, John Kienle, Connor McStay, Andrew Figueroa, Matthew Connolly, Edie Fost, Gina Roma, Jake Fonseca, Ido Levy, Michele Payne, Ryan Schenkel, Amir Malki, Lion Schneider, Aniruddha Narkhede, Shekeba Moshref, Alexandra Kisin, Olga Dodin, Bill Rippon, Henry Wrieth, John Ganci, Johnny Colino, Donna Habeger-Rose, Rakesh Pandey, Aditya Gidh, Aditya Gaur, Dennis Patterson, Samsuddin Salmani, Rambilas Varma, Rumana Rumana, Shubham Sharma, Aditya Gaur, Mayank Mishra, Rameswar Panda, Aditya Prasad, Matt Stallone, Gaoyuan Zhang, Yikang Shen, David Cox, Ruchir Puri, Dakshi Agrawal, Drew Thorstensen, Joel Belog, Brent Tang, Saurabh Kumar Gupta, Amitabha Biswas, Anup Maheshwari, Eran Gampel, Jason Van Patten, Matthew Runion, Sai Kaki, Yigal Bogin, Brian Reitz, Steve Pritko, Shahan Najam, Surya Nambala, Radhika Chirra, Rick Welp, Frank DiMitri, Felipe Telles, Amilcar Arvelo, King Chu, Ed Seminaro, Andrew Schram, Felix Eickhoff, William Hanson, Eric Mckeever, Dinakaran Joseph, Piyush Chaudhary, Piyush Shivam, Puneet Chaudhary, Wesley Jones, Robert Guthrie, Chris Bostic, Rezaul Islam, Steve Duersch, Wayne Sawdon, John Lewars, Matthew Klos, Michael Spriggs, Bill McMillan, George Gao, Ashish Kamra, Gaurav Singh, Marc Curry, Tushar Katarki, Joe Talerico, Zenghui Shi, Sai Sindhur Malleni, Erwan Gallen, | (参考訳) AIインフラストラクチャは、高度なAIモデルの開発とデプロイのスピードとコスト競争において重要な役割を果たす。
モデルトレーニングのための強力なAIインフラストラクチャに対する現在の需要は、生成AIと基礎モデルの出現によって引き起こされている。
効率的でハイパフォーマンスなAIトレーニングを提供するには、ハードウェア、ソフトウェア、総合的テレメトリを組み合わせたエンドツーエンドのソリューションが必要である。
本稿では,我々の生成的AIモデル開発を支える,IBMのハイブリッドクラウドインフラストラクチャについて述べる。
このインフラストラクチャには、(1)Vela: IBM Cloudに直接統合されたAI最適化スーパーコンピュータ機能、大規模モデルトレーニングやその他のAIワークフローステップのためのスケーラブルで動的、マルチテナント、地理的に分散されたインフラストラクチャを提供する。
VelaはIBMに、内部使用における高性能の2つのメリットと、進化する商用環境に適応する柔軟性を提供する。
Blue Velaは、我々の最大かつ最も野心的なモデルの迅速な開発と、業界における進化するモデルランドスケープに対する将来の防御の恩恵を提供する。
それらを組み合わせて、IBMはAIモデルと商用製品の両方の開発を迅速に革新する能力を提供する。
AI Infrastructure plays a key role in the speed and cost-competitiveness of developing and deploying advanced AI models. The current demand for powerful AI infrastructure for model training is driven by the emergence of generative AI and foundational models, where on occasion thousands of GPUs must cooperate on a single training job for the model to be trained in a reasonable time. Delivering efficient and high-performing AI training requires an end-to-end solution that combines hardware, software and holistic telemetry to cater for multiple types of AI workloads. In this report, we describe IBM's hybrid cloud infrastructure that powers our generative AI model development. This infrastructure includes (1) Vela: an AI-optimized supercomputing capability directly integrated into the IBM Cloud, delivering scalable, dynamic, multi-tenant and geographically distributed infrastructure for large-scale model training and other AI workflow steps and (2) Blue Vela: a large-scale, purpose-built, on-premises hosting environment that is optimized to support our largest and most ambitious AI model training tasks. Vela provides IBM with the dual benefit of high performance for internal use along with the flexibility to adapt to an evolving commercial landscape. Blue Vela provides us with the benefits of rapid development of our largest and most ambitious models, as well as future-proofing against the evolving model landscape in the industry. Taken together, they provide IBM with the ability to rapidly innovate in the development of both AI models and commercial offerings. | 翻訳日:2024-07-09 17:39:22 公開日:2024-07-07 |
# 自動駐車スポット検出によるスマートカメラ駐車システム
Smart Camera Parking System With Auto Parking Spot Detection ( http://arxiv.org/abs/2407.05469v1 ) ライセンス: Link先を確認 | Tuan T. Nguyen, Mina Sartipi, | (参考訳) 都市人口の増加と交通渋滞の増加を踏まえ、スマートパーキングシステムの実現が重要な問題となっている。
スマートパーキングソリューションは、カメラやセンサー、コンピュータビジョンなどのアルゴリズムを使って、利用可能なパーキングスペースを見つける。
この方法は、駐車場所の認識を改善し、交通や汚染を低減し、旅行時間を最適化する。
近年,コンピュータビジョンに基づくアプローチが広く用いられている。
しかし、既存のほとんどの研究は、手動でラベル付けされた駐車場に依存しており、実装のコストと実用性に影響を及ぼす。
この問題を解決するために,駐車場を自動的に位置決めする新しいアプローチPakLocを提案する。
さらに,検出されたバウンディングボックスの回転とサイズを自動的に調整するPakSkeモジュールを提案する。
提案手法がPKLotデータセットに与える影響は, 人的労働力の94.25\%を大幅に削減する結果となった。
スマートパーキングシステムのもう1つの基本的な側面は、駐車場内の駐車場の状態を正確に判断し、示す能力である。
従来の手法では、手動でラベル付けされたグリッドから派生したバウンディングボックスに基づいて駐車場の状態を予測するための分類手法が採用されている。
本研究ではPakStaという新しい手法を用いて駐車場の状態を自動同定する手法を提案する。
本手法はPakLocのオブジェクト検出器を用いて,ビデオフレーム内の駐車場の占有状況を同時に判定する。
提案手法は,他の分類法と比較してPKLotデータセット上での競合性能を示す。
Given the rising urban population and the consequential rise in traffic congestion, the implementation of smart parking systems has emerged as a critical matter of concern. Smart parking solutions use cameras, sensors, and algorithms like computer vision to find available parking spaces. This method improves parking place recognition, reduces traffic and pollution, and optimizes travel time. In recent years, computer vision-based approaches have been widely used. However, most existing studies rely on manually labeled parking spots, which has implications for the cost and practicality of implementation. To solve this problem, we propose a novel approach PakLoc, which automatically localize parking spots. Furthermore, we present the PakSke module, which automatically adjust the rotation and the size of detected bounding box. The efficacy of our proposed methodology on the PKLot dataset results in a significant reduction in human labor of 94.25\%. Another fundamental aspect of a smart parking system is its capacity to accurately determine and indicate the state of parking spots within a parking lot. The conventional approach involves employing classification techniques to forecast the condition of parking spots based on the bounding boxes derived from manually labeled grids. In this study, we provide a novel approach called PakSta for identifying the state of parking spots automatically. Our method utilizes object detector from PakLoc to simultaneously determine the occupancy status of all parking lots within a video frame. Our proposed method PakSta exhibits a competitive performance on the PKLot dataset when compared to other classification methods. | 翻訳日:2024-07-09 17:39:22 公開日:2024-07-07 |
# システム応答における摂動に基づく合成データ生成による幻覚検出の強化
Enhancing Hallucination Detection through Perturbation-Based Synthetic Data Generation in System Responses ( http://arxiv.org/abs/2407.05474v1 ) ライセンス: Link先を確認 | Dongxu Zhang, Varun Gangal, Barrett Martin Lattimer, Yi Yang, | (参考訳) 大規模言語モデル(LLM)出力における幻覚の検出は重要であるが、この分類タスクの従来の微調整は、特に多くの垂直領域と高速LLM進歩の面において、高価で迅速な時代遅れのアノテーションプロセスによって妨げられている。
本研究では,システム応答を書き換えることで,忠実な出力と幻覚的な出力の両方を自動的に生成する手法を提案する。
実験結果から,我々の生成したデータセットを微調整したT5ベースモデルが,最先端のゼロショット検出器および既存の合成生成手法を精度とレイテンシの両方で超越し,提案手法の有効性が示唆された。
Detecting hallucinations in large language model (LLM) outputs is pivotal, yet traditional fine-tuning for this classification task is impeded by the expensive and quickly outdated annotation process, especially across numerous vertical domains and in the face of rapid LLM advancements. In this study, we introduce an approach that automatically generates both faithful and hallucinated outputs by rewriting system responses. Experimental findings demonstrate that a T5-base model, fine-tuned on our generated dataset, surpasses state-of-the-art zero-shot detectors and existing synthetic generation methods in both accuracy and latency, indicating efficacy of our approach. | 翻訳日:2024-07-09 17:39:22 公開日:2024-07-07 |
# 大規模言語モデルとUMLSヒューリスティックスを用いたバイオメディカルネストNER
Biomedical Nested NER with Large Language Model and UMLS Heuristics ( http://arxiv.org/abs/2407.05480v1 ) ライセンス: Link先を確認 | Wenxin Zhou, | (参考訳) 本稿では,バイオメディカルテキストから8種類の生物医学的ネストを抽出することを目的としたBioNNEイングリッシュトラックシステムを提案する。
我々は,Mixtral 8x7Bインストラクション(Mixtral 8x7Bインストラクション)とScispaCy NERモデルを用いて,記事内のエンティティを識別し,UMLSセマンティックタイプに基づいたカスタムヒューリスティックを構築し,エンティティを分類する。
我々は,システムの結果と限界について議論し,今後の改善を提案する。
本システムでは,BioNNE検証セットで0.39点,試験セットで0.348点を得た。
In this paper, we present our system for the BioNNE English track, which aims to extract 8 types of biomedical nested named entities from biomedical text. We use a large language model (Mixtral 8x7B instruct) and ScispaCy NER model to identify entities in an article and build custom heuristics based on unified medical language system (UMLS) semantic types to categorize the entities. We discuss the results and limitations of our system and propose future improvements. Our system achieved an F1 score of 0.39 on the BioNNE validation set and 0.348 on the test set. | 翻訳日:2024-07-09 17:39:22 公開日:2024-07-07 |
# 2回読む: 繰り返し言語モデルのリコールギャップを閉じる
Just read twice: closing the recall gap for recurrent language models ( http://arxiv.org/abs/2407.05483v1 ) ライセンス: Link先を確認 | Simran Arora, Aman Timalsina, Aaryan Singhal, Benjamin Spector, Sabri Eyuboglu, Xinyi Zhao, Ashish Rao, Atri Rudra, Christopher Ré, | (参考訳) 言語モデリングの難易度においてトランスフォーマーと競合する頻繁な大規模言語モデルが急速に出現している(例:Mamba, RWKV)。
興味深いことに、これらのアーキテクチャは推論中に一定量のメモリを使用する。
しかし、メモリが限られているため、繰り返し発生するLMは、長いコンテキストで全ての情報をリコールしたり、使用したりすることはできず、コンテキスト内学習(ICL)の品質が不安定になる。
効率的なLMの鍵となる課題は、どの情報を保存するか、捨てるかを選択することである。
本研究では、LMに情報を表示する順序が選択困難に影響を及ぼすのを観察する。
これを形式化するために、情報リコールの硬さは、入力された集合が非結合であるかどうかを決定するためにストリーミングアルゴリズム(例えば、リカレントモデル)を必要とする通信複雑性における重要な問題であるセット不整合性(SD)と呼ばれる問題の硬さに還元されることを示す。
我々は、SD変化を解決するために必要なリカレントメモリが、設定順序、すなわち、より小さなセットが最初のコンテキストで現れるかどうかを経験的かつ理論的に示す。
我々の分析は、データ順序への依存を軽減するために、情報をコンテキスト内で正しい順番に配置したり、プロセスが非因果的にプロンプトしたりすることができることを示唆している。
そこで本研究では,(1)JRT-Promptを提案する。
これは11.0 \pm 1.3$の改善点を与え、平均は16$の繰り返しLMと6$のICLタスクで、生成前処理のFlashAttention-2よりも11.9\times$高いスループット(32$k、バッチサイズ16$、NVidia H100)である。
次に、(2)JRT-RNNを提案する。これは、プロセスプロンプトに非因果プレフィックス-線形アテンションを使用し、$99\%のTransformer品質を360$Mのパラムで提供する。
トークンは30ドル(約3万3000円)、トークンは9万6千円(約1万3000円)。
平均50ドルのトークンは、FA2よりも19.2\times$高スループットである。
Recurrent large language models that compete with Transformers in language modeling perplexity are emerging at a rapid rate (e.g., Mamba, RWKV). Excitingly, these architectures use a constant amount of memory during inference. However, due to the limited memory, recurrent LMs cannot recall and use all the information in long contexts leading to brittle in-context learning (ICL) quality. A key challenge for efficient LMs is selecting what information to store versus discard. In this work, we observe the order in which information is shown to the LM impacts the selection difficulty. To formalize this, we show that the hardness of information recall reduces to the hardness of a problem called set disjointness (SD), a quintessential problem in communication complexity that requires a streaming algorithm (e.g., recurrent model) to decide whether inputted sets are disjoint. We empirically and theoretically show that the recurrent memory required to solve SD changes with set order, i.e., whether the smaller set appears first in-context. Our analysis suggests, to mitigate the reliance on data order, we can put information in the right order in-context or process prompts non-causally. Towards that end, we propose: (1) JRT-Prompt, where context gets repeated multiple times in the prompt, effectively showing the model all data orders. This gives $11.0 \pm 1.3$ points of improvement, averaged across $16$ recurrent LMs and the $6$ ICL tasks, with $11.9\times$ higher throughput than FlashAttention-2 for generation prefill (length $32$k, batch size $16$, NVidia H100). We then propose (2) JRT-RNN, which uses non-causal prefix-linear-attention to process prompts and provides $99\%$ of Transformer quality at $360$M params., $30$B tokens and $96\%$ at $1.3$B params., $50$B tokens on average across the tasks, with $19.2\times$ higher throughput for prefill than FA2. | 翻訳日:2024-07-09 17:39:22 公開日:2024-07-07 |
# 均一データの価格設定の学習
Learning to Price Homogeneous Data ( http://arxiv.org/abs/2407.05484v1 ) ライセンス: Link先を確認 | Keran Chen, Joon Suk Huh, Kirthevasan Kandasamy, | (参考訳) 我々は、販売者が均質なデータポイント(例えば、ある分布から引き出されたi.d.)に$N$でアクセスできるようなデータ価格の問題を研究する。
市場には$m$の購入者がいて、同じタイプの$i$のバリュエーション曲線が$v_i:[N]\rightarrow [0,1]$、$v_i(n)$は$n$のデータポイントを持つ値である。
売り手は買い手の分布に気付いていないが、市場をT$で繰り返して、収益最適化価格曲線を学べば$p:[N] \rightarrow [0, 1]$になる。
このオンライン学習問題を解決するために、まず、価格曲線を近似する新しい離散化手法を開発する。
事前の作業と比較すると、我々の離散化スキームのサイズは近似パラメータとともに優雅にスケールし、オンライン学習における後悔の度合いを増す。
データによって満足される滑らかさや減少するリターンといった仮定の下では、離散化のサイズをさらに小さくすることができる。
そして、確率的および敵対的な設定の両方において、オンライン学習の問題に目を向けます。
各ラウンドで、売り手は$p_t$の価格曲線を選択する。
新しい買い手が現れて、ある程度のデータを購入することができる。
すると彼女はタイプ \emph{only} の購入を行う。
オンラインアルゴリズムは UCB や FTPL のような古典的アルゴリズムをベースとしていますが,このフィードバックの非対称性を考慮し,価格曲線の空間に対処するためには,新しいアイデアが必要です。
以前は改良された離散化スキームを使用して、確率的設定で $\tilde{O}\left(m\sqrt{T}\right)$ regret と、逆設定で $\tilde{O}\left(m^{\frac{3}{2}}\sqrt{T}\right)$ regret を達成することができる。
We study a data pricing problem, where a seller has access to $N$ homogeneous data points (e.g. drawn i.i.d. from some distribution). There are $m$ types of buyers in the market, where buyers of the same type $i$ have the same valuation curve $v_i:[N]\rightarrow [0,1]$, where $v_i(n)$ is the value for having $n$ data points. \textit{A priori}, the seller is unaware of the distribution of buyers, but can repeat the market for $T$ rounds so as to learn the revenue-optimal pricing curve $p:[N] \rightarrow [0, 1]$. To solve this online learning problem, we first develop novel discretization schemes to approximate any pricing curve. When compared to prior work, the size of our discretization schemes scales gracefully with the approximation parameter, which translates to better regret in online learning. Under assumptions like smoothness and diminishing returns which are satisfied by data, the discretization size can be reduced further. We then turn to the online learning problem, both in the stochastic and adversarial settings. On each round, the seller chooses an \emph{anonymous} pricing curve $p_t$. A new buyer appears and may choose to purchase some amount of data. She then reveals her type \emph{only if} she makes a purchase. Our online algorithms build on classical algorithms such as UCB and FTPL, but require novel ideas to account for the asymmetric nature of this feedback and to deal with the vastness of the space of pricing curves. Using the improved discretization schemes previously developed, we are able to achieve $\tilde{O}\left(m\sqrt{T}\right)$ regret in the stochastic setting and $\tilde{O}\left(m^{\frac{3}{2}}\sqrt{T}\right)$ regret in the adversarial setting. | 翻訳日:2024-07-09 17:39:22 公開日:2024-07-07 |
# 無線ネットワーク上でのセマンティック通信のためのマルチレベル信頼性インタフェース
Multi-level Reliability Interface for Semantic Communications over Wireless Networks ( http://arxiv.org/abs/2407.05487v1 ) ライセンス: Link先を確認 | Tze-Yang Tung, Homa Esfahanizadeh, Jinfeng Du, Harish Viswanathan, | (参考訳) セマンティック通信は、ジョイントソースチャネル符号化(JSCC)のレンズを通して調べると、ソースメッセージをチャネル入力シンボルに直接マッピングし、成功度の測定はブロックエラー率などの従来の指標ではなく、エンドツーエンドの歪みによって定義される。
これまでの研究では、従来の独立したソースやチャネルコーディングと比較して、ディープラーニング(DL)駆動のJSCCによって達成された顕著な改善が示されている。
しかし、JSCCは既存の通信ネットワークでは非現実的であり、アプリケーションとネットワークプロバイダは通常汎用TCP/IPリンクを介して接続される異なるエンティティである。
本稿では,新しいマルチレベル信頼性インタフェースを用いて,ソースマッピングとチャネルマッピングを個別に,順次に設計することを提案する。
この概念インターフェースは、学習したソースとチャネルマッパーの両方で半JSCCを可能にし、既存のDLベースのJSCCワーク(アプリケーションとネットワーク間の完全な結合設計を必要とする)で見られる多くの利益を達成する。
本研究は,無線ネットワークにおけるセマンティックコミュニケーションの実現に向けた重要なステップであると考えている。
Semantic communication, when examined through the lens of joint source-channel coding (JSCC), maps source messages directly into channel input symbols, where the measure of success is defined by end-to-end distortion rather than traditional metrics such as block error rate. Previous studies have shown significant improvements achieved through deep learning (DL)-driven JSCC compared to traditional separate source and channel coding. However, JSCC is impractical in existing communication networks, where application and network providers are typically different entities connected over general-purpose TCP/IP links. In this paper, we propose designing the source and channel mappings separately and sequentially via a novel multi-level reliability interface. This conceptual interface enables semi-JSCC at both the learned source and channel mappers and achieves many of the gains observed in existing DL-based JSCC work (which would require a fully joint design between the application and the network), such as lower end-to-end distortion and graceful degradation of distortion with channel quality. We believe this work represents an important step towards realizing semantic communications in wireless networks. | 翻訳日:2024-07-09 17:39:22 公開日:2024-07-07 |
# 機械翻訳における状態空間モデルの有効性
How Effective are State Space Models for Machine Translation? ( http://arxiv.org/abs/2407.05489v1 ) ライセンス: Link先を確認 | Hugo Pitorro, Pavlo Vasylenko, Marcos Treviso, André F. T. Martins, | (参考訳) トランスフォーマーは現在のNLPのアーキテクチャとして選択されているが、注意層は長いコンテキストではスケールしない。
最近の研究は、注意を線形リカレントなレイヤに置き換えることを提案している。これは、効率的なトレーニングと推論を楽しむ状態空間モデルのケースである。
しかし、これらのモデルが機械翻訳(MT)においてトランスフォーマーと競合するかどうかは不明である。
本稿では,MT用変圧器と線形リカレントモデルとの厳密かつ包括的な比較実験を行い,特に注意機構を組み込んだRetNet,Mamba,ハイブリッドバージョンのMambaについて実験を行った。
以上の結果から,マンバは文や段落レベルのデータセットのトランスフォーマーと高い競争力を持つことが明らかとなった。
さらなる分析により、マンバへの注意が翻訳品質、配列長の外挿に対する堅牢性、名前付きエンティティをリコールする能力を改善することが示されている。
Transformers are the current architecture of choice for NLP, but their attention layers do not scale well to long contexts. Recent works propose to replace attention with linear recurrent layers -- this is the case for state space models, which enjoy efficient training and inference. However, it remains unclear whether these models are competitive with transformers in machine translation (MT). In this paper, we provide a rigorous and comprehensive experimental comparison between transformers and linear recurrent models for MT. Concretely, we experiment with RetNet, Mamba, and hybrid versions of Mamba which incorporate attention mechanisms. Our findings demonstrate that Mamba is highly competitive with transformers on sentence and paragraph-level datasets, where in the latter both models benefit from shifting the training distribution towards longer sequences. Further analysis show that integrating attention into Mamba improves translation quality, robustness to sequence length extrapolation, and the ability to recall named entities. | 翻訳日:2024-07-09 17:39:22 公開日:2024-07-07 |
# 予測メッセージング: 通信遅延のあるネットワークでの学習
Prospective Messaging: Learning in Networks with Communication Delays ( http://arxiv.org/abs/2407.05494v1 ) ライセンス: Link先を確認 | Ryan Fayyazi, Christian Weilbach, Frank Wood, | (参考訳) ニューロン間通信遅延は、生物学的神経回路やニューロモルフィックハードウェアのような物理的に実現されたニューラルネットワークにおいてユビキタスである。
これらの遅延は、トレーニングや推論中にネットワークダイナミクスに顕著で、しばしば破壊的な結果をもたらす。
したがって、生物学的ニューラルネットワークの計算モデルと大規模ニューロモルフィックシステムの両方において、通信遅延を考慮することが不可欠である。
それでも、いずれのドメインにおいても、通信遅延は包括的に対処されていない。
本稿では,遅延により,過パラメータ化が著しいにもかかわらず,Latent Equilibrium(LE)ネットワークと呼ばれる最先端の連続時間ニューラルネットワークが単純なタスクを学習することを防ぐことを最初に示した。
そこで我々は,現在利用可能な信号に基づいて通信遅延を予測し,通信遅延を補償することを提案する。
この概念的に直感的なアプローチは、予測メッセージング(PM)と呼ばれ、ニューロンローカル情報のみを使用し、メモリと計算要求の観点から柔軟である。
遅延LEネットワークにPMを組み込むことは反応遅延を防止し、フーリエ合成および自己回帰ビデオ予測タスクの学習を成功させることを示す。
Inter-neuron communication delays are ubiquitous in physically realized neural networks such as biological neural circuits and neuromorphic hardware. These delays have significant and often disruptive consequences on network dynamics during training and inference. It is therefore essential that communication delays be accounted for, both in computational models of biological neural networks and in large-scale neuromorphic systems. Nonetheless, communication delays have yet to be comprehensively addressed in either domain. In this paper, we first show that delays prevent state-of-the-art continuous-time neural networks called Latent Equilibrium (LE) networks from learning even simple tasks despite significant overparameterization. We then propose to compensate for communication delays by predicting future signals based on currently available ones. This conceptually straightforward approach, which we call prospective messaging (PM), uses only neuron-local information, and is flexible in terms of memory and computation requirements. We demonstrate that incorporating PM into delayed LE networks prevents reaction lags, and facilitates successful learning on Fourier synthesis and autoregressive video prediction tasks. | 翻訳日:2024-07-09 17:39:22 公開日:2024-07-07 |
# 一般化電磁力学におけるアハロノフ・ボーム効果
Aharonov-Bohm Effect in Generalized Electrodynamics ( http://arxiv.org/abs/2407.05501v1 ) ライセンス: Link先を確認 | C. A. M. de Melo, B. M. Perez, J. C. Sumire Esquia, R. R. Cuzinatto, | (参考訳) アハロノフ・ボーム効果(Aharonov-Bohm effect)は、ポドルスキーとボップによる一般化電磁力学(GE)の文脈において考慮されている。
GEはマクスウェルの電磁力学への唯一の拡張であり、局所的 {\normalsize{}U(1)}-ゲージ不変量であり、線型場方程式を認め、ベクトルポテンシャルの高階微分を含む。
GEは、光子に対して質量を持たないモードと質量モードの両方を認めている。
我々は、GEにおける光子の無質量モードに対して、マクスウェル電磁力学の文脈から導かれたAB効果の通常の量子位相シフトを回復する。
質量モードは光子質量に応じてAB位相シフトの補正因子を誘導する。
磁気AB効果とその電気的効果について検討する。
原理として、ABの正確な実験観測により、位相シフトはGE光子質量を制限するために用いられる。
The Aharonov-Bohm (AB) effect is considered in the context of Generalized Electrodynamics (GE) by Podolsky and Bopp. GE is the only extension to Maxwell electrodynamics that is locally {\normalsize{}U(1)}-gauge invariant, admits linear field equations and contains higher-order derivatives of the vector potential. GE admits both massless and massive modes for the photon. We recover the ordinary quantum phase shift of the AB effect, derived in the context of Maxwell electrodynamics, for the massless mode of the photon in GE. The massive mode induces a correction factor to the AB phase shift depending on the photon mass. We study both the magnetic AB effect and its electric counterpart. In principle, accurate experimental observations of AB the phase shift could be used to constrain GE photon mass. | 翻訳日:2024-07-09 17:39:22 公開日:2024-07-07 |
# Faux Polyglot:多言語大言語モデルにおける情報格差に関する研究
Faux Polyglot: A Study on Information Disparity in Multilingual Large Language Models ( http://arxiv.org/abs/2407.05502v1 ) ライセンス: Link先を確認 | Nikhil Sharma, Kenton Murray, Ziang Xiao, | (参考訳) Retrieval Augmented Generation (RAG)により、Large Language Models (LLM) は情報検索において重要な役割を担い、世界中で採用されている。
LLMの多言語能力は言語障壁を橋渡しする新たな機会を提供するが、これらの能力は言語分割と多言語ソース間の知識衝突が既知の実生活シナリオに変換されるのか?
本稿では,RAGに基づく情報検索におけるLLMの言語的嗜好について検討した。
その結果,LLMは問合せ言語と同一言語における情報に対して,情報検索と回答生成の両方において,体系的な偏りを示した。
さらに、クエリの言語にはほとんど情報がないシナリオでは、LLMは高ソース言語でのドキュメントを好んで、支配的なビューを補強する。
このようなバイアスは、事実と意見に基づくクエリの両方に存在します。
本研究は,情報検索システムにおける多言語 LLM の言語的分割に注目した。
LLMの一見有益と思われる多言語能力は、低リソースのビューをさらにマージする言語固有の情報コクーンやフィルタバブルを強化することで、情報平準性に反する可能性がある。
With Retrieval Augmented Generation (RAG), Large Language Models (LLMs) are playing a pivotal role in information search and are being adopted globally. Although the multilingual capability of LLMs offers new opportunities to bridge the language barrier, do these capabilities translate into real-life scenarios where linguistic divide and knowledge conflicts between multilingual sources are known occurrences? In this paper, we studied LLM's linguistic preference in a RAG-based information search setting. We found that LLMs displayed systemic bias towards information in the same language as the query language in both information retrieval and answer generation. Furthermore, in scenarios where there is little information in the language of the query, LLMs prefer documents in high-resource languages, reinforcing the dominant views. Such bias exists for both factual and opinion-based queries. Our results highlight the linguistic divide within multilingual LLMs in information search systems. The seemingly beneficial multilingual capability of LLMs may backfire on information parity by reinforcing language-specific information cocoons or filter bubbles further marginalizing low-resource views. | 翻訳日:2024-07-09 17:39:22 公開日:2024-07-07 |
# 左房セグメンテーションにおける動的位置変換と境界微細化ネットワーク
Dynamic Position Transformation and Boundary Refinement Network for Left Atrial Segmentation ( http://arxiv.org/abs/2407.05505v1 ) ライセンス: Link先を確認 | Fangqiang Xu, Wenxuan Tu, Fan Feng, Malitha Gunawardhana, Jiayuan Yang, Yun Gu, Jichao Zhao, | (参考訳) 左心房細動は不整脈(心房細動)の診断において重要な手法である。
LAセグメンテーションの現在のほとんどの手法は、入力データがオブジェクト指向のセンタートリミングによって取得されていると厳密に仮定しているが、この仮定は、手動のオブジェクトアノテーションのコストが高いために、実際に常に成り立つとは限らない。
ランダムトリミングは、単純なデータ前処理アプローチである。
但し
1)入力データに顕著な不規則と不完全性を導入し、
2) 対象境界領域のコヒーレンスと連続性を阻害する。
これらの課題に対処するために,新しい動的位置変換と境界改善ネットワーク(DPBNet)を提案する。
中心となる考え方は、不規則なターゲットの相対的な位置を動的に調整し、それらのコンテキスト関係を構築し、困難な境界画素を優先順位付けして、前景と背景の区別を強化することである。
具体的には、動的生成比を用いて、乱れた物体の位置を動的に調整するシャッフル・テン・リオーダー・アテンション・モジュールを設計する。
さらに, 境界局所化の精度を向上させるために, シナリオ適応重み付き二重境界損失を導入し, 両境界のあいまいさをきめ細粒度レベルで処理し, 結果の明瞭さと連続性を促進させる。
ベンチマークデータセットの大規模な実験結果によると、PBNetは既存の最先端手法を一貫して上回っている。
Left atrial (LA) segmentation is a crucial technique for irregular heartbeat (i.e., atrial fibrillation) diagnosis. Most current methods for LA segmentation strictly assume that the input data is acquired using object-oriented center cropping, while this assumption may not always hold in practice due to the high cost of manual object annotation. Random cropping is a straightforward data pre-processing approach. However, it 1) introduces significant irregularities and incompleteness in the input data and 2) disrupts the coherence and continuity of object boundary regions. To tackle these issues, we propose a novel Dynamic Position transformation and Boundary refinement Network (DPBNet). The core idea is to dynamically adjust the relative position of irregular targets to construct their contextual relationships and prioritize difficult boundary pixels to enhance foreground-background distinction. Specifically, we design a shuffle-then-reorder attention module to adjust the position of disrupted objects in the latent space using dynamic generation ratios, such that the vital dependencies among these random cropping targets could be well captured and preserved. Moreover, to improve the accuracy of boundary localization, we introduce a dual fine-grained boundary loss with scenario-adaptive weights to handle the ambiguity of the dual boundary at a fine-grained level, promoting the clarity and continuity of the obtained results. Extensive experimental results on benchmark dataset have demonstrated that DPBNet consistently outperforms existing state-of-the-art methods. | 翻訳日:2024-07-09 17:39:22 公開日:2024-07-07 |
# シュワルツシルト時空におけるディラック場の物理的に到達可能かつ到達不能な量子相関
Physically Accessible and Inaccessible Quantum Correlations of Dirac Fields in Schwarzschild Spacetime ( http://arxiv.org/abs/2407.05509v1 ) ライセンス: Link先を確認 | Samira Elghaayda, Asad Ali, Saif Al-Kuwari, Mostafa Mansour, | (参考訳) 本研究では, ホーキングデコヒーレンスがディラック場の量子相関に与える影響について検討した。
当初、彼らは漸近的に平坦な領域のシュワルツシルトブラックホール(SBH)の近くで \textit{Gisin} 状態を共有する。
すると、この領域では \textit{Alice} が静止し、 \textit{Bob} は SBH の事象地平線 (EH) の近くにホバリングする。
我々は、彼の励起検出器を用いて、熱フェルミ・ディラック粒子の分布を検出することを期待する。
進化した \textit{Gisin} 状態における量子相関を、物理的にアクセス可能で、物理的にアクセス不能で、時空領域にわたって、量子共鳴と不確実性による非局所性を用いて評価する。
本研究は, これらの測定値が, ホーキング温度, ディラック粒子周波数, 初期 \textit{Gisin} 状態のパラメータとどのように異なるかを検討する。
さらに、これらの量子相関測度の分布を全ての可能な領域にわたって解析し、物理的に到達不能な領域への再分配を示す。
その結果, ホーキングデコヒーレンスにより, 物理的にアクセス可能な領域におけるディラック場の量子相関が減少し, 初期状態パラメータによって減少することが示された。
さらに、ホーキングのデコヒーレンスが物理的に到達不能な領域と時空領域で増大するにつれて、ディラック場の量子相関は再帰し、最終的に無限のホーキング温度で特定の値に収束する。
これらの結果は相対論的量子情報(RQI)の枠組みにおける量子相関力学の理解に寄与する。
In this study, we investigate the influence of Hawking decoherence on the quantum correlations of Dirac fields between \textit{Alice} and \textit{Bob}. Initially, they share a \textit{Gisin} state near the Schwarzschild black hole (SBH) in an asymptotically flat region. Then, \textit{Alice} remains stationary in this region, while \textit{Bob} hovers near the event horizon (EH) of the SBH. We expect that \textit{Bob}, using his excited detector, will detect a thermal Fermi-Dirac particle distribution. We assess the quantum correlations in the evolved \textit{Gisin} state using quantum consonance and uncertainty-induced non-locality across physically accessible, physically inaccessible, and spacetime regions. Our investigation examines how these measures vary with Hawking temperature, Dirac particle frequency, and the parameters of the initial \textit{Gisin} state. Additionally, we analyze the distribution of these quantum correlation measures across all possible regions, noting a redistribution towards the physically inaccessible region. Our findings demonstrate that Hawking decoherence reduces the quantum correlations of Dirac fields in the physically accessible region, with the extent of reduction depending on the initial state parameters. Moreover, as Hawking decoherence intensifies in the physically inaccessible and spacetime regions, the quantum correlations of Dirac fields reemerge and ultimately converge to specific values at infinite Hawking temperature. These results contribute to our understanding of quantum correlation dynamics within the framework of relativistic quantum information (RQI). | 翻訳日:2024-07-09 17:29:37 公開日:2024-07-07 |
# SCATTER: 耐熱・高効率光再分配型アルゴリズム回路共分散フォトニック加速器
SCATTER: Algorithm-Circuit Co-Sparse Photonic Accelerator with Thermal-Tolerant, Power-Efficient In-situ Light Redistribution ( http://arxiv.org/abs/2407.05510v1 ) ライセンス: Link先を確認 | Ziang Yin, Nicholas Gangi, Meng Zhang, Jeff Zhang, Rena Huang, Jiaqi Gu, | (参考訳) フォトニックコンピューティングは、計算集約人工知能(AI)ワークロードを加速するための有望なソリューションとして登場した。
しかし、リコンフィグアビリティの制限、高電気光学変換コスト、サーマル感度は、現在の光学アナログコンピューティングエンジンの展開を制限し、大規模に電力制限されたパフォーマンスに敏感なAIワークロードをサポートする。
Sparsityは、ハードウェア効率の良いAIアクセラレーターにとって素晴らしい機会を提供する。
しかし、現在の高密度フォトニック加速器は、アルゴリズム的間隔の省電力ポテンシャルを完全に活用することができない。
フォトニックテンソルコアトポロジーの基本的な再設計と、ハードウェアの非理想性とパワーボトルネックを意識したクロス層デバイス-アーキテクチャ-アルゴリズムの協調最適化を必要とする。
熱的変動に対するロバスト性を最大化しつつ、余剰電力消費を抑えるため、サーマルトトレラント、パワー効率の高い光再分配およびパワーゲーティングを介して動的に再構成可能な信号経路を特徴とする新しいアルゴリズム・サーキット・コスパースフォトニック・アクセラレータであるSCATTERを提案する。
列列構造された空間を探索し、限界精度の損失と最大電力効率を確保するために、パワー最適化、クロストーク対応動的スパーストレーニングフレームワークを導入した。
クロススタック最適化加速器SCATTERは511X領域の削減と12.4X領域の省電力を実現し,回路レイアウトのコンパクト性とオンチップ電力効率を向上する。
Photonic computing has emerged as a promising solution for accelerating computation-intensive artificial intelligence (AI) workloads. However, limited reconfigurability, high electrical-optical conversion cost, and thermal sensitivity limit the deployment of current optical analog computing engines to support power-restricted, performance-sensitive AI workloads at scale. Sparsity provides a great opportunity for hardware-efficient AI accelerators. However, current dense photonic accelerators fail to fully exploit the power-saving potential of algorithmic sparsity. It requires sparsity-aware hardware specialization with a fundamental re-design of photonic tensor core topology and cross-layer device-circuit-architecture-algorithm co-optimization aware of hardware non-ideality and power bottleneck. To trim down the redundant power consumption while maximizing robustness to thermal variations, we propose SCATTER, a novel algorithm-circuit co-sparse photonic accelerator featuring dynamically reconfigurable signal path via thermal-tolerant, power-efficient in-situ light redistribution and power gating. A power-optimized, crosstalk-aware dynamic sparse training framework is introduced to explore row-column structured sparsity and ensure marginal accuracy loss and maximum power efficiency. The extensive evaluation shows that our cross-stacked optimized accelerator SCATTER achieves a 511X area reduction and 12.4X power saving with superior crosstalk tolerance that enables unprecedented circuit layout compactness and on-chip power efficiency. | 翻訳日:2024-07-09 17:29:37 公開日:2024-07-07 |
# モンテカルロ木探索における状態占有規則化による高効率長期探査
Provably Efficient Long-Horizon Exploration in Monte Carlo Tree Search through State Occupancy Regularization ( http://arxiv.org/abs/2407.05511v1 ) ライセンス: Link先を確認 | Liam Schramm, Abdeslam Boularias, | (参考訳) モンテカルロ木探索(MCTS)は様々な領域で成功しているが、Rapidly-Exploring Random Treesのようなサンプリングベースモーションプランニングアルゴリズムと比較すると、長い水平探索の課題に直面している。
MCTS のこれらの制限に対処するため,政策最適化と状態占有度測定正則化に基づく木探索アルゴリズムを導出し,これを {\it Volume-MCTS} と呼ぶ。
本研究では,この状態占有率の正規化目標に対する近似解として,カウントベース探索とサンプリングベース動作計画が導出可能であることを示す。
我々は,いくつかのロボットナビゲーション問題に対して本手法を試行し,Volume-MCTSがAlphaZeroより優れており,長期探査特性が著しく向上していることを見出した。
Monte Carlo tree search (MCTS) has been successful in a variety of domains, but faces challenges with long-horizon exploration when compared to sampling-based motion planning algorithms like Rapidly-Exploring Random Trees. To address these limitations of MCTS, we derive a tree search algorithm based on policy optimization with state occupancy measure regularization, which we call {\it Volume-MCTS}. We show that count-based exploration and sampling-based motion planning can be derived as approximate solutions to this state occupancy measure regularized objective. We test our method on several robot navigation problems, and find that Volume-MCTS outperforms AlphaZero and displays significantly better long-horizon exploration properties. | 翻訳日:2024-07-09 17:29:37 公開日:2024-07-07 |
# 平面弦音の物理モデリングと運動シミュレーションのための微分可能なモーダル合成
Differentiable Modal Synthesis for Physical Modeling of Planar String Sound and Motion Simulation ( http://arxiv.org/abs/2407.05516v1 ) ライセンス: Link先を確認 | Jin Woo Lee, Jaehyun Park, Min Jun Choi, Kyogu Lee, | (参考訳) 機械学習やコンピュータオーディションにおいて、音楽生成や音響合成の大幅な進歩が見られたが、物理法則で導かれる楽器振動のシミュレーションは過小評価されている。
このギャップに対処するために、非線形弦の時空間運動をシミュレートし、モーダル合成とスペクトルモデリングをニューラルネットワークフレームワークに統合する新しいモデルを導入する。
我々のモデルは、入力として物理特性と基本周波数を利用し、非線形弦を特徴づける偏微分方程式を解く時間と空間にわたって弦状態を出力する。
経験的評価により,提案アーキテクチャは既存のベースラインアーキテクチャと比較して,弦運動シミュレーションの精度が優れていることが示された。
コードとデモはオンラインで公開されている。
While significant advancements have been made in music generation and differentiable sound synthesis within machine learning and computer audition, the simulation of instrument vibration guided by physical laws has been underexplored. To address this gap, we introduce a novel model for simulating the spatio-temporal motion of nonlinear strings, integrating modal synthesis and spectral modeling within a neural network framework. Our model leverages physical properties and fundamental frequencies as inputs, outputting string states across time and space that solve the partial differential equation characterizing the nonlinear string. Empirical evaluations demonstrate that the proposed architecture achieves superior accuracy in string motion simulation compared to existing baseline architectures. The code and demo are available online. | 翻訳日:2024-07-09 17:29:37 公開日:2024-07-07 |
# プロンプトエンジニアリングによる衛星画像の単一物体追跡
Addressing single object tracking in satellite imagery through prompt-engineered solutions ( http://arxiv.org/abs/2407.05518v1 ) ライセンス: Link先を確認 | Athena Psalta, Vasileios Tsironis, Andreas El Saer, Konstantinos Karantzalos, | (参考訳) 衛星映像における物体追跡は、衛星画像の複雑でダイナミックな性質のため、リモートセンシングにおける複雑な取り組みである。
コンピュータビジョンにおける既存の最先端トラッカーは、高度なアーキテクチャ、注意機構、マルチモーダル融合を統合し、様々な環境におけるトラッキング精度を高める。
しかし、背景の変動や大気障害、低解像度の物体デライン化といった衛星画像による課題は、従来のSOT(Single Object Tracking)技術の精度と信頼性を著しく損なうことになった。
本研究は,これらの課題を考察し,Segment Anything Model (SAM) と TAPIR (Tracking Any Point with per-frame Initialization and temporal Refinement) を利用して,衛星ビデオ上の小型物体の学習自由点追跡手法を提案する。
VISOデータセットの実験は我々の戦略を検証し、リモートセンシングアプリケーションにおける衛星画像に適したロバストな追跡ソリューションの大幅な進歩を示している。
Object tracking in satellite videos remains a complex endeavor in remote sensing due to the intricate and dynamic nature of satellite imagery. Existing state-of-the-art trackers in computer vision integrate sophisticated architectures, attention mechanisms, and multi-modal fusion to enhance tracking accuracy across diverse environments. However, the challenges posed by satellite imagery, such as background variations, atmospheric disturbances, and low-resolution object delineation, significantly impede the precision and reliability of traditional Single Object Tracking (SOT) techniques. Our study delves into these challenges and proposes prompt engineering methodologies, leveraging the Segment Anything Model (SAM) and TAPIR (Tracking Any Point with per-frame Initialization and temporal Refinement), to create a training-free point-based tracking method for small-scale objects on satellite videos. Experiments on the VISO dataset validate our strategy, marking a significant advancement in robust tracking solutions tailored for satellite imagery in remote sensing applications. | 翻訳日:2024-07-09 17:29:37 公開日:2024-07-07 |
# ソフトウェア生産における自動化とイノベーションのためのGitHub Marketplace
GitHub Marketplace for Automation and Innovation in Software Production ( http://arxiv.org/abs/2407.05519v1 ) ライセンス: Link先を確認 | SK Golam Saroar, Waseefa Ahmed, Elmira Onagh, Maleknaz Nayebi, | (参考訳) ソフトウェアチームの共同コードバージョン管理とソフトウェア生産を促進することで有名なGitHubは、2017年にGitHub Marketplaceを導入してサービスを拡大した。
このオンラインプラットフォームは、開発者がGitHubでホストされているプロジェクトの生産を支援する自動化ツールをホストしており、オープンソースソフトウェア(OSS)コミュニティで使用されるツールに関する貴重な情報源となっている。
この探索的研究では、プラットフォームの特徴、特徴、ポリシーを包括的に探求し、運用自動化における共通テーマを特定し、ソフトウェアマーケットプレースとしてのGitHub Marketplaceを紹介します。
さらに,実践者や研究者の間で人気のツールを探索し,これらのツールの産業と学界のアプローチの相違点を浮き彫りにしている。
私たちは以前の調査からソフトウェアアプリストアの概念フレームワークを採用し、GitHub Marketplace上の32のカテゴリにわたる8,318の自動化プロダクションツール(440のアプリと7,878のアクション)を調べました。
私たちはこのマーケットプレースの方針を,開発者が他の開発者の運用ツールを共有する,ユニークなプラットフォームとして探求し,説明しました。
さらに,2000年から2021年にかけて発行された515の学術論文を体系的にマッピングし,オープンソース学術制作ツールとマーケットプレースで利用可能な論文を比較した。
文献における自動化のトピックのいくつかは、実際に広く使用されているものの、自動化された生産のためのプラクティスの状況にはまだ一致していないことが分かりました。
実践者が"継続的インテグレーション"や"ユーティリティ"といったタスクに自動化ツールを使うことが多いのに対して、研究者たちは"コード品質"や"テスト"に注目する傾向にあります。
本研究は,産業と研究における自動化生産のためのオープンソースツールの展望を照らすものである。
GitHub, renowned for facilitating collaborative code version control and software production in software teams, expanded its services in 2017 by introducing GitHub Marketplace. This online platform hosts automation tools to assist developers with the production of their GitHub-hosted projects, and it has become a valuable source of information on the tools used in the Open Source Software (OSS) community. In this exploratory study, we introduce GitHub Marketplace as a software marketplace by comprehensively exploring the platform's characteristics, features, and policies and identifying common themes in production automation. Further, we explore popular tools among practitioners and researchers and highlight disparities in the approach to these tools between industry and academia. We adopted the conceptual framework of software app stores from previous studies to examine 8,318 automated production tools (440 Apps and 7,878 Actions) across 32 categories on GitHub Marketplace. We explored and described the policies of this marketplace as a unique platform where developers share production tools for the use of other developers. Furthermore, we systematically mapped 515 research papers published from 2000 to 2021 and compared open-source academic production tools with those available in the marketplace. We found that although some of the automation topics in literature are widely used in practice, they have yet to align with the state of practice for automated production. We discovered that practitioners often use automation tools for tasks like "Continuous Integration" and "Utilities," while researchers tend to focus more on "Code Quality" and "Testing". Our study illuminates the landscape of open-source tools for automation production in industry and research. | 翻訳日:2024-07-09 17:29:37 公開日:2024-07-07 |
# 機械学習の理論
A Theory of Machine Learning ( http://arxiv.org/abs/2407.05520v1 ) ライセンス: Link先を確認 | Jinsook Kim, Jinho Kang, | (参考訳) 我々は、機械学習の3つの主要な理論を批判的にレビューし、機械がそれをうまく計算した時に、機械が関数を学習する新しい理論を提供する。
この理論は統計学および計算学習理論における共通仮定に挑戦し、真確率の学習が真確率の正しい計算を得るにも、ほぼ確実な収束を得るにも等しくないことを示唆する。
また,新しい理論の観点から,自然言語処理とマクロ経済学のケーススタディについても論じる。
We critically review three major theories of machine learning and provide a new theory according to which machines learn a function when the machines successfully compute it. We show that this theory challenges common assumptions in the statistical and the computational learning theories, for it implies that learning true probabilities is equivalent neither to obtaining a correct calculation of the true probabilities nor to obtaining an almost-sure convergence to them. We also briefly discuss some case studies from natural language processing and macroeconomics from the perspective of the new theory. | 翻訳日:2024-07-09 17:29:37 公開日:2024-07-07 |
# Mask-based Bayesian Neural Network を用いたMRI不確かさ推定の高速化
Accelerating MRI Uncertainty Estimation with Mask-based Bayesian Neural Network ( http://arxiv.org/abs/2407.05521v1 ) ライセンス: Link先を確認 | Zehuan Zhang, Matej Genci, Hongxiang Fan, Andreas Wetscherek, Wayne Luk, | (参考訳) 近年, 癌診断と治療の改善にともなう医学的進歩である, 適応放射線治療において, 高精度で信頼性の高いMRI解析が特に重要である。
近年の研究では、ディープニューラルネットワーク(DNN)であるIVIM-NETがMRI解析において高い精度を達成できることが示されている。
しかし、IVIM-NETは、医療における信頼できる信頼できる予測に必要な、校正された不確実性情報を提供していない。
さらに、IVIM-NETの高価な計算とメモリ要求によりハードウェアの性能が低下し、現実的なシナリオでは広く採用されなくなる。
これらの課題に対処するために,高速で信頼性の高いMRI解析のためのアルゴリズム・ハードウェア協調最適化フローを提案する。
アルゴリズムレベルでは、IVIM-NETをマスクベースのベイズニューラルネットワーク(BayesNN)に変換するための変換設計フローが導入された。
ハードウェアレベルでは、マスクゼロスキップやオペレーティングリオーダなど、いくつかのハードウェア最適化を備えたFPGAベースのアクセラレータを提案する。
Xilinx VU13P FPGA で 7.5 倍, 32.5 倍の高速化を実現し, 消費電力を削減した GPU や CPU 実装と比較して, 共同設計手法がMRI 解析の不確実性を満たすことを示した。
Accurate and reliable Magnetic Resonance Imaging (MRI) analysis is particularly important for adaptive radiotherapy, a recent medical advance capable of improving cancer diagnosis and treatment. Recent studies have shown that IVIM-NET, a deep neural network (DNN), can achieve high accuracy in MRI analysis, indicating the potential of deep learning to enhance diagnostic capabilities in healthcare. However, IVIM-NET does not provide calibrated uncertainty information needed for reliable and trustworthy predictions in healthcare. Moreover, the expensive computation and memory demands of IVIM-NET reduce hardware performance, hindering widespread adoption in realistic scenarios. To address these challenges, this paper proposes an algorithm-hardware co-optimization flow for high-performance and reliable MRI analysis. At the algorithm level, a transformation design flow is introduced to convert IVIM-NET to a mask-based Bayesian Neural Network (BayesNN), facilitating reliable and efficient uncertainty estimation. At the hardware level, we propose an FPGA-based accelerator with several hardware optimizations, such as mask-zero skipping and operation reordering. Experimental results demonstrate that our co-design approach can satisfy the uncertainty requirements of MRI analysis, while achieving 7.5 times and 32.5 times speedup on an Xilinx VU13P FPGA compared to GPU and CPU implementations with reduced power consumption. | 翻訳日:2024-07-09 17:29:37 公開日:2024-07-07 |
# カメラベースセマンティックシーン補完のための階層的時間文脈学習
Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion ( http://arxiv.org/abs/2407.02077v2 ) ライセンス: Link先を確認 | Bohan Li, Jiajun Deng, Wenyao Zhang, Zhujin Liang, Dalong Du, Xin Jin, Wenjun Zeng, | (参考訳) カメラベースの3Dセマンティックシーン補完(SSC)は、2D画像の観察に制限のある複雑な3Dレイアウトを予測するために重要である。
既存の主流のソリューションは一般的に、履歴フレームを概ね積み重ねて現在のフレームを補うことで、時間的情報を活用する。
この問題に対処するために、カメラベースのセマンティックシーン補完を改善するための新しい階層型時間文脈学習パラダイムであるHTCLを提案する。
この研究の主な革新は、時間的文脈学習を2つの階層的なステップに分解することである。
a)クロスフレーム親和性測定および
(b)親和性に基づくダイナミックリファインメント。
まず、重要コンテキストを冗長な情報から分離するために、パターン親和性とスケールアウェアアイソレーションと、よりきめ細かいコンテキスト対応モデリングのための複数の独立した学習者を導入する。
その後、不完全観測を動的に補償するために、初期同定されたアフィニティの高い位置とその周辺地域に基づいて特徴サンプリング位置を適応的に洗練する。
提案手法はSemanticKITTIベンチマークで1^{st}$をランク付けし,OpenOccupancyベンチマークでmIoUの点でLiDARベースのメソッドを超えている。
私たちのコードはhttps://github.com/Arlo0o/HTCL.comで利用可能です。
Camera-based 3D semantic scene completion (SSC) is pivotal for predicting complicated 3D layouts with limited 2D image observations. The existing mainstream solutions generally leverage temporal information by roughly stacking history frames to supplement the current frame, such straightforward temporal modeling inevitably diminishes valid clues and increases learning difficulty. To address this problem, we present HTCL, a novel Hierarchical Temporal Context Learning paradigm for improving camera-based semantic scene completion. The primary innovation of this work involves decomposing temporal context learning into two hierarchical steps: (a) cross-frame affinity measurement and (b) affinity-based dynamic refinement. Firstly, to separate critical relevant context from redundant information, we introduce the pattern affinity with scale-aware isolation and multiple independent learners for fine-grained contextual correspondence modeling. Subsequently, to dynamically compensate for incomplete observations, we adaptively refine the feature sampling locations based on initially identified locations with high affinity and their neighboring relevant regions. Our method ranks $1^{st}$ on the SemanticKITTI benchmark and even surpasses LiDAR-based methods in terms of mIoU on the OpenOccupancy benchmark. Our code is available on https://github.com/Arlo0o/HTCL. | 翻訳日:2024-07-09 10:41:17 公開日:2024-07-07 |
# FPGA上の高速でスケーラブルでエネルギー効率の良い非要素行列乗算
Fast, Scalable, Energy-Efficient Non-element-wise Matrix Multiplication on FPGA ( http://arxiv.org/abs/2407.02362v2 ) ライセンス: Link先を確認 | Xuqi Zhu, Huaizhi Zhang, JunKyu Lee, Jiacheng Zhu, Chandrajit Pal, Sangeet Saha, Klaus D. McDonald-Maier, Xiaojun Zhai, | (参考訳) 現代のニューラルネットワーク(NN)アーキテクチャは、膨大な数の乗算累積演算に大きく依存しており、計算コストの大部分を構成している。
そこで本稿では,NNの基本成分としてFPGA上の高スループット,スケーラブル,エネルギー効率の非要素量行列乗算器を提案する。
まず, LUT をベースとした近似行列乗算法 MADDNESS アルゴリズムの層間および層内冗長性を効率化し, 高速でスケーラブルな近似行列乗算モジュール "Approximate Multiplication Unit (AMU)" を設計する。
AMUは、専用メモリ管理とアクセス設計により、LUTベースの行列乗算をさらに最適化し、計算オーバーヘッドを入力解像度から切り離し、FPGAベースのNNアクセラレータ効率を大幅に向上する。
実験の結果,FPGAベースの量子ニューラルネットワーク(QNN)アクセラレータでは,AMUのスループットは最大9倍,エネルギー効率は112倍に向上した。
Modern Neural Network (NN) architectures heavily rely on vast numbers of multiply-accumulate arithmetic operations, constituting the predominant computational cost. Therefore, this paper proposes a high-throughput, scalable and energy efficient non-element-wise matrix multiplication unit on FPGAs as a basic component of the NNs. We firstly streamline inter-layer and intra-layer redundancies of MADDNESS algorithm, a LUT-based approximate matrix multiplication, to design a fast, efficient scalable approximate matrix multiplication module termed "Approximate Multiplication Unit (AMU)". The AMU optimizes LUT-based matrix multiplications further through dedicated memory management and access design, decoupling computational overhead from input resolution and boosting FPGA-based NN accelerator efficiency significantly. The experimental results show that using our AMU achieves up to 9x higher throughput and 112x higher energy efficiency over the state-of-the-art solutions for the FPGA-based Quantised Neural Network (QNN) accelerators. | 翻訳日:2024-07-09 10:41:17 公開日:2024-07-07 |
# 注意の解剖学について
On the Anatomy of Attention ( http://arxiv.org/abs/2407.02423v2 ) ライセンス: Link先を確認 | Nikhil Khatri, Tuomas Laakkonen, Jonathon Liu, Vincent Wang-Maścianica, | (参考訳) 本稿では、機械学習モデルについて体系的に関連付け、推論するために、カテゴリ理論図式形式を導入する。
図は直感的にアーキテクチャを示すが、重要な詳細を欠くことなく、グラフィカルな変換によってモデル間の自然な関係が捉えられ、重要な違いと類似点が一目でわかる。
本稿では,民間伝承を数学的導出に翻訳し,文献における注意変化の分類学を構築することを目的とした注意機構について述べる。
フォーマリズムに根ざした経験的調査の第一例として,注意の解剖学的成分を同定し,注意機構の変動の空間を探索するため,徹底的に再結合した。
We introduce a category-theoretic diagrammatic formalism in order to systematically relate and reason about machine learning models. Our diagrams present architectures intuitively but without loss of essential detail, where natural relationships between models are captured by graphical transformations, and important differences and similarities can be identified at a glance. In this paper, we focus on attention mechanisms: translating folklore into mathematical derivations, and constructing a taxonomy of attention variants in the literature. As a first example of an empirical investigation underpinned by our formalism, we identify recurring anatomical components of attention, which we exhaustively recombine to explore a space of variations on the attention mechanism. | 翻訳日:2024-07-09 10:41:17 公開日:2024-07-07 |
# Funny-Valen-Tine: マシン抽象推論能力を高めるプランニングソリューション
Funny-Valen-Tine: Planning Solution Distribution Enhances Machine Abstract Reasoning Ability ( http://arxiv.org/abs/2407.02688v2 ) ライセンス: Link先を確認 | Ruizhuo Song, Beiming Yuan, | (参考訳) 視覚的抽象的推論問題は、画像処理の分野において非常に重要である。
Bongard-Logo と Raven's Progressive Matrices (RPM) はこの領域に属しており、Bongard-Logo は画像クラスタリング推論と RPM に分類されている。
本稿では,確率的ハイライトモデルに基づく新しいベースラインモデルであるValenを紹介する。
Valen は RPM と Bongard-Logo の問題を解決し、汎用的なソリューションを提供している。
本研究は, 確率高照度解法の基礎的メカニズムを考察し, 一次および補助的なサンプルによる分布の定式化として, 推論問題事例の解法を近似することを実現する。
学習目的は正しい解の分布ではなく,一次サンプルと補助サンプルの両方で定義されるものである。
矛盾を補うために、我々は、不安定なトレーニングのような問題にもかかわらず、Valenが正しい解の分布を推定するのを支援する逆学習に基づくアプローチであるTine法を導入した。
Tine を反映して,ガウス分布の混合として推論問題のサンプル分布をモデル化し,Funny 法を提案する。
これにより、ヴァレンは正しい解分布の真の形を捉えることができる。
さらに、同様にプログレッシブパターン表現の分布をモデル化するSBR法を設計した。
全体として、Funny、Tine、SBRメソッドはヴァレンのパフォーマンスを大幅に改善し、視覚的抽象的推論問題を研究するための新しいアイデアと方法を提供する。
Visual abstract reasoning problems hold immense importance in the field of image processing. Both Bongard-Logo and Raven's Progressive Matrices (RPM) belong to this domain, with Bongard-Logo categorized as image clustering reasoning and RPM involving image progression pattern reasoning. This paper introduces Valen, a novel baseline model under probabilistic highlighting models. Valen exhibits remarkable performance in solving both RPM and Bongard-Logo problems, offering a versatile solution. Our investigation delves into the underlying mechanisms of probability-highlighting solvers, realizing they approximate solutions to reasoning problem instances as distributions delineated by primary and auxiliary samples. We propose that the learning objective is not the distribution of correct solutions but one defined by both primary and auxiliary samples. To bridge discrepancies, we introduced the Tine method, an adversarial learning-based approach to assist Valen in estimating a solution distribution closer to the correct one, albeit with issues like unstable training. Reflecting on Tine, we propose modeling the sample distribution of reasoning problems as a mixture of Gaussian distributions, leading to the Funny method. This effectively enables Valen to capture the true form of the correct solution distribution. Furthermore, we designed the SBR method to model the distribution of progressive patterns representation similarly. Overall, the Funny, Tine, and SBR methods significantly improve Valen's performance, providing new ideas and methods for studying visual abstract reasoning problems. | 翻訳日:2024-07-09 10:41:17 公開日:2024-07-07 |