このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240930となっている論文です。

PDF登録状況(公開日: 20240930)

TitleAuthorsAbstract論文公表日・翻訳日
# CyberForce: マルウェア除去のためのフェデレーション強化学習フレームワーク

CyberForce: A Federated Reinforcement Learning Framework for Malware Mitigation ( http://arxiv.org/abs/2308.05978v3 )

ライセンス: Link先を確認
Chao Feng, Alberto Huertas Celdran, Pedro Miguel Sanchez Sanchez, Jan Kreischer, Jan von der Assen, Gerome Bovet, Gregorio Martinez Perez, Burkhard Stiller, (参考訳) 近年の研究では、強化学習(RL)と移動目標防衛(MTD)の統合により、IoT(Internet-of-Things)デバイスにおけるサイバーセキュリティが向上することが示されている。 それでも、既存の作業の実践性は、RLにおける集中型データ処理に関連するデータプライバシの懸念や、不均一なゼロデイ攻撃の増加に対して有効な適切なMTD技術を学ぶのに必要な不満足な時間によって妨げられている。 この研究は、フェデレーションと強化学習(FRL)を組み合わせたフレームワークであるCyberForceを紹介し、ゼロデイ攻撃を緩和するための適切なMTDテクニックを共同でプライベートに学習する。 CyberForceはデバイスフィンガープリントと異常検出を統合して、FRLベースのエージェントによって選択されたMTDメカニズムを報酬または罰する。 このフレームワークは、異種マルウェアのサンプルに影響された実際のIoTプラットフォームの10の物理デバイスで構成されたシナリオでデプロイされ、評価されている。 実験のプールは、CyberForceが既存のRLベースの集中型アプローチよりも高速に攻撃を緩和するMTD技術を学ぶことを示した。 さらに、様々なデバイスが異なる攻撃にさらされると、CyberForceは知識伝達の恩恵を受け、性能が向上し、最近の研究と比べて学習時間が短縮される。 最後に、エージェント学習プロセスで使用される異なる集約アルゴリズムは、CyberForceに悪意のある攻撃に対する顕著な堅牢性を提供する。

Recent research has shown that the integration of Reinforcement Learning (RL) with Moving Target Defense (MTD) can enhance cybersecurity in Internet-of-Things (IoT) devices. Nevertheless, the practicality of existing work is hindered by data privacy concerns associated with centralized data processing in RL, and the unsatisfactory time needed to learn right MTD techniques that are effective against a rising number of heterogeneous zero-day attacks. Thus, this work presents CyberForce, a framework that combines Federated and Reinforcement Learning (FRL) to collaboratively and privately learn suitable MTD techniques for mitigating zero-day attacks. CyberForce integrates device fingerprinting and anomaly detection to reward or penalize MTD mechanisms chosen by an FRL-based agent. The framework has been deployed and evaluated in a scenario consisting of ten physical devices of a real IoT platform affected by heterogeneous malware samples. A pool of experiments has demonstrated that CyberForce learns the MTD technique mitigating each attack faster than existing RL-based centralized approaches. In addition, when various devices are exposed to different attacks, CyberForce benefits from knowledge transfer, leading to enhanced performance and reduced learning time in comparison to recent works. Finally, different aggregation algorithms used during the agent learning process provide CyberForce with notable robustness to malicious attacks.
翻訳日:2024-11-09 14:40:04 公開日:2024-09-30
# Trio-ViT:Softmax-free Efficient Vision Transformerのための後処理量子化と高速化

Trio-ViT: Post-Training Quantization and Acceleration for Softmax-Free Efficient Vision Transformer ( http://arxiv.org/abs/2405.03882v2 )

ライセンス: Link先を確認
Huihong Shi, Haikuo Shao, Wendong Mao, Zhongfeng Wang, (参考訳) 自然言語処理(NLP)分野におけるトランスフォーマーの大きな成功により、視覚トランスフォーマー(ViT)は急速に発展し、様々なコンピュータビジョンタスクにおいて顕著な性能を発揮している。 しかし、その巨大なモデルサイズと集約的な計算により、ViTsの組み込みデバイスへの展開が妨げられ、量子化のような効果的なモデル圧縮手法が要求される。 残念なことに、ハードウェアに親しみやすく量子化に敏感な非線形演算、特に {Softmax} が存在するため、ViTの全ての操作を完全に定量化することは簡単ではない。 ここでは, 問題となるソフトマックスを除去するだけでなく, 計算複雑性の低い線形注意を組み込んだTrio-ViTを提案する。 具体的には,アルゴリズムレベルでは,ソフトマックスフリーで効率的なViTのユニークな活性化分布をフルに考慮し,量子化の精度を高めることを目的とした,‘調整後量子化エンジン’を開発する。 さらに、ハードウェアレベルでは、効率的なViTの特定のConvolution-Transformerハイブリッドアーキテクチャに特化したアクセラレータを構築し、ハードウェア効率を向上させる。 Trio-ViTフレームワークの有効性を常に実証する実験結果が得られた。 特に、$\uparrow$$\mathbf{3.6}\times$, $\uparrow$$\mathbf{5.0}\times$, and $\uparrow$$\mathbf{7.3}\times$ FPSは、最先端のViTアクセラレータと同等の精度で、$\uparrow$$\mathbf{6.0}\times$, $\uparrow$$\mathbf{1.5}\times$, $\uparrow$\mathbf{2.1}\times$ DSP効率で得ることができる。 コードは \url{https://github.com/shihuihong214/Trio-ViT} で公開されている。

Motivated by the huge success of Transformers in the field of natural language processing (NLP), Vision Transformers (ViTs) have been rapidly developed and achieved remarkable performance in various computer vision tasks. However, their huge model sizes and intensive computations hinder ViTs' deployment on embedded devices, calling for effective model compression methods, such as quantization. Unfortunately, due to the existence of hardware-unfriendly and quantization-sensitive non-linear operations, particularly {Softmax}, it is non-trivial to completely quantize all operations in ViTs, yielding either significant accuracy drops or non-negligible hardware costs. In response to challenges associated with \textit{standard ViTs}, we focus our attention towards the quantization and acceleration for \textit{efficient ViTs}, which not only eliminate the troublesome Softmax but also integrate linear attention with low computational complexity, and propose Trio-ViT accordingly. Specifically, at the algorithm level, we develop a {tailored post-training quantization engine} taking the unique activation distributions of Softmax-free efficient ViTs into full consideration, aiming to boost quantization accuracy. Furthermore, at the hardware level, we build an accelerator dedicated to the specific Convolution-Transformer hybrid architecture of efficient ViTs, thereby enhancing hardware efficiency. Extensive experimental results consistently prove the effectiveness of our Trio-ViT framework. {Particularly, we can gain up to $\uparrow$$\mathbf{3.6}\times$, $\uparrow$$\mathbf{5.0}\times$, and $\uparrow$$\mathbf{7.3}\times$ FPS under comparable accuracy over state-of-the-art ViT accelerators, as well as $\uparrow$$\mathbf{6.0}\times$, $\uparrow$$\mathbf{1.5}\times$, and $\uparrow$$\mathbf{2.1}\times$ DSP efficiency.} Codes are available at \url{https://github.com/shihuihong214/Trio-ViT}.
翻訳日:2024-11-09 02:52:29 公開日:2024-09-30
# 量子絡み合いと古典的非分離性との操作的区別

An operational distinction between quantum entanglement and classical non-separability ( http://arxiv.org/abs/2405.15692v2 )

ライセンス: Link先を確認
Natalia Korolkova, Luis Sánchez-Soto, Gerd Leuchs, (参考訳) 量子絡み合い (quantum entanglement) は多次元系における重ね合わせ状態(少なくとも2つの粒子)を記述し、分解不可能であり、したがって分離不能である。 非分離状態は、ベクトル空間を含む古典理論にも存在する。 どちらの場合もベルのような不平等を犯すことが可能である。 これは議論の的となり、古典的ケースと量子的ケースの運用上の違いを特定することで解決する。

Quantum entanglement describes superposition states in multi-dimensional systems, at least two partite, which cannot be factorized and are thus non-separable. Non-separable states exist also in classical theories involving vector spaces. In both cases, it is possible to violate a Bell-like inequality. This has led to controversial discussions, which we resolve by identifying an operational distinction between the classical and quantum cases.
翻訳日:2024-11-09 02:18:45 公開日:2024-09-30
# Stealing Trust: Web3認証におけるBlindメッセージアタックの発見

Stealing Trust: Unraveling Blind Message Attacks in Web3 Authentication ( http://arxiv.org/abs/2406.00523v3 )

ライセンス: Link先を確認
Kailun Yan, Xiaokuan Zhang, Wenrui Diao, (参考訳) Web3の分野が急速に拡大していくにつれ、様々なWeb3アプリケーションへのゲートウェイであるWeb3認証のセキュリティがますます重要になっている。 多くのWeb3アプリケーションでログイン方法として広く使われているが、Web3認証のセキュリティリスクはあまり注目されていない。 本稿では,Web3認証プロセスの脆弱性を調査し,ブラインドメッセージ攻撃と呼ばれる新たなタイプの攻撃を提案する。 ブラインドメッセージ攻撃では、攻撃者はユーザーがメッセージのソースを検証できないことを悪用し、ターゲットアプリケーションへの不正アクセスを達成することで、ターゲットアプリケーションからのメッセージに盲目的に署名するようユーザを騙す。 我々は,Web3認証関連APIと対話して脆弱性を特定する動的検出ツールであるWeb3AuthCheckerを開発した。 実世界のWeb3アプリケーションに対する我々の評価は、75.8%(22/29)のWeb3認証デプロイメントが盲目のメッセージアタックのリスクにさらされていることを示している。 この警告に応えて、私たちはオープンソースのウォレットMetaMaskにWeb3AuthGuardを実装し、攻撃の可能性をユーザに警告しました。 評価の結果,Web3AuthGuardはテスト済みのWeb3認証の80%で警告を発生させることができた。 我々は、我々の発見を脆弱なウェブサイトに責任を持って報告し、2つのCVE IDを割り当てた。

As the field of Web3 continues its rapid expansion, the security of Web3 authentication, often the gateway to various Web3 applications, becomes increasingly crucial. Despite its widespread use as a login method by numerous Web3 applications, the security risks of Web3 authentication have not received much attention. This paper investigates the vulnerabilities in the Web3 authentication process and proposes a new type of attack, dubbed blind message attacks. In blind message attacks, attackers trick users into blindly signing messages from target applications by exploiting users' inability to verify the source of messages, thereby achieving unauthorized access to the target application. We have developed Web3AuthChecker, a dynamic detection tool that interacts with Web3 authentication-related APIs to identify vulnerabilities. Our evaluation of real-world Web3 applications shows that a staggering 75.8% (22/29) of Web3 authentication deployments are at risk of blind message attacks. In response to this alarming situation, we implemented Web3AuthGuard on the open-source wallet MetaMask to alert users of potential attacks. Our evaluation results show that Web3AuthGuard can successfully raise alerts in 80% of the tested Web3 authentications. We have responsibly reported our findings to vulnerable websites and have been assigned two CVE IDs.
翻訳日:2024-11-09 01:56:09 公開日:2024-09-30
# MultiPragEval:大規模言語モデルの多言語プラグマティック評価

MultiPragEval: Multilingual Pragmatic Evaluation of Large Language Models ( http://arxiv.org/abs/2406.07736v2 )

ライセンス: Link先を確認
Dojun Park, Jiwoo Lee, Seohyun Park, Hyeyun Jeong, Youngeun Koo, Soonha Hwang, Seonwoo Park, Sungeun Lee, (参考訳) LLM(Large Language Models)の能力が拡大するにつれて、より高度な言語理解に焦点をあてて、基本的な知識評価以上の評価を行うことがますます重要になる。 本研究は, 英語, ドイツ語, 韓国語, 中国語を対象とするLLMの多言語的実用評価であるMultiPragEvalを紹介する。 Griceの協力原理と4つの会話の最大値に基づいて分類された1200の質問ユニットを補完するMultiPragEvalは、LLMの文脈認識とインプリケートされた意味を推測する能力の詳細な評価を可能にする。 以上の結果から,Claude3-Opusはすべてのテスト言語で他のモデルよりも優れており,この分野における最先端の確立が期待できる。 オープンソースのモデルでは、Solar-10.7BとQwen1.5-14Bが強力なライバルとして登場している。 実用的な推論を解析することにより、AIシステムにおける高度な言語理解に必要な能力に関する貴重な洞察を提供する。

As the capabilities of Large Language Models (LLMs) expand, it becomes increasingly important to evaluate them beyond basic knowledge assessment, focusing on higher-level language understanding. This study introduces MultiPragEval, the first multilingual pragmatic evaluation of LLMs, designed for English, German, Korean, and Chinese. Comprising 1200 question units categorized according to Grice's Cooperative Principle and its four conversational maxims, MultiPragEval enables an in-depth assessment of LLMs' contextual awareness and their ability to infer implied meanings. Our findings demonstrate that Claude3-Opus significantly outperforms other models in all tested languages, establishing a state-of-the-art in the field. Among open-source models, Solar-10.7B and Qwen1.5-14B emerge as strong competitors. By analyzing pragmatic inference, we provide valuable insights into the capabilities essential for advanced language comprehension in AI systems.
翻訳日:2024-11-09 01:33:31 公開日:2024-09-30
# 言語モデルは確率論的推論が可能に

What Are the Odds? Language Models Are Capable of Probabilistic Reasoning ( http://arxiv.org/abs/2406.12830v2 )

ライセンス: Link先を確認
Akshay Paruchuri, Jake Garrison, Shun Liao, John Hernandez, Jacob Sunshine, Tim Althoff, Xin Liu, Daniel McDuff, (参考訳) 言語モデル (LM) は極めて複雑な言語処理を行うことができるが、数値推論はそれらがしばしば苦労する分野である。 推論の重要であるが稀に評価される形式は確率分布の理解である。 本稿では,理想化および実世界の統計分布を用いたLMの確率論的推論能力の評価に焦点をあてる。 本研究では,パーセンタイルの推定,サンプルの描画,確率の計算という3つのタスクにおいて,最先端のLMの体系的評価を行う。 LMにコンテキストを提供する3つの方法を評価する。 1) 配当又は配当系統の例を固定すること。 2)現実世界の文脈。 3) 正規近似を基礎とする統計の要約。 モデルは分布に関する推論を行うことができ、たとえこれらの仮定が間違っていたり間違っていたとしても、実世界の文脈、例えばショットや単純化された仮定を組み込むことによってさらに助けられる。 この作業を行うために,我々は,関連する質問応答ペアを用いた総合的なベンチマーク分布データセットを開発し,公開する。

Language models (LM) are capable of remarkably complex linguistic tasks; however, numerical reasoning is an area in which they frequently struggle. An important but rarely evaluated form of reasoning is understanding probability distributions. In this paper, we focus on evaluating the probabilistic reasoning capabilities of LMs using idealized and real-world statistical distributions. We perform a systematic evaluation of state-of-the-art LMs on three tasks: estimating percentiles, drawing samples, and calculating probabilities. We evaluate three ways to provide context to LMs 1) anchoring examples from within a distribution or family of distributions, 2) real-world context, 3) summary statistics on which to base a Normal approximation. Models can make inferences about distributions, and can be further aided by the incorporation of real-world context, example shots and simplified assumptions, even if these assumptions are incorrect or misspecified. To conduct this work, we developed a comprehensive benchmark distribution dataset with associated question-answer pairs that we will release publicly.
翻訳日:2024-11-09 01:22:29 公開日:2024-09-30
# HuatuoGPT-Vision - マルチモーダルLCMへの医用視覚知識注入を目指して

HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale ( http://arxiv.org/abs/2406.19280v3 )

ライセンス: Link先を確認
Junying Chen, Chi Gui, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang, (参考訳) GPT-4Vのようなマルチモーダル大規模言語モデル(MLLM)の急速な開発は、大きな進歩をもたらした。 しかし、これらのモデルは、データプライバシの懸念と高いアノテーションコストから生じる、医療ビジョンテキストデータの量と品質の制限により、医療マルチモーダル能力の課題に直面している。 先駆的なアプローチでは、PubMedの大規模で識別されていない医療画像テキストペアを使用してこれらの制限に対処するが、固有のデータノイズのために依然として不足している。 そこで我々は,医療用VQAサンプル13万件のPubMedVisionデータセットを作成するために,医療用画像テキストペアをPubMedから改良し,MLLM(GPT-4V)を「公開されていない」能力で使用した。 検証の結果, (1) PubMedVision は現在のMLLMの医療マルチモーダル能力を大幅に向上させ,MMMU Health & Medicine トラックを含むベンチマークの大幅な改善, (2) 医療専門家による手作業によるチェック, 実験結果による他のデータ構築手法と比較して, データセットの優れたデータ品質を評価することができることがわかった。 PubMedVisionを用いて34Bの医療MLLM HuatuoGPT-Visionをトレーニングし、オープンソースMLLMの医療マルチモーダルシナリオにおいて優れたパフォーマンスを示す。

The rapid development of multimodal large language models (MLLMs), such as GPT-4V, has led to significant advancements. However, these models still face challenges in medical multimodal capabilities due to limitations in the quantity and quality of medical vision-text data, stemming from data privacy concerns and high annotation costs. While pioneering approaches utilize PubMed's large-scale, de-identified medical image-text pairs to address these limitations, they still fall short due to inherent data noise. To tackle this, we refined medical image-text pairs from PubMed and employed MLLMs (GPT-4V) in an 'unblinded' capacity to denoise and reformat the data, resulting in the creation of the PubMedVision dataset with 1.3 million medical VQA samples. Our validation demonstrates that: (1) PubMedVision can significantly enhance the medical multimodal capabilities of current MLLMs, showing significant improvement in benchmarks including the MMMU Health & Medicine track; (2) manual checks by medical experts and empirical results validate the superior data quality of our dataset compared to other data construction methods. Using PubMedVision, we train a 34B medical MLLM HuatuoGPT-Vision, which shows superior performance in medical multimodal scenarios among open-source MLLMs.
翻訳日:2024-11-09 00:59:29 公開日:2024-09-30
# TongGu: 知識を中心とした大規模言語モデルによる中国語の古典的理解を習得する

TongGu: Mastering Classical Chinese Understanding with Knowledge-Grounded Large Language Models ( http://arxiv.org/abs/2407.03937v2 )

ライセンス: Link先を確認
Jiahuan Cao, Dezhi Peng, Peirong Zhang, Yongxin Shi, Yang Liu, Kai Ding, Lianwen Jin, (参考訳) 古典中国語は古代中国の豊かな遺産と知恵の入り口であるが、その複雑さは専門知識のない現代のほとんどの人々にとって重大な理解障壁となっている。 大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な能力を示してきたが、古典中国語理解(CCU)、特にデータ要求や知識集約的なタスクでは苦戦している。 このジレンマに対応するために,3つのコアコントリビューションを基盤とした最初のCCU固有のLLMである「textbf{TongGu}」を提案する。 まず、LLMの完全なCCUポテンシャルを解き放つことを目的とした、2段階の命令チューニングデータセットACCN-INSを構築する。 第2に,破滅的な忘れを防止し,基礎知識を保ちながらTongGuが新たな能力を得ることを可能にするために,冗長性を考慮したチューニング(RAT)を提案する。 第3に,知識接地に基づく幻覚を低減するために,CCU検索拡張生成(CCU-RAG)技術を提案する。 24種類のCCUタスクにわたる大規模な実験は、TongGuの優れた能力を評価し、RATとCCU-RAGの有効性を裏付けている。 モデルとデータセットは \url{https://github.com/SCUT-DLVCLab/TongGu-LLM} で公開されている。

Classical Chinese is a gateway to the rich heritage and wisdom of ancient China, yet its complexities pose formidable comprehension barriers for most modern people without specialized knowledge. While Large Language Models (LLMs) have shown remarkable capabilities in Natural Language Processing (NLP), they struggle with Classical Chinese Understanding (CCU), especially in data-demanding and knowledge-intensive tasks. In response to this dilemma, we propose \textbf{TongGu} (mean understanding ancient and modern), the first CCU-specific LLM, underpinned by three core contributions. First, we construct a two-stage instruction-tuning dataset ACCN-INS derived from rich classical Chinese corpora, aiming to unlock the full CCU potential of LLMs. Second, we propose Redundancy-Aware Tuning (RAT) to prevent catastrophic forgetting, enabling TongGu to acquire new capabilities while preserving its foundational knowledge. Third, we present a CCU Retrieval-Augmented Generation (CCU-RAG) technique to reduce hallucinations based on knowledge-grounding. Extensive experiments across 24 diverse CCU tasks validate TongGu's superior ability, underscoring the effectiveness of RAT and CCU-RAG. The model and dataset are available at \url{https://github.com/SCUT-DLVCLab/TongGu-LLM}.
翻訳日:2024-11-08 23:57:53 公開日:2024-09-30
# パラメトリックダウンコンバージョン相互作用を用いたシュレーディンガー猫量子状態の合成

Preparation of Schrödinger cat quantum state using parametric down-conversion interaction ( http://arxiv.org/abs/2407.05759v2 )

ライセンス: Link先を確認
V. L. Gorshenin, (参考訳) Schr\"odinger cat (SC) 状態は、非ガウス的な性質のため、量子光学において重要である。 本稿では, 縮退パラメトリックダウンコンバージョンと, ポンプモードにおける光子数測定を併用した, 明るい(多重光子)SC状態の条件付き生成法を提案する。 本手法は, 原理上, 現代の高次(Q\)光マイクロ共振器を用いて実装可能であることを示す。

The Schr\"odinger cat (SC) states are important in quantum optics because of their non-Gaussian properties. We propose a novel method of conditional generation of bright (multi-photon) SC states that uses degenerate parametric down-conversion and heralding measurement of the photon number in the pump mode. We show that this method, in principle, could be implemented using the modern high-\(Q\) optical microresonators.
翻訳日:2024-11-08 23:24:33 公開日:2024-09-30
# MDP幾何学・正規化・値自由解法

MDP Geometry, Normalization and Value Free Solvers ( http://arxiv.org/abs/2407.06712v2 )

ライセンス: Link先を確認
Arsenii Mustafin, Aleksei Pakharev, Alex Olshevsky, Ioannis Ch. Paschalidis, (参考訳) マルコフ決定過程(英: Markov Decision Process、MDP)は、シーケンシャルな意思決定問題の数学的モデルである。 本稿では,MDPの幾何学的解釈について述べる。 この解釈に基づいて、MDPは、区別不能な鍵解アルゴリズムのダイナミックスを持つ同値クラスに分割できることを示す。 この関連する正規化手順は、ポリシー値を計算せずに最適なポリシーを求める新しいタイプのMDP解法アルゴリズムの開発を可能にする。 提案する新しいアルゴリズムは、異なる設定を実現し、場合によっては最先端の結果を改善する。

The Markov Decision Process (MDP) is a widely used mathematical model for sequential decision-making problems. In this paper, we present a new geometric interpretation of MDPs. Based on this interpretation, we show that MDPs can be divided into equivalence classes with indistinguishable key solving algorithms dynamics. This related normalization procedure enables the development of a novel class of MDP-solving algorithms that find optimal policies without computing policy values. The new algorithms we propose for different settings achieve and, in some cases, improve upon state-of-the-art results.
翻訳日:2024-11-08 23:02:19 公開日:2024-09-30
# 高スループットスクリーニングのための仮想染色は一般化できるか?

Can virtual staining for high-throughput screening generalize? ( http://arxiv.org/abs/2407.06979v3 )

ライセンス: Link先を確認
Samuel Tonks, Cuong Nguyen, Steve Hood, Ryan Musso, Ceridwen Hopely, Steve Titus, Minh Doan, Iain Styles, Alexander Krull, (参考訳) 製薬業界における高スループットスクリーニング(HTS)からの大量の画像データは、仮想染色モデルのトレーニングに優れた資源を提供する。 しかし、ある実験条件の下で訓練されたモデルが他の条件に一般化する可能性については、まだ未解明のままである。 本研究は,HTSに共通する3種類の細胞型(肺,卵巣,乳房)と2種類の表現型(毒性,非毒性)から得られたデータを用いて,仮想染色モデルを効果的に訓練し,3つの典型的なHTS分布シフト – 見えない表現型,見えない細胞型,および両者の組み合わせを一般化するか否かを系統的に検討した。 772,416対の明るさ場、細胞質、核、DNA損傷染色画像のデータセットを用いて、ピクセルベース、インスタンスワイド、生物学的機能ベースのモデルの一般化能力を評価する。 本研究は,非毒性条件試料の仮想核および細胞質モデルのトレーニングが毒性条件試料に一般化するだけでなく,毒性条件試料のトレーニングと比較して,すべての評価レベルにおける性能の向上につながることを示唆している。 卵巣または肺の細胞サンプルで訓練されたモデルは、他の条件下ではよく機能するが、乳房の細胞サンプルで訓練されたモデルは、常に低い一般化を示す。 未確認の細胞型や表現型への一般化は、未確認の細胞型のみに対処するよりも、あらゆるレベルの評価において良好な一般化を示す。 本研究は、多様なHTSデータセットに基づいてトレーニングされた仮想染色モデルの一般化能力に関する、初めて大規模なデータ中心分析を行い、実験的なデータ生成のための貴重な戦略を提供する。

The large volume and variety of imaging data from high-throughput screening (HTS) in the pharmaceutical industry present an excellent resource for training virtual staining models. However, the potential of models trained under one set of experimental conditions to generalize to other conditions remains underexplored. This study systematically investigates whether data from three cell types (lung, ovarian, and breast) and two phenotypes (toxic and non-toxic conditions) commonly found in HTS can effectively train virtual staining models to generalize across three typical HTS distribution shifts: unseen phenotypes, unseen cell types, and the combination of both. Utilizing a dataset of 772,416 paired bright-field, cytoplasm, nuclei, and DNA-damage stain images, we evaluate the generalization capabilities of models across pixel-based, instance-wise, and biological-feature-based levels. Our findings indicate that training virtual nuclei and cytoplasm models on non-toxic condition samples not only generalizes to toxic condition samples but leads to improved performance across all evaluation levels compared to training on toxic condition samples. Generalization to unseen cell types shows variability depending on the cell type; models trained on ovarian or lung cell samples often perform well under other conditions, while those trained on breast cell samples consistently show poor generalization. Generalization to unseen cell types and phenotypes shows good generalization across all levels of evaluation compared to addressing unseen cell types alone. This study represents the first large-scale, data-centric analysis of the generalization capability of virtual staining models trained on diverse HTS datasets, providing valuable strategies for experimental training data generation.
翻訳日:2024-11-08 22:51:20 公開日:2024-09-30
# アクティベーション誘導型モデル編集によるバックドア攻撃の軽減

Mitigating Backdoor Attacks using Activation-Guided Model Editing ( http://arxiv.org/abs/2407.07662v2 )

ライセンス: Link先を確認
Felix Hsieh, Huy H. Nguyen, AprilPyone MaungMaung, Dmitrii Usynin, Isao Echizen, (参考訳) バックドア攻撃は、トレーニングプロセス中に隠れたトリガーを埋め込むことで、機械学習モデルの完全性と信頼性を損なう。 本研究では,そのようなバックドア攻撃に対抗するために,機械学習による新たなバックドア緩和手法を提案する。 提案手法は,モデル重みの編集を導くために,ドメイン等価な未確認データのモデルアクティベーションを利用する。 従来のアンラーニングベースの緩和手法とは異なり、我々の手法は計算コストが低く、最先端のパフォーマンスを実現し、未学習には少数の未学習サンプルしか必要としない。 さらに,バックドアの未学習は,対象クラス全体を未学習にする可能性も指摘し,モデル編集後のモデルの実用性を維持するための追加の修復手順を導入する。 実験の結果,提案手法は,異なるデータセットのバックドアの学習やトリガーパターンの学習に有効であることがわかった。

Backdoor attacks compromise the integrity and reliability of machine learning models by embedding a hidden trigger during the training process, which can later be activated to cause unintended misbehavior. We propose a novel backdoor mitigation approach via machine unlearning to counter such backdoor attacks. The proposed method utilizes model activation of domain-equivalent unseen data to guide the editing of the model's weights. Unlike the previous unlearning-based mitigation methods, ours is computationally inexpensive and achieves state-of-the-art performance while only requiring a handful of unseen samples for unlearning. In addition, we also point out that unlearning the backdoor may cause the whole targeted class to be unlearned, thus introducing an additional repair step to preserve the model's utility after editing the model. Experiment results show that the proposed method is effective in unlearning the backdoor on different datasets and trigger patterns.
翻訳日:2024-11-08 22:40:08 公開日:2024-09-30
# 不規則・不整合衛星画像時系列の基礎モデルへの道を開く

Paving the way toward foundation models for irregular and unaligned Satellite Image Time Series ( http://arxiv.org/abs/2407.08448v2 )

ライセンス: Link先を確認
Iris Dumeur, Silvia Valero, Jordi Inglada, (参考訳) 近年,衛星リモートセンシング画像の基礎モデルがいくつか提案されているが,実・運用上の大きな課題に対処するには至っていない。 実際、データのスペクトル、空間、時間次元、および不規則または非整合時間サンプリングを考慮に入れない埋め込みは、ほとんどの現実世界ではほとんど役に立たない。 その結果,ALIgned Sits Encoder (ALISE) が提案され,不規則かつ非整合なSITSの空間的,スペクトル的,時間的次元を利用した新しい手法が提案される。 SITSで現在利用可能なSSLモデルとは異なり、ALISEはSITSを共通の学習された時間的プロジェクション空間に投影するための柔軟なクエリメカニズムを組み込んでいる。 さらに、マルチビューフレームワークにより、マスク付き自動エンコーディングタスクとSITSのインスタンス識別の統合について検討する。 生成した表現の質は、3つの下流タスク(PASTIS)、土地被覆セグメンテーション(MultiSenGE)、および新しい作物変化検出データセットによって評価される。 さらに、変更検出タスクを監督せずに行う。 その結果,線形探索セグメンテーションタスクにおいて,アライメント表現の使用は従来のSSLメソッドよりも効果的であることが示唆された。

Although recently several foundation models for satellite remote sensing imagery have been proposed, they fail to address major challenges of real/operational applications. Indeed, embeddings that don't take into account the spectral, spatial and temporal dimensions of the data as well as the irregular or unaligned temporal sampling are of little use for most real world uses. As a consequence, we propose an ALIgned Sits Encoder (ALISE), a novel approach that leverages the spatial, spectral, and temporal dimensions of irregular and unaligned SITS while producing aligned latent representations. Unlike SSL models currently available for SITS, ALISE incorporates a flexible query mechanism to project the SITS into a common and learned temporal projection space. Additionally, thanks to a multi-view framework, we explore integration of instance discrimination along a masked autoencoding task to SITS. The quality of the produced representation is assessed through three downstream tasks: crop segmentation (PASTIS), land cover segmentation (MultiSenGE), and a novel crop change detection dataset. Furthermore, the change detection task is performed without supervision. The results suggest that the use of aligned representations is more effective than previous SSL methods for linear probing segmentation tasks.
翻訳日:2024-11-08 22:17:54 公開日:2024-09-30
# LLAssist: 大規模言語モデルを用いた文献レビューの自動化ツール

LLAssist: Simple Tools for Automating Literature Review Using Large Language Models ( http://arxiv.org/abs/2407.13993v2 )

ライセンス: Link先を確認
Christoforus Yoga Haryanto, (参考訳) 本稿では,学術研究における文献レビューの合理化を目的としたオープンソースツールであるLAssistを紹介する。 科学出版物の指数関数的な成長の時代、研究者は大量の文学を効率的に処理する上で困難に直面している。 LLAssistは、大規模な言語モデル(LLM)と自然言語処理(NLP)技術を活用して、レビュープロセスの重要な側面を自動化することでこの問題に対処する。 具体的には,研究論文から重要な情報を抽出し,ユーザ定義された研究課題との関連性を評価する。 LLAssistの目標は、包括的な文献レビューに必要な時間と労力を大幅に削減することであり、研究者は初期スクリーニングタスクよりも、情報を分析し、合成することに集中することができる。 LLAssistは、文献レビューのワークフローの一部を自動化することによって、学術出版物の増大量をより効率的に管理することを目指している。

This paper introduces LLAssist, an open-source tool designed to streamline literature reviews in academic research. In an era of exponential growth in scientific publications, researchers face mounting challenges in efficiently processing vast volumes of literature. LLAssist addresses this issue by leveraging Large Language Models (LLMs) and Natural Language Processing (NLP) techniques to automate key aspects of the review process. Specifically, it extracts important information from research articles and evaluates their relevance to user-defined research questions. The goal of LLAssist is to significantly reduce the time and effort required for comprehensive literature reviews, allowing researchers to focus more on analyzing and synthesizing information rather than on initial screening tasks. By automating parts of the literature review workflow, LLAssist aims to help researchers manage the growing volume of academic publications more efficiently.
翻訳日:2024-11-08 19:38:31 公開日:2024-09-30
# 機械的自己複製

Mechanical Self-replication ( http://arxiv.org/abs/2407.14556v2 )

ライセンス: Link先を確認
Ralph P. Lano, (参考訳) 本研究では,生体細胞内の生物学的過程にインスパイアされた自己複製機械系の理論的モデルを提案する。 モデルは自己複製をコアコンポーネントに分解し、それぞれが基本ブロック型のセットから構築された単一のマシンによって実行される。 ソート、コピー、ビルディングといった重要な機能を示す。 このモデルは自己複製システムの制約に関する貴重な洞察を提供する。 この議論はまた、システムの空間的およびタイミング的挙動と、その効率性と複雑さについても論じている。 この研究は、自己複製機構とその情報処理アプリケーションに関する将来の研究のための基盤となるフレームワークを提供する。

This study presents a theoretical model for a self-replicating mechanical system inspired by biological processes within living cells and supported by computer simulations. The model decomposes self-replication into core components, each of which is executed by a single machine constructed from a set of basic block types. Key functionalities such as sorting, copying, and building, are demonstrated. The model provides valuable insights into the constraints of self-replicating systems. The discussion also addresses the spatial and timing behavior of the system, as well as its efficiency and complexity. This work provides a foundational framework for future studies on self-replicating mechanisms and their information-processing applications.
翻訳日:2024-11-08 19:27:32 公開日:2024-09-30
# 助けが必要! LLM のユーザサポートに対する質問能力の評価:テキストからSQL生成を事例として

I Need Help! Evaluating LLM's Ability to Ask for Users' Support: A Case Study on Text-to-SQL Generation ( http://arxiv.org/abs/2407.14767v2 )

ライセンス: Link先を確認
Cheng-Kuang Wu, Zhi Rui Tam, Chao-Chung Wu, Chieh-Yen Lin, Hung-yi Lee, Yun-Nung Chen, (参考訳) 本研究は, LLMのユーザサポートを積極的に行う能力について考察する。 本稿では,性能改善とユーザ負担のトレードオフを評価する指標を提案し,LLMが情報提供状況の異なる支援をいつ要求するかを判断できるかどうかを検討する。 我々の実験は、外部からのフィードバックがなければ、多くのLCMがユーザサポートの必要性を認識するのに苦労していることを示している。 本研究は, 外部信号の重要性を強調し, 今後の支援探索戦略の改善に向けた知見を提供するものである。 ソースコード:https://github.com/appier-research/i-need-help

This study explores the proactive ability of LLMs to seek user support. We propose metrics to evaluate the trade-off between performance improvements and user burden, and investigate whether LLMs can determine when to request help under varying information availability. Our experiments show that without external feedback, many LLMs struggle to recognize their need for user support. The findings highlight the importance of external signals and provide insights for future research on improving support-seeking strategies. Source code: https://github.com/appier-research/i-need-help
翻訳日:2024-11-08 19:27:32 公開日:2024-09-30
# 改良された画像分類のためのサブグラフクラスタリングと原子学習

Subgraph Clustering and Atom Learning for Improved Image Classification ( http://arxiv.org/abs/2407.14772v2 )

ライセンス: Link先を確認
Aryan Singh, Pepijn Van de Ven, Ciarán Eising, Patrick Denny, (参考訳) 本研究では,特徴抽出のための畳み込みニューラルネットワーク(CNN)と構造モデリングのためのグラフニューラルネットワーク(GNN)の強みを組み合わせた,新しいハイブリッド画像分類モデルであるグラフサブグラフネットワーク(GSN)を提案する。 GSNはk平均クラスタリングを使用してグラフノードをクラスタにグループ化し、サブグラフの作成を容易にする。 これらのサブグラフは、辞書学習の代表的な『原子』を学習するために利用され、スパースでクラス区別可能な特徴の識別を可能にする。 この統合されたアプローチは、医用画像のような領域で特に重要であり、微妙な特徴の違いを識別することが正確な分類に不可欠である。 提案したGSNの性能を評価するため,PascalVOCやHAM10000といったベンチマークデータセットの実験を行った。 本研究は, 各種クラスにまたがる辞書構成を最適化する上で, 本モデルの有効性を示すものである。 この性能向上は、主にCNN、GNN、グラフ学習技術の統合によるものであり、ラベル付き例が限定されたデータセットの処理を総合的に改善している。 具体的には,従来のCNN手法と比較して,Pascal VOCやHAM10000といったベンチマークデータセットの方が精度が高いことを示す。

In this study, we present the Graph Sub-Graph Network (GSN), a novel hybrid image classification model merging the strengths of Convolutional Neural Networks (CNNs) for feature extraction and Graph Neural Networks (GNNs) for structural modeling. GSN employs k-means clustering to group graph nodes into clusters, facilitating the creation of subgraphs. These subgraphs are then utilized to learn representative `atoms` for dictionary learning, enabling the identification of sparse, class-distinguishable features. This integrated approach is particularly relevant in domains like medical imaging, where discerning subtle feature differences is crucial for accurate classification. To evaluate the performance of our proposed GSN, we conducted experiments on benchmark datasets, including PascalVOC and HAM10000. Our results demonstrate the efficacy of our model in optimizing dictionary configurations across varied classes, which contributes to its effectiveness in medical classification tasks. This performance enhancement is primarily attributed to the integration of CNNs, GNNs, and graph learning techniques, which collectively improve the handling of datasets with limited labeled examples. Specifically, our experiments show that the model achieves a higher accuracy on benchmark datasets such as Pascal VOC and HAM10000 compared to conventional CNN approaches.
翻訳日:2024-11-08 19:27:32 公開日:2024-09-30
# MemBench: 拡散モデルのためのメモリ化されたイメージトリガープロンプトデータセット

MemBench: Memorized Image Trigger Prompt Dataset for Diffusion Models ( http://arxiv.org/abs/2407.17095v2 )

ライセンス: Link先を確認
Chunsan Hong, Tae-Hyun Oh, Minhyuk Sung, (参考訳) 拡散モデルはテキスト・画像生成タスクにおいて顕著な成功を収め、多くの商用モデルの開発に繋がった。 しかし、近年の研究では、拡散モデルは特定のプロンプトによってトリガーされた列車データに複製された画像をしばしば生成し、著作権からプライバシーへの懸念まで社会問題を引き起こす可能性があると報告されている。 記憶化を助長するために,拡散モデルのための記憶化緩和法の開発が近年行われている。 それでも、ベンチマークの欠如は、これらの手法の真の有効性の評価を妨げている。 本稿では,画像記憶の緩和手法を評価するための最初のベンチマークであるMemBenchを紹介する。 我々のベンチマークには、様々なテキスト・画像拡散モデルにおいて、多数の記憶された画像トリガープロンプトが含まれている。 さらに, トリガープロンプトと一般プロンプトの両方で評価された指標を, トリガープロンプトと一般プロンプトの双方で評価し, 一般プロンプトの性能を維持しつつ, メモリ化問題に対処できるかどうかを検証した。 これは、それまでの作業が見落としていた実践的応用を考えると、重要な展開である。 MemBenchの評価を通じて、既存の画像記憶緩和法の性能がまだ拡散モデルに適用するには不十分であることを検証した。 コードとデータセットはhttps://github.com/chunsanHong/MemBench\_codeで公開されている。

Diffusion models have achieved remarkable success in Text-to-Image generation tasks, leading to the development of many commercial models. However, recent studies have reported that diffusion models often generate replicated images in train data when triggered by specific prompts, potentially raising social issues ranging from copyright to privacy concerns. To sidestep the memorization, there have been recent studies for developing memorization mitigation methods for diffusion models. Nevertheless, the lack of benchmarks impedes the assessment of the true effectiveness of these methods. In this work, we present MemBench, the first benchmark for evaluating image memorization mitigation methods. Our benchmark includes a large number of memorized image trigger prompts in various Text-to-Image diffusion models. Furthermore, in contrast to the prior work evaluating mitigation performance only on trigger prompts, we present metrics evaluating on both trigger prompts and general prompts, so that we can see whether mitigation methods address the memorization issue while maintaining performance for general prompts. This is an important development considering the practical applications which previous works have overlooked. Through evaluation on MemBench, we verify that the performance of existing image memorization mitigation methods is still insufficient for application to diffusion models. The code and datasets are available at https://github.com/chunsanHong/MemBench\_code.
翻訳日:2024-11-08 15:23:20 公開日:2024-09-30
# 拡散駆動型レンズレスファイバを用いた内視鏡的定量位相像のデジタル病理学への応用

Diffusion-driven lensless fiber endomicroscopic quantitative phase imaging towards digital pathology ( http://arxiv.org/abs/2407.18456v3 )

ライセンス: Link先を確認
Zhaoqing Chen, Jiawei Sun, Xinyi Ye, Bin Zhao, Xuelong Li, Juergen Czarske, (参考訳) レンズレスファイバー内視鏡は生体内イメージングのための新しいツールであり、定量的位相イメージング(QPI)をラベル無しで画像コントラストを高める方法として利用することができる。 しかし、レンズレスファイバー内視鏡による既存の単発位相再構成法は、単純な画像ではよく機能するが、複雑な顕微鏡構造には耐え難い。 本稿では,マルチコアファイバ(MCF)の検出側で取得したスペックルから直接位相像を再構成するスペックル条件拡散モデル(SpecDiffusion)を提案する。 従来のニューラルネットワークとは異なり、SpecDiffusionはスペックル駆動の位相再構成に反復的な位相分解ステップを採用している。 イテレーション方式により、SpecDiffusionはフェーズ再構築プロセスを複数のステップに分割し、最終フェーズイメージまで徐々に構築することができる。 この属性は、各ステップでの計算課題を緩和し、複雑な顕微鏡画像におけるリッチディテールの再構築を可能にする。 有効性を検証するため,MCFからスペックルを捕捉し,10万枚のペア画像からなるデータセットを構築する光学システムを構築した。 SpecDiffusionは、高忠実度位相再構成結果を提供し、テストチャートや生体組織などの見えない物体に対して強力な一般化能力を示し、再構成された組織画像の平均絶対誤差を7倍に削減する。 さらに、SpecDiffusionを用いて再構成した組織画像は、従来の方法と比較してゼロショット細胞分割作業において高い精度を示し、学習ベースのレンズレスファイバー内視鏡による細胞形態解析の可能性を示した。 SpecDiffusionは、MCFを含む散乱媒体による位相再構成の正確で一般化された方法を提供し、レンズレスファイバ顕微鏡画像の新しい視点を開く。

Lensless fiber endomicroscope is an emerging tool for in-vivo microscopic imaging, where quantitative phase imaging (QPI) can be utilized as a label-free method to enhance image contrast. However, existing single-shot phase reconstruction methods through lensless fiber endomicroscope typically perform well on simple images but struggle with complex microscopic structures. Here, we propose a speckle-conditioned diffusion model (SpecDiffusion), which reconstructs phase images directly from speckles captured at the detection side of a multi-core fiber (MCF). Unlike conventional neural networks, SpecDiffusion employs iterative phase denoising steps for speckle-driven phase reconstruction. The iteration scheme allows SpecDiffusion to break down the phase reconstruction process into multiple steps, gradually building up to the final phase image. This attribute alleviates the computation challenge at each step and enables the reconstruction of rich details in complex microscopic images. To validate its efficacy, we build an optical system to capture speckles from MCF and construct a dataset consisting of 100,000 paired images. SpecDiffusion provides high-fidelity phase reconstruction results and shows powerful generalization capacity for unseen objects, such as test charts and biological tissues, reducing the average mean absolute error of the reconstructed tissue images by 7 times. Furthermore, the reconstructed tissue images using SpecDiffusion shows higher accuracy in zero-shot cell segmentation tasks compared to the conventional method, demonstrating the potential for further cell morphology analysis through the learning-based lensless fiber endomicroscope. SpecDiffusion offers a precise and generalized method to phase reconstruction through scattering media, including MCFs, opening new perspective in lensless fiber endomicroscopic imaging.
翻訳日:2024-11-08 14:50:05 公開日:2024-09-30
# Gumbel-Softmax離散化制約、差別化可能なIDSチャネル、およびDNA保存のためのIDS補正コード

Gumbel-Softmax Discretization Constraint, Differentiable IDS Channel, and an IDS-Correcting Code for DNA Storage ( http://arxiv.org/abs/2407.18929v2 )

ライセンス: Link先を確認
Alan J. X. Guo, Mengyi Wei, Yufan Dai, Yali Wei, Pengchen Zhang, (参考訳) 挿入、削除、置換(IDS)の誤り訂正符号は、近年のDNA保存技術の進歩とともに注目を集めている。 しかし、様々なチャンネル設定にまたがるIDS訂正符号を設計するための普遍的な手法は、まだ未定である。 本稿では,複雑なIDSチャネルに対して,IDS訂正符号を効率よく生成することを目的とした自動エンコーダ方式 THEA-codeを提案する。 本研究では,オートエンコーダの特徴を識別するために,Gumbel-Softmax離散化制約を提案する。 これらのイノベーションは、オートエンコーダの収束を成功させ、複雑なIDSチャネルにまたがるコメンタブルな性能で、チャネルカストマイズされたIDS訂正コードをもたらす。

Insertion, deletion, and substitution (IDS) error-correcting codes have garnered increased attention with recent advancements in DNA storage technology. However, a universal method for designing IDS-correcting codes across varying channel settings remains underexplored. We present an autoencoder-based method, THEA-code, aimed at efficiently generating IDS-correcting codes for complex IDS channels. In the work, a Gumbel-Softmax discretization constraint is proposed to discretize the features of the autoencoder, and a simulated differentiable IDS channel is developed as a differentiable alternative for IDS operations. These innovations facilitate the successful convergence of the autoencoder, resulting in channel-customized IDS-correcting codes with commendable performance across complex IDS channels.
翻訳日:2024-11-08 14:50:05 公開日:2024-09-30
# 等価負荷シーディングのための機械学習: バインディング制約の学習によるリアルタイムソリューション

Machine Learning for Equitable Load Shedding: Real-time Solution via Learning Binding Constraints ( http://arxiv.org/abs/2407.18989v2 )

ライセンス: Link先を確認
Yuqi Zhou, Joseph Severino, Sanjana Vijayshankar, Juliette Ugirumurera, Jibo Sanyal, (参考訳) 電力系統におけるタイムリーかつ効果的な負荷削減は、需給バランスの維持とカスケードブラックアウトの防止に重要である。 システムの特定の領域に対する負荷シェディングバイアスを排除するため、最適化に基づく手法は経済と株式のバランスをとるのに一意に位置づけられている。 しかし、結果として生じる最適化問題には複雑な制約が伴うため、解決には時間を要するため、負荷シェディングのリアルタイム要求を満たすことはできない。 この課題に対処するために、最適化に基づく負荷層問題に対してミリ秒レベルの計算を可能にする効率的な機械学習アルゴリズムを提案する。 3バス玩具の例と現実的RTS-GMLCシステムの両方に関する数値的研究により, 提案アルゴリズムの有効性と実時間載荷決定の妥当性を実証した。

Timely and effective load shedding in power systems is critical for maintaining supply-demand balance and preventing cascading blackouts. To eliminate load shedding bias against specific regions in the system, optimization-based methods are uniquely positioned to help balance between economical and equity considerations. However, the resulting optimization problem involves complex constraints, which can be time-consuming to solve and thus cannot meet the real-time requirements of load shedding. To tackle this challenge, in this paper we present an efficient machine learning algorithm to enable millisecond-level computation for the optimization-based load shedding problem. Numerical studies on both a 3-bus toy example and a realistic RTS-GMLC system have demonstrated the validity and efficiency of the proposed algorithm for delivering equitable and real-time load shedding decisions.
翻訳日:2024-11-08 14:38:53 公開日:2024-09-30
# VortSDF: 符号付き距離場における遠心性ボロノイ容器を用いた3次元モデリング

VortSDF: 3D Modeling with Centroidal Voronoi Tesselation on Signed Distance Field ( http://arxiv.org/abs/2407.19837v2 )

ライセンス: Link先を確認
Diego Thomas, Briac Toussaint, Jean-Sebastien Franco, Edmond Boyer, (参考訳) 容積形状表現は多視点再構成タスクにおいてユビキタス化されている。 彼らはしばしば、SDFや放射場のような3次元形状関数の離散表現として正規のボクセルグリッド上に構築され、ニューラルネットワークのように、完全な形状モデルや連続表現のサンプルインスタンス化として使用される。 その効果が証明されているにもかかわらず、ボクセル表現は精度と複雑性のトレードオフが伴う。 この固有の制限は、単純で散らかったシーンから離れる際のパフォーマンスに大きな影響を与える可能性がある。 本稿では,Centroidal Voronoi Tesselation (CVT) を用いた別の離散化戦略について検討する。 CVTは、形状占有率に関して観測空間をよりよく分割し、形状表面の偏差に集中することを可能にする。 この離散化戦略を多視点再構成に活用するために、四面体格子上の3次元形状特性を推定するために、明示的なSDFフィールドと浅いカラーネットワークを組み合わせた体積最適化フレームワークを導入する。 Chamfer統計による実験結果は、オブジェクト、オープンシーン、人間などの様々なシナリオにおいて、前例のない復元品質でこのアプローチを検証する。

Volumetric shape representations have become ubiquitous in multi-view reconstruction tasks. They often build on regular voxel grids as discrete representations of 3D shape functions, such as SDF or radiance fields, either as the full shape model or as sampled instantiations of continuous representations, as with neural networks. Despite their proven efficiency, voxel representations come with the precision versus complexity trade-off. This inherent limitation can significantly impact performance when moving away from simple and uncluttered scenes. In this paper we investigate an alternative discretization strategy with the Centroidal Voronoi Tesselation (CVT). CVTs allow to better partition the observation space with respect to shape occupancy and to focus the discretization around shape surfaces. To leverage this discretization strategy for multi-view reconstruction, we introduce a volumetric optimization framework that combines explicit SDF fields with a shallow color network, in order to estimate 3D shape properties over tetrahedral grids. Experimental results with Chamfer statistics validate this approach with unprecedented reconstruction quality on various scenarios such as objects, open scenes or human.
翻訳日:2024-11-08 14:16:02 公開日:2024-09-30
# Spiking-DD: スパイクニューラルネットワークを用いたニューロモルフィックイベントカメラによる運転者抽出検出

Spiking-DD: Neuromorphic Event Camera based Driver Distraction Detection with Spiking Neural Network ( http://arxiv.org/abs/2407.20633v2 )

ライセンス: Link先を確認
Waseem Shariff, Paul Kielty, Joseph Lemley, Peter Corcoran, (参考訳) 迅速な応答、低レイテンシ、電力効率、プライバシーの強化、アンダーサンプリングの防止など、その大きなアドバンテージによって、イベントカメラベースのドライバ監視が研究の重要な領域として浮上している。 運転者の注意散らしを効果的に検出することは、運転者監視システムにおいて、道路の安全性を高め、事故率を低減するために重要である。 Event Cameraのような最適化されたセンサーと最適化されたネットワークを統合することは、これらの利点を最大化する上で不可欠である。 本稿では,SNN(Computerly efficient Spiking Neural Network)を活用することにより,運転者の気晴らしを検出することなくセンサの革新的な概念を提案する。 我々の知る限りでは、この研究は、ドライバーの気を散らすために、スパイクニューラルネットワークを用いたイベントカメラデータを初めて利用したものだ。 提案したSpking-DDネットワークは、最先端の性能を達成するだけでなく、パラメータも少なく、現在のイベントベースの手法よりも精度が高い。

Event camera-based driver monitoring is emerging as a pivotal area of research, driven by its significant advantages such as rapid response, low latency, power efficiency, enhanced privacy, and prevention of undersampling. Effective detection of driver distraction is crucial in driver monitoring systems to enhance road safety and reduce accident rates. The integration of an optimized sensor such as Event Camera with an optimized network is essential for maximizing these benefits. This paper introduces the innovative concept of sensing without seeing to detect driver distraction, leveraging computationally efficient spiking neural networks (SNN). To the best of our knowledge, this study is the first to utilize event camera data with spiking neural networks for driver distraction. The proposed Spiking-DD network not only achieve state of the art performance but also exhibit fewer parameters and provides greater accuracy than current event-based methodologies.
翻訳日:2024-11-08 14:05:01 公開日:2024-09-30
# DeTurb: 変形可能な3Dコンボリューションと3Dスウィントランスによる大気乱流緩和

DeTurb: Atmospheric Turbulence Mitigation with Deformable 3D Convolutions and 3D Swin Transformers ( http://arxiv.org/abs/2407.20855v2 )

ライセンス: Link先を確認
Zhicheng Zou, Nantheera Anantrasirichai, (参考訳) 長距離撮影における大気乱流は、空間次元と時間次元の両方のランダムな変動により、捕獲されたシーンの品質と忠実度を著しく低下させる。 これらの歪みは、監視から天文学まで様々な応用において、堅牢な緩和戦略を必要としている。 モデルベースのアプローチは良い結果をもたらすが、それらは非常に遅い。 深層学習アプローチは、画像とビデオの復元において有望であるが、これらの時空間変動の歪みを効果的に解決するのに苦労してきた。 本稿では,幾何復元と拡張モジュールを組み合わせた新しいフレームワークを提案する。 ランダムな摂動と幾何学的歪みは、変形可能な3次元畳み込みを持つピラミッドアーキテクチャを用いて取り除かれ、整列フレームとなる。 これらのフレームは、3Dスウィントランスのマルチスケールアーキテクチャを用いて、シャープで鮮明な画像を再構成するために使用される。 提案手法は, 合成および実大気乱流効果の両面において, 適正な速度とモデルサイズで, 現状よりも優れた性能を示すものである。

Atmospheric turbulence in long-range imaging significantly degrades the quality and fidelity of captured scenes due to random variations in both spatial and temporal dimensions. These distortions present a formidable challenge across various applications, from surveillance to astronomy, necessitating robust mitigation strategies. While model-based approaches achieve good results, they are very slow. Deep learning approaches show promise in image and video restoration but have struggled to address these spatiotemporal variant distortions effectively. This paper proposes a new framework that combines geometric restoration with an enhancement module. Random perturbations and geometric distortion are removed using a pyramid architecture with deformable 3D convolutions, resulting in aligned frames. These frames are then used to reconstruct a sharp, clear image via a multi-scale architecture of 3D Swin Transformers. The proposed framework demonstrates superior performance over the state of the art for both synthetic and real atmospheric turbulence effects, with reasonable speed and model size.
翻訳日:2024-11-08 14:05:01 公開日:2024-09-30
# 透かしレコメンダシステム

Watermarking Recommender Systems ( http://arxiv.org/abs/2407.21034v3 )

ライセンス: Link先を確認
Sixiao Zhang, Cheng Long, Wei Yuan, Hongxu Chen, Hongzhi Yin, (参考訳) レコメンダシステムは重要な商業価値を具現化し、重要な知的財産を代表している。 しかし、これらのシステムの完全性は、根底にあるモデルを盗もうとする悪意あるアクターによって常に問題視されている。 このような脅威に対する保護は、モデル所有者の権利と利益を維持するために最重要である。 モデル透かしは、様々な領域において強力な防御機構として現れてきたが、推奨システムへの直接的な適用は未探索であり、非自明である。 本稿では,レコメンダシステムに特化した新しい手法であるAutoregressive Out-of-distriion Watermarking (AOW)を導入することで,このギャップに対処する。 提案手法では,初期項目の選択とオラクルモデルによるクエリを行い,その後に予測スコアの小さい項目を選択する。 この反復的プロセスは、自動的にウォーターマークシーケンスを生成し、トレーニングを通じてモデルのメモリに浸透する。 透かしの有効性を評価するため、このモデルでは、切り捨てられた透かしシーケンスが与えられた後続の項目を予測することを課題とする。 実験と解析を通じて,AOWの優れた性能とロバスト性を示す。 特に, この透かし技術は, 高信頼抽出能力を示し, 蒸留や微調整プロセスの面でも有効性を維持する。

Recommender systems embody significant commercial value and represent crucial intellectual property. However, the integrity of these systems is constantly challenged by malicious actors seeking to steal their underlying models. Safeguarding against such threats is paramount to upholding the rights and interests of the model owner. While model watermarking has emerged as a potent defense mechanism in various domains, its direct application to recommender systems remains unexplored and non-trivial. In this paper, we address this gap by introducing Autoregressive Out-of-distribution Watermarking (AOW), a novel technique tailored specifically for recommender systems. Our approach entails selecting an initial item and querying it through the oracle model, followed by the selection of subsequent items with small prediction scores. This iterative process generates a watermark sequence autoregressively, which is then ingrained into the model's memory through training. To assess the efficacy of the watermark, the model is tasked with predicting the subsequent item given a truncated watermark sequence. Through extensive experimentation and analysis, we demonstrate the superior performance and robust properties of AOW. Notably, our watermarking technique exhibits high-confidence extraction capabilities and maintains effectiveness even in the face of distillation and fine-tuning processes.
翻訳日:2024-11-08 13:51:33 公開日:2024-09-30
# 曲面時空における量子場の量子情報の伝送

Transmission of quantum information through quantum fields in curved spacetimes ( http://arxiv.org/abs/2408.00518v3 )

ライセンス: Link先を確認
Michael Kasprzak, Erickson Tjoa, (参考訳) 我々は、Unruh-DeWitt検出器形式を用いて、任意の曲線時空における量子容量の理論的最大値を達成できる相対論的量子場を媒介する2つの局所量子ビット系間の相対論的量子通信チャネルを構築する。 代数量子場理論の手法を用いて、場の相関関数と波動方程式の因果プロパゲータの観点から純粋に量子通信チャネルの量子容量を表現する。 したがって、結果の量子チャネル、すなわち量子容量は、構成によって明らかに共変であり、時空の因果構造を尊重し、背景幾何学、位相、および場のヒルベルト空間(準自由)表現の選び方には依存しない。

We construct a relativistic quantum communication channel between two localized qubit systems, mediated by a relativistic quantum field, that can achieve the theoretical maximum for the quantum capacity in arbitrary curved spacetimes using the Unruh-DeWitt detector formalism. Using techniques from algebraic quantum field theory, we express the quantum capacity of the quantum communication channel purely in terms of the correlation functions of the field and the causal propagator for the wave equation. Consequently, the resulting quantum channel, and hence the quantum capacity, are by construction manifestly covariant, respect the causal structure of spacetime, and are independent of the details of the background geometry, topology, and the choice of Hilbert space (quasifree) representations of the field.
翻訳日:2024-11-08 13:29:21 公開日:2024-09-30
# 有害剤を用いたマルチエージェントシステムのレジリエンスについて

On the Resilience of Multi-Agent Systems with Malicious Agents ( http://arxiv.org/abs/2408.00989v2 )

ライセンス: Link先を確認
Jen-tse Huang, Jiaxu Zhou, Tailin Jin, Xuhui Zhou, Zixi Chen, Wenxuan Wang, Youliang Yuan, Maarten Sap, Michael R. Lyu, (参考訳) 大規模言語モデルを用いたマルチエージェントシステムは、専門家エージェントの協調によって様々なタスクにまたがる優れた能力を示し、それぞれが特定のドメインに焦点を当てている。 しかし、エージェントを別々に配置する場合、悪意のあるユーザーが不正または無関係な結果をもたらす悪意のあるエージェントを導入するリスクがある。 そこで本研究では,(1) 様々なマルチエージェントシステムのレジリエンス(例えば, A$\rightarrow$B$\rightarrow$C, A$\leftrightarrow$B$\leftrightarrow$C)が,悪質なエージェントの下で,異なる下流タスクに対してどのようなレジリエンスを持つかを検討する。 (2)悪意のあるエージェントに対して、システムレジリエンスを高めるにはどうすればいいのか? 悪意のあるエージェントをシミュレートするために、AutoTransformとAutoInjectという2つのメソッドを考案しました。 我々は、コード生成、数学問題、翻訳、テキスト評価という、4つの下流マルチエージェントシステムタスクに関する総合的な実験を行う。 その結果、A$\rightarrow$(B$\leftrightarrow$C)という階層的なマルチエージェント構造は、他の2つの構造のうち、46.4\%と49.8\%よりも、最低性能が23.6\%$の優れたレジリエンスを示すことが示唆された。 さらに、各エージェントが他のエージェントの出力に挑戦する機構を導入するか、あるいはメッセージのレビューと修正を行う追加のエージェントがシステムのレジリエンスを高めることを実証することにより、マルチエージェントシステムのレジリエンスを改善するという約束を示す。 私たちのコードとデータはhttps://github.com/CUHK-ARISE/MAS-Resilience.comで公開されています。

Multi-agent systems, powered by large language models, have shown great abilities across various tasks due to the collaboration of expert agents, each focusing on a specific domain. However, when agents are deployed separately, there is a risk that malicious users may introduce malicious agents who generate incorrect or irrelevant results that are too stealthy to be identified by other non-specialized agents. Therefore, this paper investigates two essential questions: (1) What is the resilience of various multi-agent system structures (e.g., A$\rightarrow$B$\rightarrow$C, A$\leftrightarrow$B$\leftrightarrow$C) under malicious agents, on different downstream tasks? (2) How can we increase system resilience to defend against malicious agents? To simulate malicious agents, we devise two methods, AutoTransform and AutoInject, to transform any agent into a malicious one while preserving its functional integrity. We run comprehensive experiments on four downstream multi-agent systems tasks, namely code generation, math problems, translation, and text evaluation. Results suggest that the "hierarchical" multi-agent structure, i.e., A$\rightarrow$(B$\leftrightarrow$C), exhibits superior resilience with the lowest performance drop of $23.6\%$, compared to $46.4\%$ and $49.8\%$ of other two structures. Additionally, we show the promise of improving multi-agent system resilience by demonstrating that two defense methods, introducing a mechanism for each agent to challenge others' outputs, or an additional agent to review and correct messages, can enhance system resilience. Our code and data are available at https://github.com/CUHK-ARISE/MAS-Resilience.
翻訳日:2024-11-08 13:18:17 公開日:2024-09-30
# 自律システムにおける最適化のための多目的深層強化学習

Multi-Objective Deep Reinforcement Learning for Optimisation in Autonomous Systems ( http://arxiv.org/abs/2408.01188v2 )

ライセンス: Link先を確認
Juan C. Rosero, Ivana Dusparic, Nicolás Cardozo, (参考訳) 強化学習(Reinforcement Learning, RL)は、自律システム(AS)において、環境のモデルや事前定義されたアクションを必要とせず、実行時の学習を可能にするために広く使用されている。 しかしながら、Q-learning のような AS における RL のほとんどの応用は、1つの目的のみを最適化することができ、複数の目的を1つの目的関数と事前定義された重みで組み合わせるために、多目的システムにおいて必要となる。 MORL(Multi-Objective Reinforcement Learning)技術はいくつか存在するが、実世界のASシステムではなくRLベンチマークで採用されている。 本稿では,Deep W-Learning(DWN)と呼ばれるMORL技術を用いて,自己適応型サーバであるEmergent Web Servers exemplarに適用し,実行時のパフォーマンス最適化に最適な構成を求める。 DWNを2つの単目的最適化実装と比較する: {\epsilon}-greedyアルゴリズムとDeep Q-Networks。 最初の評価では,DWN は DQN と {\epsilon}-greedy のアプローチと類似した結果と同時に複数の目的を最適化し,いくつかの指標の性能が向上し,複数の目的をひとつのユーティリティ関数に結合する問題を回避する。

Reinforcement Learning (RL) is used extensively in Autonomous Systems (AS) as it enables learning at runtime without the need for a model of the environment or predefined actions. However, most applications of RL in AS, such as those based on Q-learning, can only optimize one objective, making it necessary in multi-objective systems to combine multiple objectives in a single objective function with predefined weights. A number of Multi-Objective Reinforcement Learning (MORL) techniques exist but they have mostly been applied in RL benchmarks rather than real-world AS systems. In this work, we use a MORL technique called Deep W-Learning (DWN) and apply it to the Emergent Web Servers exemplar, a self-adaptive server, to find the optimal configuration for runtime performance optimization. We compare DWN to two single-objective optimization implementations: {\epsilon}-greedy algorithm and Deep Q-Networks. Our initial evaluation shows that DWN optimizes multiple objectives simultaneously with similar results than DQN and {\epsilon}-greedy approaches, having a better performance for some metrics, and avoids issues associated with combining multiple objectives into a single utility function.
翻訳日:2024-11-08 13:18:17 公開日:2024-09-30
# コミュニケーション効率の良いフェデレーション学習のためのマスキングランダムノイズ

Masked Random Noise for Communication Efficient Federated Learning ( http://arxiv.org/abs/2408.03220v2 )

ライセンス: Link先を確認
Shiwei Li, Yingyi Cheng, Haozhao Wang, Xing Tang, Shijie Xu, Weihong Luo, Yuhua Li, Dugang Liu, Xiuqiang He, Ruixuan Li, (参考訳) フェデレーション学習は、データプライバシを効果的に保護する、有望な分散トレーニングパラダイムである。 しかし、これは訓練の効率を損なう、かなりの通信コストを伴う可能性がある。 本稿では,新たな視点からコミュニケーション効率を向上させることを目的とする。 具体的には、事前定義されたランダムノイズの中で、グローバルモデルパラメータに対して最適なモデル更新を見つけるように、分散クライアントに要求する。 本研究では,モデルパラメータ毎に1ビットのマスクを学習し,ランダムノイズとマスクのアダマール積を用いてモデル更新を表現する新しいフレームワークであるFederated Masked Random Noise (FedMRN)を提案する。 プログレッシブ・確率マスキング(PSM)と呼ばれる高度なマスクトレーニング戦略を提案する。 ローカルトレーニングの後、各クライアントはローカルマスクとランダムシードをサーバに送信するだけでよい。 さらに、強い凸と非凸の両方の仮定の下で、FedMRNの収束に関する理論的保証を提供する。 大規模な実験は4つの一般的なデータセットで行われている。 その結果,FedMRNは,FedAvgと同等の精度で,関連するベースラインよりもコンバージェンス速度とテスト精度が優れていることがわかった。

Federated learning is a promising distributed training paradigm that effectively safeguards data privacy. However, it may involve significant communication costs, which hinders training efficiency. In this paper, we aim to enhance communication efficiency from a new perspective. Specifically, we request the distributed clients to find optimal model updates relative to global model parameters within predefined random noise. For this purpose, we propose Federated Masked Random Noise (FedMRN), a novel framework that enables clients to learn a 1-bit mask for each model parameter and apply masked random noise (i.e., the Hadamard product of random noise and masks) to represent model updates. To make FedMRN feasible, we propose an advanced mask training strategy, called progressive stochastic masking (PSM). After local training, each client only need to transmit local masks and a random seed to the server. Additionally, we provide theoretical guarantees for the convergence of FedMRN under both strongly convex and non-convex assumptions. Extensive experiments are conducted on four popular datasets. The results show that FedMRN exhibits superior convergence speed and test accuracy compared to relevant baselines, while attaining a similar level of accuracy as FedAvg.
翻訳日:2024-11-08 12:44:50 公開日:2024-09-30
# 高速ウォルシュ・アダマール変換によるパウリ分解

Pauli Decomposition via the Fast Walsh-Hadamard Transform ( http://arxiv.org/abs/2408.06206v2 )

ライセンス: Link先を確認
Timothy N. Georges, Bjorn K. Berntson, Christoph Sünderhauf, Aleksei V. Ivanov, (参考訳) 平方行列をパウリ弦の和に分解することは、多くの量子アルゴリズムを実現するのに必要な古典的な前処理ステップである。 このような分解は、大きな行列に対して重要な計算資源を必要とする。 パウリの弦係数に対して,効率の良いアルゴリズムを導出する,新しい正確かつ明示的な公式を提案する。 より具体的には、行列要素の置換まで、分解係数は一般化されたアダマール行列の乗算によって元の行列と関連していることを示す。 これにより、Fast Walsh-Hadamard変換を使用し、$\mathcal{O}(N^2\log N)$時間で全てのパウリ分解係数を計算し、$\mathcal{O}(1)$追加メモリを$N\times N$行列に使用することができる。 方程式の数値的な実装は、現在利用可能な解よりも優れている。

The decomposition of a square matrix into a sum of Pauli strings is a classical pre-processing step required to realize many quantum algorithms. Such a decomposition requires significant computational resources for large matrices. We present a new exact and explicit formula for the Pauli string coefficients which inspires an efficient algorithm to compute them. More specifically, we show that up to a permutation of the matrix elements, the decomposition coefficients are related to the original matrix by a multiplication of a generalised Hadamard matrix. This allows one to use the Fast Walsh-Hadamard transform and calculate all Pauli decomposition coefficients in $\mathcal{O}(N^2\log N)$ time and using $\mathcal{O}(1)$ additional memory, for an $N\times N$ matrix. A numerical implementation of our equation outperforms currently available solutions.
翻訳日:2024-11-08 11:38:16 公開日:2024-09-30
# ロバストPOMDPの悲観的反復計画

Pessimistic Iterative Planning for Robust POMDPs ( http://arxiv.org/abs/2408.08770v2 )

ライセンス: Link先を確認
Maris F. L. Galesloot, Marnix Suilen, Thiago D. Simão, Steven Carr, Matthijs T. J. Spaan, Ufuk Topcu, Nils Jansen, (参考訳) ロバストな部分的に観測可能なマルコフ決定過程 (robust POMDPs) は古典的なPOMDPを拡張して、いわゆる不確実性集合による遷移と観測確率に関するさらなる不確実性を扱う。 堅牢なPOMDPのポリシーは、部分的な可観測性を考慮するためにメモリベースであるだけでなく、不確実性セットから最悪のケースを考慮に入れるために、モデルの不確実性に対して堅牢である必要がある。 我々は,堅牢なPOMDPに対して,堅牢なメモリベースのポリシーを見出すための悲観的反復計画(PIP)フレームワークを提案する。 PIPは、(1)不確実性集合から最悪のケースの確率インスタンスを介して逆(非ローバスト)のPOMDPを選択すること、(2)この逆のPOMDPに対して有限状態コントローラ(FSC)を計算すること、の2つの主要なステップを交互に行う。 元の頑健なPOMDPに対して,このFCCの性能を評価し,ステップ(1)で次の逆POMDPを選択する。 PIP内ではrFSCNetアルゴリズムを提案する。 各イテレーションにおいて、rFSCNetは、敵POMDPに最適化された監督ポリシーを使用して、リカレントニューラルネットワークを介してFSCを見つける。 4つのベンチマーク環境での実証的な評価は、最先端の堅牢なPOMDPソルバと比較して、いくつかのベースライン手法に対する堅牢性と競争性能の向上を示している。

Robust partially observable Markov decision processes (robust POMDPs) extend classical POMDPs to handle additional uncertainty on the transition and observation probabilities via so-called uncertainty sets. Policies for robust POMDPs must not only be memory-based to account for partial observability but also robust against model uncertainty to account for the worst-case instances from the uncertainty sets. We propose the pessimistic iterative planning (PIP) framework, which finds robust memory-based policies for robust POMDPs. PIP alternates between two main steps: (1) selecting an adversarial (non-robust) POMDP via worst-case probability instances from the uncertainty sets; and (2) computing a finite-state controller (FSC) for this adversarial POMDP. We evaluate the performance of this FSC on the original robust POMDP and use this evaluation in step (1) to select the next adversarial POMDP. Within PIP, we propose the rFSCNet algorithm. In each iteration, rFSCNet finds an FSC through a recurrent neural network by using supervision policies optimized for the adversarial POMDP. The empirical evaluation in four benchmark environments showcases improved robustness against several baseline methods and competitive performance compared to a state-of-the-art robust POMDP solver.
翻訳日:2024-11-08 07:18:07 公開日:2024-09-30
# 自動ML誘導によるエンティティの融合と文書分類のためのLCMに基づく表現

AutoML-guided Fusion of Entity and LLM-based Representations for Document Classification ( http://arxiv.org/abs/2408.09794v2 )

ライセンス: Link先を確認
Boshko Koloski, Senja Pollak, Roberto Navigli, Blaž Škrlj, (参考訳) 大規模な意味的知識基盤は、事実的知識に根ざしている。 しかし、近年の高密度テキスト表現(つまり埋め込み)へのアプローチは、これらの資源を効率的に活用しない。 ダウンストリーム分類と検索タスクを効果的に解決するためには,文書の高密度かつ堅牢な表現が不可欠である。 本研究は, 知識ベースから埋め込み情報を注入することで, テキスト分類作業において, 現代言語モデル(LLM)に基づく表現の性能を向上できることを実証する。 さらに、融合表現空間を持つ自動機械学習(AutoML)を考慮し、効率的な行列分解により得られた元の表現空間の低次元投影を用いても分類精度を向上させることができることを示した。 この結果は、6つの異なる実生活データセット上で5つの強力なLCMベースラインを用いて示されるように、予測性能の損失を最小限に抑えて、はるかに高速な分類器を実現できることを示している。 コードは \url{https://github.com/bkolosk1/bablfusion.git} で無料で利用できる。

Large semantic knowledge bases are grounded in factual knowledge. However, recent approaches to dense text representations (i.e. embeddings) do not efficiently exploit these resources. Dense and robust representations of documents are essential for effectively solving downstream classification and retrieval tasks. This work demonstrates that injecting embedded information from knowledge bases can augment the performance of contemporary Large Language Model (LLM)-based representations for the task of text classification. Further, by considering automated machine learning (AutoML) with the fused representation space, we demonstrate it is possible to improve classification accuracy even if we use low-dimensional projections of the original representation space obtained via efficient matrix factorization. This result shows that significantly faster classifiers can be achieved with minimal or no loss in predictive performance, as demonstrated using five strong LLM baselines on six diverse real-life datasets. The code is freely available at \url{https://github.com/bkolosk1/bablfusion.git}.
翻訳日:2024-11-08 06:55:48 公開日:2024-09-30
# 非局所ゲームにおけるトピック:同期代数、代数グラフ Identities、量子NP硬度低減

Topics in Non-local Games: Synchronous Algebras, Algebraic Graph Identities, and Quantum NP-hardness Reductions ( http://arxiv.org/abs/2408.10114v5 )

ライセンス: Link先を確認
Entong He, (参考訳) 同期ゲームとそれに関連する$*$-algebraの対応をレビューする。 The work on the work of (Helton et al , New York J. Math. 2017), we propose results on algebraic and local commuting graph identities。 非可換なNullstellens\"atze (Watts, Helton and Klep, Annales Henri Poincar\'e 2023)に基づいて、Gr\"obner基底法と半定値プログラミングを用いて、完全$C^*$と同期ゲームの代数的戦略の非存在をチェックする計算ツールを構築する。 遺伝モデルと$C^*$モデルの等価性を証明した(Helton et al , New York J. Math. 2017)。 また、(Ji, arXiv 2013) による量子変換 NP-ハードネス還元$\texttt{3-SAT}^* \leq_p \texttt{3-Coloring}^*$ も拡張し、そのような還元$\texttt{3-SAT}^* \leq_p \texttt{Clique}^*$ の別の例を示す。

We review the correspondence between synchronous games and their associated $*$-algebra. Building upon the work of (Helton et al., New York J. Math. 2017), we propose results on algebraic and locally commuting graph identities. Based on the noncommutative Nullstellens\"atze (Watts, Helton and Klep, Annales Henri Poincar\'e 2023), we build computational tools that check the non-existence of perfect $C^*$ and algebraic strategies of synchronous games using Gr\"obner basis methods and semidefinite programming. We prove the equivalence between the hereditary and $C^*$ models questioned in (Helton et al., New York J. Math. 2017). We also extend the quantum-version NP-hardness reduction $\texttt{3-SAT}^* \leq_p \texttt{3-Coloring}^*$ due to (Ji, arXiv 2013) by exhibiting another instance of such reduction $\texttt{3-SAT}^* \leq_p \texttt{Clique}^*$.
翻訳日:2024-11-08 06:44:48 公開日:2024-09-30
# DeRainGS:雨環境における景観復元のためのガウス的スプレイティング

DeRainGS: Gaussian Splatting for Enhanced Scene Reconstruction in Rainy Environments ( http://arxiv.org/abs/2408.11540v3 )

ライセンス: Link先を確認
Shuhong Liu, Xiang Chen, Hongming Chen, Quanfeng Xu, Mingrui Li, (参考訳) 降雨条件下での再建は、視認性の低下と視覚知覚の歪みによって大きな課題を生じさせる。 これらの条件は、自律的な計画から環境モニタリングまで、アプリケーションに不可欠な幾何学的マップの品質を著しく損なう可能性がある。 これらの課題に対応するために,雨環境における3次元再構成(DRRE)の新たな課題を紹介し,雨環境下での3次元シーンの再構築の複雑さに対処することを目的とした。 このタスクをベンチマークするために,雨害や雨滴の多彩な強度を特徴とする,合成画像と実世界の両方のシーン画像の多様なコレクションからなるHydroViewsデータセットを構築した。 さらに, 降雨環境の復元に適した3DGS法であるDeRainGSを提案する。 降雨シナリオの広範囲にわたる広範囲にわたる実験により,本手法が最先端性能を実現し,既存の閉塞のない手法よりも優れていたことが実証された。

Reconstruction under adverse rainy conditions poses significant challenges due to reduced visibility and the distortion of visual perception. These conditions can severely impair the quality of geometric maps, which is essential for applications ranging from autonomous planning to environmental monitoring. In response to these challenges, this study introduces the novel task of 3D Reconstruction in Rainy Environments (3DRRE), specifically designed to address the complexities of reconstructing 3D scenes under rainy conditions. To benchmark this task, we construct the HydroViews dataset that comprises a diverse collection of both synthesized and real-world scene images characterized by various intensities of rain streaks and raindrops. Furthermore, we propose DeRainGS, the first 3DGS method tailored for reconstruction in adverse rainy environments. Extensive experiments across a wide range of rain scenarios demonstrate that our method delivers state-of-the-art performance, remarkably outperforming existing occlusion-free methods.
翻訳日:2024-11-08 06:11:36 公開日:2024-09-30
# DeRainGS:雨環境における景観復元のためのガウス的スプレイティング

DeRainGS: Gaussian Splatting for Enhanced Scene Reconstruction in Rainy Environments ( http://arxiv.org/abs/2408.11540v4 )

ライセンス: Link先を確認
Shuhong Liu, Xiang Chen, Hongming Chen, Quanfeng Xu, Mingrui Li, (参考訳) 降雨条件下での再建は、視認性の低下と視覚知覚の歪みによって大きな課題を生じさせる。 これらの条件は、自律的な計画から環境モニタリングまで、アプリケーションに不可欠な幾何学的マップの品質を著しく損なう可能性がある。 これらの課題に対応するために,雨環境における3次元再構成(DRRE)の新たな課題を紹介し,雨環境下での3次元シーンの再構築の複雑さに対処することを目的とした。 このタスクをベンチマークするために,雨害や雨滴の多彩な強度を特徴とする,合成画像と実世界の両方のシーン画像の多様なコレクションからなるHydroViewsデータセットを構築した。 さらに, 降雨環境の復元に適した3DGS法であるDeRainGSを提案する。 降雨シナリオの広範囲にわたる広範囲にわたる実験により,本手法が最先端性能を実現し,既存の閉塞のない手法よりも優れていたことが実証された。

Reconstruction under adverse rainy conditions poses significant challenges due to reduced visibility and the distortion of visual perception. These conditions can severely impair the quality of geometric maps, which is essential for applications ranging from autonomous planning to environmental monitoring. In response to these challenges, this study introduces the novel task of 3D Reconstruction in Rainy Environments (3DRRE), specifically designed to address the complexities of reconstructing 3D scenes under rainy conditions. To benchmark this task, we construct the HydroViews dataset that comprises a diverse collection of both synthesized and real-world scene images characterized by various intensities of rain streaks and raindrops. Furthermore, we propose DeRainGS, the first 3DGS method tailored for reconstruction in adverse rainy environments. Extensive experiments across a wide range of rain scenarios demonstrate that our method delivers state-of-the-art performance, remarkably outperforming existing occlusion-free methods.
翻訳日:2024-11-08 06:11:36 公開日:2024-09-30
# ロス分解によるフェデレーション学習におけるデータ不均一性への対処

Tackling Data Heterogeneity in Federated Learning via Loss Decomposition ( http://arxiv.org/abs/2408.12300v2 )

ライセンス: Link先を確認
Shuang Zeng, Pengxin Guo, Shuai Wang, Jianbo Wang, Yuyin Zhou, Liangqiong Qu, (参考訳) Federated Learning(FL)は、大規模な医療データセットを各クライアントにローカライズする、コラボレーションとプライバシ保護のマシンラーニングへの、新たなアプローチである。 しかし、クライアント間のデータ不均一性の問題はしばしばローカルモデルを補完し、最適なグローバルモデルに繋がる。 データの不均一性がFL性能に与える影響を軽減するために、FLトレーニングがFL性能にどのように影響するかを、局所的損失、分布シフト損失、凝集損失の3つの項に分解して分析することから始める。 ここでは,既存の局所学習に基づくFL法が分布シフト損失の低減を図っているのに対し,グローバルアグリゲーションベースのFL法はアグリゲーション損失の低減に優れたアグリゲーション戦略を提案する。 それでも3つの用語を最小化するための包括的な共同作業は、現在、文献において制限されており、データの異種性の問題に対処する際のパフォーマンスが劣っている。 このギャップを埋めるために,FedLDと呼ばれる大域的損失分解に基づく新しいFL法を提案し,これら3つの損失項を共同で削減する。 我々のFedLDは、分散シフト損失を減らすために、局所訓練におけるマージン制御の正規化と、集約損失を減らすための主勾配に基づくサーバ集約戦略を含む。 特に、異なるレベルのデータ均一性の下で、我々の戦略は、他のFLアルゴリズムと比較して網膜および胸部X線分類において、より良い、より堅牢な性能を達成する。 私たちのコードはhttps://github.com/Zeng-Shuang/FedLD.comで公開されています。

Federated Learning (FL) is a rising approach towards collaborative and privacy-preserving machine learning where large-scale medical datasets remain localized to each client. However, the issue of data heterogeneity among clients often compels local models to diverge, leading to suboptimal global models. To mitigate the impact of data heterogeneity on FL performance, we start with analyzing how FL training influence FL performance by decomposing the global loss into three terms: local loss, distribution shift loss and aggregation loss. Remarkably, our loss decomposition reveals that existing local training-based FL methods attempt to reduce the distribution shift loss, while the global aggregation-based FL methods propose better aggregation strategies to reduce the aggregation loss. Nevertheless, a comprehensive joint effort to minimize all three terms is currently limited in the literature, leading to subpar performance when dealing with data heterogeneity challenges. To fill this gap, we propose a novel FL method based on global loss decomposition, called FedLD, to jointly reduce these three loss terms. Our FedLD involves a margin control regularization in local training to reduce the distribution shift loss, and a principal gradient-based server aggregation strategy to reduce the aggregation loss. Notably, under different levels of data heterogeneity, our strategies achieve better and more robust performance on retinal and chest X-ray classification compared to other FL algorithms. Our code is available at https://github.com/Zeng-Shuang/FedLD.
翻訳日:2024-11-08 05:49:00 公開日:2024-09-30
# マルチタスク魚眼クロスビュー変換器による駐車知覚の強化

Enhanced Parking Perception by Multi-Task Fisheye Cross-view Transformers ( http://arxiv.org/abs/2408.12575v2 )

ライセンス: Link先を確認
Antonyo Musabini, Ivan Novikov, Sana Soula, Christel Leonet, Lihao Wang, Rachid Benmokhtar, Fabian Burger, Thomas Boulay, Xavier Perrotton, (参考訳) 現在の駐車エリア認識アルゴリズムは、主に、ラベリングと推論の両方においてエラーを起こしやすいホモグラフ投影に依存する、限られた範囲内の空きスロットの検出に焦点を当てている。 しかし、最近のADAS(Advanced Driver Assistance System)の進歩は、包括的でインテリジェントなHuman-Machine Interfaces (HMI)を通してエンドユーザーとのインタラクションを必要とする。 これらのインターフェースは、空きスロットの入口線を他の駐車車両の向きに区別することから、駐車エリアの完全な認識を与えるべきである。 本稿では,4カメラの魚眼Surround-view Camera System(SVCS)の機能を活用し,BEVグリッド機能マップを作成するマルチタスク魚眼Cross View Transformers (MT F-CVT)を提案する。 特徴は、駐車場や車両用のセグメンテーションデコーダとポリゴン・ヨロをベースとしたオブジェクト検出デコーダによって処理される。 LiDARでラベル付けされたデータに基づいて、MT F-CVTはオブジェクトを25m×25mの実際のオープンロードシーン内に配置し、平均誤差は20cmである。 我々のより大きなモデルでは、F-1スコアは0.89である。 さらに、小さなモデルはNvidia Jetson Orinの組み込みボード上で16fpsで動作する。 MT F-CVTは、異なる車両とカメラリグ構成にまたがる堅牢な一般化能力を示す。 未確認の車両とカメラリグのデモビデオは、https://streamable.com/jjw54x.comで公開されている。

Current parking area perception algorithms primarily focus on detecting vacant slots within a limited range, relying on error-prone homographic projection for both labeling and inference. However, recent advancements in Advanced Driver Assistance System (ADAS) require interaction with end-users through comprehensive and intelligent Human-Machine Interfaces (HMIs). These interfaces should present a complete perception of the parking area going from distinguishing vacant slots' entry lines to the orientation of other parked vehicles. This paper introduces Multi-Task Fisheye Cross View Transformers (MT F-CVT), which leverages features from a four-camera fisheye Surround-view Camera System (SVCS) with multihead attentions to create a detailed Bird-Eye View (BEV) grid feature map. Features are processed by both a segmentation decoder and a Polygon-Yolo based object detection decoder for parking slots and vehicles. Trained on data labeled using LiDAR, MT F-CVT positions objects within a 25m x 25m real open-road scenes with an average error of only 20 cm. Our larger model achieves an F-1 score of 0.89. Moreover the smaller model operates at 16 fps on an Nvidia Jetson Orin embedded board, with similar detection results to the larger one. MT F-CVT demonstrates robust generalization capability across different vehicles and camera rig configurations. A demo video from an unseen vehicle and camera rig is available at: https://streamable.com/jjw54x.
翻訳日:2024-11-08 05:37:29 公開日:2024-09-30
# UNA:一般帰納関数によるRLHF/PPO,DPO,KTOのアライメントの統一

UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function ( http://arxiv.org/abs/2408.15339v2 )

ライセンス: Link先を確認
Zhichao Wang, Bin Bi, Can Huang, Shiva Kumar Pentyala, Zixu James Zhu, Sitaram Asur, Na Claire Cheng, (参考訳) LLMは数兆のトークンで事前訓練されるが、事前訓練されたLSMは依然として望ましくない応答を生成する可能性がある。 この問題を解決するために,RLHF,DPO,KTOなどのアライメント手法を提案する。 しかし、これらのアライメント技術には限界がある。 例えば、RLHFは報酬モデルとポリシーを個別にトレーニングする必要がある。 DPOは最適なポリシーと報酬のマッピングを提案し、RLHFのトレーニングプロセスを大幅に単純化する。 しかし、報酬モデルの完全な利点は得られず、ペアの選好データに限られる。 本稿では,RLHF/PPO,DPO,KTOを統一した \textbf{UN}ified \textbf{A}lignment (UNA) を提案する。 まず、古典的RLHFの目的が与えられた場合、最適ポリシーは一般化された暗黙の報酬関数によって誘導されることを数学的に証明する。 この新たな報酬モデルと最適政策のマッピングにより、UNAは可能となる。 1.RLHF/PPO,DPO,KTOを暗黙の報酬と明示的な報酬との差を最小限に抑える指導的学習に統一すること。 2. RLHF/PPOの簡易化、安定化、高速化、RL微調整プロセスのメモリ負荷低減を図りながら、性能が向上する。 ペア、バイナリ、スカラーのフィードバックなど、さまざまなフィードバックタイプに対応している。 下流実験では、UNAはDPO、KTO、RLHFより優れていた。

An LLM is pretrained on trillions of tokens, but the pretrained LLM may still generate undesired responses. To solve this problem, alignment techniques such as RLHF, DPO and KTO are proposed. However, these alignment techniques have limitations. For example, RLHF requires training the reward model and policy separately, which is complex, time-consuming, memory intensive and unstable during training processes. DPO proposes a mapping between an optimal policy and a reward, greatly simplifying the training process of RLHF. However, it can not take full advantages of a reward model and it is limited to pairwise preference data. In this paper, we propose \textbf{UN}ified \textbf{A}lignment (UNA) which unifies RLHF/PPO, DPO and KTO. Firstly, we mathematically prove that given the classical RLHF objective, the optimal policy is induced by a generalize implicit reward function. With this novel mapping between a reward model and an optimal policy, UNA can 1. unify RLHF/PPO, DPO and KTO into a supervised learning of minimizing the difference between an implicit reward and an explicit reward; 2. outperform RLHF/PPO while simplify, stabilize, speed up and reduce memory burden of RL fine-tuning process; 3. accommodate different feedback types including pairwise, binary and scalar feedback. Downstream experiments show UNA outperforms DPO, KTO and RLHF.
翻訳日:2024-11-08 04:41:58 公開日:2024-09-30
# COMETにおける落とし穴と展望

Pitfalls and Outlooks in Using COMET ( http://arxiv.org/abs/2408.15366v3 )

ライセンス: Link先を確認
Vilém Zouhar, Pinzhen Chen, Tsz Kin Lam, Nikita Moghe, Barry Haddow, (参考訳) COMETの基準は、翻訳品質の人間の判断と強い相関関係があることから、機械翻訳コミュニティの道筋を成している。 その成功は、品質評価のために微調整された事前訓練された多言語モデルであることに由来する。 しかし、機械学習モデルであることは、広く知られていないかもしれない新しい落とし穴を生じさせる。 我々はこれらの予期せぬ行動を3つの側面から調査する。 1) 技術: 時代遅れのソフトウェアバージョン及び計算精度 2) データは,テスト時の空のコンテンツ,言語ミスマッチ,翻訳文,及びトレーニングにおける分布及びドメインバイアスである。 3)使用状況と報告:文献におけるマルチリファレンスサポートとモデル参照。 これらの問題は、COMETのスコアが論文や技術的な設定に匹敵するものではないことを暗示しており、各問題の修正についての見解を述べています。 さらに,ソフトウェアとモデル構成のためのシグネチャと適切な引用を生成するサックレットCOMETパッケージをリリースする。 この作業の目標は、コミュニティがCOMETメトリックをよりうまく活用できるようにすることです。

The COMET metric has blazed a trail in the machine translation community, given its strong correlation with human judgements of translation quality. Its success stems from being a modified pre-trained multilingual model finetuned for quality assessment. However, it being a machine learning model also gives rise to a new set of pitfalls that may not be widely known. We investigate these unexpected behaviours from three aspects: 1) technical: obsolete software versions and compute precision; 2) data: empty content, language mismatch, and translationese at test time as well as distribution and domain biases in training; 3) usage and reporting: multi-reference support and model referencing in the literature. All of these problems imply that COMET scores are not comparable between papers or even technical setups and we put forward our perspective on fixing each issue. Furthermore, we release the sacreCOMET package that can generate a signature for the software and model configuration as well as an appropriate citation. The goal of this work is to help the community make more sound use of the COMET metric.
翻訳日:2024-11-08 04:41:58 公開日:2024-09-30
# 大規模言語モデルはオープンターゲットスタンス検出に対処できるか?

Can Large Language Models Address Open-Target Stance Detection? ( http://arxiv.org/abs/2409.00222v4 )

ライセンス: Link先を確認
Abu Ubaida Akash, Ahmed Fahmy, Amine Trabelsi, (参考訳) スタンス検出(SD:Stance Detection)は、テキストの位置を目標に向けて識別する。 我々は、訓練中にターゲットが見つからず、入力として提供されない最も現実的なタスクである、Open-Target Stance Detection (OTSD)を紹介した。 我々は,Large Language Models (LLMs) GPT-4o,GPT-3.5,Llama-3,Mistralを評価し,その性能を,事前定義された目標の恩恵を受ける唯一の既存の作業であるTarget-Stance extract (TSE)と比較した。 TSEとは異なり、OTSDは事前に定義されたリストの依存関係を取り除き、ターゲット生成と評価をより困難にする。 また、人間の判断とよく相関する目標品質を評価するための指標も提供する。 実験の結果,LLMはターゲット生成において,実際のターゲットが明示的に記述され,テキストに明示的に言及されていない場合に,TSEよりも優れることがわかった。 同様に、姿勢検出においては、LLMは明示的な場合において、一般に非明示的な場合と同等の性能を持つ。

Stance detection (SD) identifies a text's position towards a target, typically labeled as favor, against, or none. We introduce Open-Target Stance Detection (OTSD), the most realistic task where targets are neither seen during training nor provided as input. We evaluate Large Language Models (LLMs) GPT-4o, GPT-3.5, Llama-3, and Mistral, comparing their performance to the only existing work, Target-Stance Extraction (TSE), which benefits from predefined targets. Unlike TSE, OTSD removes the dependency of a predefined list, making target generation and evaluation more challenging. We also provide a metric for evaluating target quality that correlates well with human judgment. Our experiments reveal that LLMs outperform TSE in target generation when the real target is explicitly and not explicitly mentioned in the text. Likewise, for stance detection, LLMs excel in explicit cases with comparable performance in non-explicit in general.
翻訳日:2024-11-08 03:46:25 公開日:2024-09-30
# 深部ReLUニューラルネットワークを用いたソボレフとベソフ関数の最適近似について

On the optimal approximation of Sobolev and Besov functions using deep ReLU neural networks ( http://arxiv.org/abs/2409.00901v2 )

ライセンス: Link先を確認
Yunfei Yang, (参考訳) 本稿では, ソボレフ空間 $\mathcal{W}^{s,q}([0,1]^d)$ および Besov 空間 $\mathcal{B}^s_{q,r}([0,1]^d)$ において, 誤差が$L^p([0,1]^d)$ノルムで測定された場合, 幅が$W$ で深さが$L$ の深いReLUニューラルネットワークによって近似できる問題について検討する。 この問題はいくつかの最近の研究によって研究され、ソボレフ埋め込み条件が 1/q −1/p<s/d$ であるときに、$p=q=\infty$ のときの対数係数への近似率 $\mathcal{O}((WL)^{-2s/d})$ と、固定幅のネットワークに対する $\mathcal{O}(L^{-2s/d})$ が成立するときに得られる。 これらの結果を一般化するために、$\mathcal{O}((WL)^{-2s/d})$が実際にソボレフ埋め込み条件の下で成り立つことを示す。 この値は対数因子に最適であることが知られている。 我々の証明の鍵となるツールは、幅と深さの異なる深部ReLUニューラルネットワークを用いてスパースベクトルを符号化することである。

This paper studies the problem of how efficiently functions in the Sobolev spaces $\mathcal{W}^{s,q}([0,1]^d)$ and Besov spaces $\mathcal{B}^s_{q,r}([0,1]^d)$ can be approximated by deep ReLU neural networks with width $W$ and depth $L$, when the error is measured in the $L^p([0,1]^d)$ norm. This problem has been studied by several recent works, which obtained the approximation rate $\mathcal{O}((WL)^{-2s/d})$ up to logarithmic factors when $p=q=\infty$, and the rate $\mathcal{O}(L^{-2s/d})$ for networks with fixed width when the Sobolev embedding condition $1/q -1/p<s/d$ holds. We generalize these results by showing that the rate $\mathcal{O}((WL)^{-2s/d})$ indeed holds under the Sobolev embedding condition. It is known that this rate is optimal up to logarithmic factors. The key tool in our proof is a novel encoding of sparse vectors by using deep ReLU neural networks with varied width and depth, which may be of independent interest.
翻訳日:2024-11-08 03:35:26 公開日:2024-09-30
# GCCRR:Ear-Worn IMUに基づく短周期歩行周期分割法

GCCRR: A Short Sequence Gait Cycle Segmentation Method Based on Ear-Worn IMU ( http://arxiv.org/abs/2409.00983v2 )

ライセンス: Link先を確認
Zhenye Xu, Yao Guo, (参考訳) 運動機能障害患者の在宅モニタリングとリハビリテーションのための実践的,非侵襲的アプローチとして,耳鳴IMUの短いシーケンスを用いた歩行周期セグメンテーションの重要課題について述べる。 以前の研究では下肢に位置するIMUに焦点が当てられていたが、耳を縫ったIMUは、最小限の侵入で歩行動態を捉えるのにユニークな利点がある。 短周期を用いた歩行周期のセグメンテーションの課題に対処するために、我々は、微細な歩行位相セグメンテーションのために設計された新しい2段階アプローチである、歩行特性曲線回帰再生法(GCCRR)を導入する。 第1段階は、セグメント化タスクを周期情報を組み込んだ1次元の特徴系列である歩行特性曲線(GCC)の回帰タスクに変換する。 第2段階はピーク検出技術を用いて歩行周期を復元する。 提案手法では,Bi-LSTMに基づく深層学習アルゴリズムを用いて,短い歩数列に対して信頼性の高いセグメンテーションを実現する。 HamlynGaitデータセットの評価では、GCCRRは80\%以上の精度を実現しており、Timestamp Errorは1回のサンプリング間隔以下である。 その有望な結果にもかかわらず、より広範なセンサーシステムを使用する方法の遅れは、より大きな、より多様なデータセットの必要性を強調している。 今後の研究は、モーションキャプチャシステムによるデータ拡張とアルゴリズムの一般化性の改善に焦点を当てる予定である。

This paper addresses the critical task of gait cycle segmentation using short sequences from ear-worn IMUs, a practical and non-invasive approach for home-based monitoring and rehabilitation of patients with impaired motor function. While previous studies have focused on IMUs positioned on the lower limbs, ear-worn IMUs offer a unique advantage in capturing gait dynamics with minimal intrusion. To address the challenges of gait cycle segmentation using short sequences, we introduce the Gait Characteristic Curve Regression and Restoration (GCCRR) method, a novel two-stage approach designed for fine-grained gait phase segmentation. The first stage transforms the segmentation task into a regression task on the Gait Characteristic Curve (GCC), which is a one-dimensional feature sequence incorporating periodic information. The second stage restores the gait cycle using peak detection techniques. Our method employs Bi-LSTM-based deep learning algorithms for regression to ensure reliable segmentation for short gait sequences. Evaluation on the HamlynGait dataset demonstrates that GCCRR achieves over 80\% Accuracy, with a Timestamp Error below one sampling interval. Despite its promising results, the performance lags behind methods using more extensive sensor systems, highlighting the need for larger, more diverse datasets. Future work will focus on data augmentation using motion capture systems and improving algorithmic generalizability.
翻訳日:2024-11-08 03:35:26 公開日:2024-09-30
# UNSURE:未知の騒音レベルステインのアンバイアスド・リスク・エスペクター

UNSURE: Unknown Noise level Stein's Unbiased Risk Estimator ( http://arxiv.org/abs/2409.01985v2 )

ライセンス: Link先を確認
Julián Tachella, Mike Davies, Laurent Jacques, (参考訳) 近年,ノイズの多いデータのみから学習できる画像再構成のための自己教師型学習法が数多く提案されている。 既存のメソッドのほとんどは、2つのクラスの周りにクラスタリングします。 一 騒音分布に関する非常に穏やかな知識を必要とする騒音2自己及び類似のクロスバリデーション方法 二 スタインの無バイアスリスク推定器(SURE)及び分布の完全な知識を前提とした同様のアプローチ 第1の手法は教師付き学習と比較して最適以下であり、第2の手法は現実の応用ではノイズレベルがよく知られていないため、実用的でない傾向にある。 本稿では,この表現性-腐食性トレードオフを特徴付ける理論的枠組みを提案し,SUREに基づく新しいアプローチを提案するが,標準のSUREとは異なり,ノイズレベルに関する知識は不要である。 一連の実験を通して、提案した推定器は、様々な画像逆問題において、既存の自己監督手法よりも優れていることを示す。

Recently, many self-supervised learning methods for image reconstruction have been proposed that can learn from noisy data alone, bypassing the need for ground-truth references. Most existing methods cluster around two classes: i) Noise2Self and similar cross-validation methods that require very mild knowledge about the noise distribution, and ii) Stein's Unbiased Risk Estimator (SURE) and similar approaches that assume full knowledge of the distribution. The first class of methods is often suboptimal compared to supervised learning, and the second class tends to be impractical, as the noise level is often unknown in real-world applications. In this paper, we provide a theoretical framework that characterizes this expressivity-robustness trade-off and propose a new approach based on SURE, but unlike the standard SURE, does not require knowledge about the noise level. Throughout a series of experiments, we show that the proposed estimator outperforms other existing self-supervised methods on various imaging inverse problems
翻訳日:2024-11-07 23:56:04 公開日:2024-09-30
# ビデオを用いた痛覚評価のためのマスク付きオートエンコーダを用いた変圧器

Transformer with Leveraged Masked Autoencoder for video-based Pain Assessment ( http://arxiv.org/abs/2409.05088v2 )

ライセンス: Link先を確認
Minh-Duc Nguyen, Hyung-Jeong Yang, Soo-Hyung Kim, Ji-Eun Shin, Seung-Won Kim, (参考訳) 正確な痛み評価は、効果的な診断と治療のために医療において重要であるが、自己申告に依存した従来の方法は、患者が痛みを伝達できないために不十分である。 Cutting-edge AIは、顔画像データを使用して、痛み認識における臨床医を支援することを約束している。 本稿では,トランスフォーマーを用いたディープラーニングモデル内での顔画像解析を用いて,痛みの認識を向上させる。 強力なMasked AutoencoderとTransformersベースの分類器を組み合わせることで,表現とマイクロ表現の両方を通じて痛みレベルインジケータを効果的にキャプチャする。 我々はAI4Painデータセットで実験を行い、包括的で客観的な革新的な医療ソリューションの道を開く有望な結果を得た。

Accurate pain assessment is crucial in healthcare for effective diagnosis and treatment; however, traditional methods relying on self-reporting are inadequate for populations unable to communicate their pain. Cutting-edge AI is promising for supporting clinicians in pain recognition using facial video data. In this paper, we enhance pain recognition by employing facial video analysis within a Transformer-based deep learning model. By combining a powerful Masked Autoencoder with a Transformers-based classifier, our model effectively captures pain level indicators through both expressions and micro-expressions. We conducted our experiment on the AI4Pain dataset, which produced promising results that pave the way for innovative healthcare solutions that are both comprehensive and objective.
翻訳日:2024-11-07 22:49:49 公開日:2024-09-30
# ビデオを用いた痛覚評価のためのマスク付きオートエンコーダを用いた変圧器

Transformer with Leveraged Masked Autoencoder for video-based Pain Assessment ( http://arxiv.org/abs/2409.05088v3 )

ライセンス: Link先を確認
Minh-Duc Nguyen, Hyung-Jeong Yang, Soo-Hyung Kim, Ji-Eun Shin, Seung-Won Kim, (参考訳) 正確な痛み評価は、効果的な診断と治療のために医療において重要であるが、自己申告に依存した従来の方法は、患者が痛みを伝達できないために不十分である。 Cutting-edge AIは、顔画像データを使用して、痛み認識における臨床医を支援することを約束している。 本稿では,トランスフォーマーを用いたディープラーニングモデル内での顔画像解析を用いて,痛みの認識を向上させる。 強力なMasked AutoencoderとTransformersベースの分類器を組み合わせることで,表現とマイクロ表現の両方を通じて痛みレベルインジケータを効果的にキャプチャする。 我々はAI4Painデータセットで実験を行い、包括的で客観的な革新的な医療ソリューションの道を開く有望な結果を得た。

Accurate pain assessment is crucial in healthcare for effective diagnosis and treatment; however, traditional methods relying on self-reporting are inadequate for populations unable to communicate their pain. Cutting-edge AI is promising for supporting clinicians in pain recognition using facial video data. In this paper, we enhance pain recognition by employing facial video analysis within a Transformer-based deep learning model. By combining a powerful Masked Autoencoder with a Transformers-based classifier, our model effectively captures pain level indicators through both expressions and micro-expressions. We conducted our experiment on the AI4Pain dataset, which produced promising results that pave the way for innovative healthcare solutions that are both comprehensive and objective.
翻訳日:2024-11-07 22:49:49 公開日:2024-09-30
# Nikiforov-Uvarov機能解析を用いたモルス電位の2分子の回転分光

Rovibrational Spectroscopy of Diatomic Molecules in a Modified Morse Potential using Nikiforov-Uvarov Functional Analysis ( http://arxiv.org/abs/2409.06598v2 )

ライセンス: Link先を確認
Raghav Sharma, Pragati Ashdhir, Amit Tanwar, (参考訳) H2, LiH, HCl, CO, VH, CrH, CuLi, TiC, NiC, ScN という二原子分子に対して最近開発されたNikiforov-Uvarov Functional Analysis (NUFA) 法を用いて, 放射型時間依存性Schr\"odinger方程式を解く。 モースポテンシャルの修正が考慮され、遠心項に対応するためにピーケリス近似が用いられる。 正確なエネルギー固有値と固有関数解は振動($\mathit{n}$)および回転($\ell$)状態に対して得られる。 H2, LiH, HCl, COについては、ペケリス近似が有効であることを仮定して、現在の値と文献の間で優れた一致が観察される。 他の分子については、文献に見つからない低層および高層状態の集合が報告されている。 NUFA法は他の原子間ポテンシャルに適用できる単純で汎用的で正確なアプローチである。

The radial time-independent Schr\"odinger equation is solved for the diatomic molecules: H2, LiH, HCl, CO, VH, CrH, CuLi, TiC, NiC, and ScN using the recently developed Nikiforov-Uvarov Functional Analysis (NUFA) method. A modified Morse potential is considered and the Pekeris approximation is used to accommodate the centrifugal term. Accurate energy eigenvalues and eigenfunction solutions are obtained for vibrational ($\mathit{n}$) and rotational ($\ell$) states. For H2, LiH, HCl, and CO, excellent agreement is observed between present values and literature, provided that the Pekeris approximation remains valid. For other molecules, a collection of low and high-lying states not found in literature are reported. The NUFA method is a simple, general and accurate approach that may be applied to other interatomic potentials.
翻訳日:2024-11-07 22:05:05 公開日:2024-09-30
# LLM時代の小モデルの役割:調査

What is the Role of Small Models in the LLM Era: A Survey ( http://arxiv.org/abs/2409.06857v3 )

ライセンス: Link先を確認
Lihu Chen, Gaël Varoquaux, (参考訳) 大規模言語モデル(LLM)は人工知能(AGI)の進歩に大きな進歩をもたらし、GPT-4やLLaMA-405Bのような大規模モデルの開発に繋がった。 しかし、モデルのサイズを拡大すると計算コストとエネルギー消費が指数関数的に増加し、これらのモデルは限られた資源を持つ学術研究者やビジネスにとって実用的ではない。 同時に、Small Models (SM) は実際的な設定で頻繁に使用されるが、その重要性は過小評価されている。 このことは、LLMの時代における小型モデルの役割に関する重要な疑問を提起する。 本研究では,LLMとSMの関係を,コラボレーションと競争という2つの重要な観点から体系的に検討する。 この調査が実践者に貴重な洞察を与え、小さなモデルの貢献をより深く理解し、より効率的な計算資源の利用を促進することを願っている。 コードはhttps://github.com/tigerchen52/role_of_small_modelsで公開されている。

Large Language Models (LLMs) have made significant progress in advancing artificial general intelligence (AGI), leading to the development of increasingly large models such as GPT-4 and LLaMA-405B. However, scaling up model sizes results in exponentially higher computational costs and energy consumption, making these models impractical for academic researchers and businesses with limited resources. At the same time, Small Models (SMs) are frequently used in practical settings, although their significance is currently underestimated. This raises important questions about the role of small models in the era of LLMs, a topic that has received limited attention in prior research. In this work, we systematically examine the relationship between LLMs and SMs from two key perspectives: Collaboration and Competition. We hope this survey provides valuable insights for practitioners, fostering a deeper understanding of the contribution of small models and promoting more efficient use of computational resources. The code is available at https://github.com/tigerchen52/role_of_small_models
翻訳日:2024-11-07 22:05:05 公開日:2024-09-30
# ゲージ理論としての量子熱力学

Quantum thermodynamics as a gauge theory ( http://arxiv.org/abs/2409.07676v2 )

ライセンス: Link先を確認
Gabriel Fernandez Ferrari, Łukasz Rudnicki, Lucas Chibebe Céleri, (参考訳) 熱力学は粗い粒度のアプローチに基づいており、その基本的な変数が出現し、マクロシステム内の顕微鏡力学の複雑な詳細を効果的に消去する。 熱力学の強さは、このパラダイムによって提供される普遍性にある。 対照的に、量子力学は、我々が実行する実験について予測することを目的として、顕微鏡システムの力学を記述することに焦点を当てている。 近年、量子熱力学のゲージ理論が導入され、ゲージ不変の作用と熱を定義し、量子現象との関係を探究した。 本研究では、この理論を2つの重要な方法で拡張する。 まず、以前は見過ごされていたエネルギースペクトルの退化を取り入れる。 さらに、ゲージ不変エントロピーを定義し、その性質と他の物理量や情報量との接続を探索する。 この結果、ゲージ不変性の原理に基づく量子熱力学の完全な枠組みが導かれる。 この理論のいくつかの意味を実証するために、よく知られた臨界系に適用する。

Thermodynamics is based on a coarse-grained approach, from which its fundamental variables emerge, effectively erasing the complicate details of the microscopic dynamics within a macroscopic system. The strength of Thermodynamics lies in the universality provided by this paradigm. In contrast, quantum mechanics focuses on describing the dynamics of microscopic systems, aiming to make predictions about experiments we perform, a goal shared by all fundamental physical theories, which are often framed as gauge theories in modern physics. Recently, a gauge theory for quantum thermodynamics was introduced, defining gauge invariant work and heat, and exploring their connections to quantum phenomena. In this work, we extend that theory in two significant ways. First, we incorporate energy spectrum degeneracies, which were previously overlooked. Additionally, we define gauge-invariant entropy, exploring its properties and connections to other physical and informational quantities. This results in a complete framework for quantum thermodynamics grounded in the principle of gauge invariance. To demonstrate some implications of this theory, we apply it to well-known critical systems.
翻訳日:2024-11-07 21:42:46 公開日:2024-09-30
# 有限粒子収束率の向上による結晶粒径変化の抑制

Improved Finite-Particle Convergence Rates for Stein Variational Gradient Descent ( http://arxiv.org/abs/2409.08469v2 )

ライセンス: Link先を確認
Krishnakumar Balasubramanian, Sayan Banerjee, Promit Ghosal, (参考訳) 我々は、Kernelized Stein Discrepancy ($\mathsf{KSD}$) と Wasserstein-2 メトリクスにおいて、Stein Variational Gradient Descent (SVGD) アルゴリズムに対する有限粒子収束率を提供する。 我々の重要な洞察は、通常の初期分布から始まる$N$粒子位置の結合密度と$N$の積目標測度の相対エントロピーの時間微分が、期待される$\mathsf{KSD}^2$のN$倍に比例する支配的な「負の部分」とより小さい「正の部分」に分裂するということである。 この観測は、連続時間と離散時間の両方で位数 $1/\sqrt{N}$ の$\mathsf{KSD}$ となり、Shi と Mackey (2024) による最近の結果よりも、(対応する i.d. レートと一致するという意味で)ほぼ最適である。 核とポテンシャルに関する穏やかな仮定の下で、これらの境界は次元$d$で多項式的に成長する。 カーネルに双線型成分を加えることにより、上記のアプローチは、連続的にワッサーシュタイン-2収束を得るために用いられる。 Bilinear + Mat\'ern' カーネルの場合、i.d. の設定と似た次元の呪いを示す Wasserstein-2 レートを導出する。 また, 時間平均粒子法則に対して, カオス結果の限界収束と長期伝播を求める。

We provide finite-particle convergence rates for the Stein Variational Gradient Descent (SVGD) algorithm in the Kernelized Stein Discrepancy ($\mathsf{KSD}$) and Wasserstein-2 metrics. Our key insight is that the time derivative of the relative entropy between the joint density of $N$ particle locations and the $N$-fold product target measure, starting from a regular initial distribution, splits into a dominant `negative part' proportional to $N$ times the expected $\mathsf{KSD}^2$ and a smaller `positive part'. This observation leads to $\mathsf{KSD}$ rates of order $1/\sqrt{N}$, in both continuous and discrete time, providing a near optimal (in the sense of matching the corresponding i.i.d. rates) double exponential improvement over the recent result by Shi and Mackey (2024). Under mild assumptions on the kernel and potential, these bounds also grow polynomially in the dimension $d$. By adding a bilinear component to the kernel, the above approach is used to further obtain Wasserstein-2 convergence in continuous time. For the case of `bilinear + Mat\'ern' kernels, we derive Wasserstein-2 rates that exhibit a curse-of-dimensionality similar to the i.i.d. setting. We also obtain marginal convergence and long-time propagation of chaos results for the time-averaged particle laws.
翻訳日:2024-11-07 21:20:36 公開日:2024-09-30
# 時系列分類におけるプライバシ保護アルゴリズム選択のためのデータフィンガープリントの利用:未確認データセットの性能と不確かさ推定

Utilizing Data Fingerprints for Privacy-Preserving Algorithm Selection in Time Series Classification: Performance and Uncertainty Estimation on Unseen Datasets ( http://arxiv.org/abs/2409.08636v2 )

ライセンス: Link先を確認
Lars Böcking, Leopold Müller, Niklas Kühl, (参考訳) アルゴリズムの選択は、実世界の時系列分類ユースケースのためにAIサービスを設計する上で重要なステップである。 ニューラルネットワーク探索、自動機械学習、組み合わせアルゴリズムの選択、ハイパーパラメータ最適化といった従来の手法は効果的だが、膨大な計算資源が必要であり、最適化を実行するにはすべてのデータポイントにアクセスする必要がある。 本研究では,任意の時系列分類データセットをプライバシ保護方式で記述し,(目に見えない)データセットのトレーニングを必要とせずにアルゴリズム選択問題に対する洞察を提供する新しいデータ指紋を提案する。 マルチターゲット回帰問題を分解することにより、我々のデータフィンガープリントのみが、スケーラブルで適応可能な方法でアルゴリズムの性能と不確実性を推定するために使用される。 提案手法はカリフォルニア大学リバーサイドベンチマークデータセット112を用いて評価され,35の最先端アルゴリズムの性能予測と時系列分類サービスシステムにおける効果的なアルゴリズム選択のための有用な洞察の提供,平均性能推定における平均ベースラインの7.32%,不確実性推定における15.81%の改善を実証した。

The selection of algorithms is a crucial step in designing AI services for real-world time series classification use cases. Traditional methods such as neural architecture search, automated machine learning, combined algorithm selection, and hyperparameter optimizations are effective but require considerable computational resources and necessitate access to all data points to run their optimizations. In this work, we introduce a novel data fingerprint that describes any time series classification dataset in a privacy-preserving manner and provides insight into the algorithm selection problem without requiring training on the (unseen) dataset. By decomposing the multi-target regression problem, only our data fingerprints are used to estimate algorithm performance and uncertainty in a scalable and adaptable manner. Our approach is evaluated on the 112 University of California riverside benchmark datasets, demonstrating its effectiveness in predicting the performance of 35 state-of-the-art algorithms and providing valuable insights for effective algorithm selection in time series classification service systems, improving a naive baseline by 7.32% on average in estimating the mean performance and 15.81% in estimating the uncertainty.
翻訳日:2024-11-07 21:20:36 公開日:2024-09-30
# 構造に基づく医薬品設計のためのマニフォールド拘束核レベル拡散モデル

Manifold-Constrained Nucleus-Level Denoising Diffusion Model for Structure-Based Drug Design ( http://arxiv.org/abs/2409.10584v2 )

ライセンス: Link先を確認
Shengchao Liu, Divin Yan, Weitao Du, Weiyang Liu, Zhuoxinran Li, Hongyu Guo, Christian Borgs, Jennifer Chayes, Anima Anandkumar, (参考訳) 人工知能モデルは、高い結合親和性を持つ配位子を生成する構造に基づく薬物設計において大きな可能性を示している。 しかし、既存のモデルは、しばしば重要な物理的制約を見落としている:原子は分離違反を避けるために最小のペア距離を維持する必要があり、これは魅力的な力と反発力のバランスによって支配される現象である。 このような分離違反を軽減するために,NucleusDiffを提案する。 原子核と周囲の電子雲の間の相互作用を、原子核と多様体の間の距離制限を強制することによってモデル化する。 我々はCrossDocked2020データセットとCOVID-19治療ターゲットを用いてNucleusDiffを定量的に評価し、NucleusDiffは違反率を最大100.00%削減し、結合親和性を最大22.16%向上し、構造に基づく医薬品設計の最先端モデルを上回ることを実証した。 また,多様体サンプリングによる定性解析を行い,分離違反の低減と結合親和性の向上にNucleusDiffの有効性を視覚的に確認する。

Artificial intelligence models have shown great potential in structure-based drug design, generating ligands with high binding affinities. However, existing models have often overlooked a crucial physical constraint: atoms must maintain a minimum pairwise distance to avoid separation violation, a phenomenon governed by the balance of attractive and repulsive forces. To mitigate such separation violations, we propose NucleusDiff. It models the interactions between atomic nuclei and their surrounding electron clouds by enforcing the distance constraint between the nuclei and manifolds. We quantitatively evaluate NucleusDiff using the CrossDocked2020 dataset and a COVID-19 therapeutic target, demonstrating that NucleusDiff reduces violation rate by up to 100.00% and enhances binding affinity by up to 22.16%, surpassing state-of-the-art models for structure-based drug design. We also provide qualitative analysis through manifold sampling, visually confirming the effectiveness of NucleusDiff in reducing separation violations and improving binding affinities.
翻訳日:2024-11-07 20:24:12 公開日:2024-09-30
# 簡易SIRモデルによるパンデミック計画問題の解法のための計量ハイブリッド計画手法

A Metric Hybrid Planning Approach to Solving Pandemic Planning Problems with Simple SIR Models ( http://arxiv.org/abs/2409.11631v2 )

ライセンス: Link先を確認
Ari Gestetner, Buser Say, (参考訳) パンデミック(パンデミック)は、広範囲にわたる病気の拡散であり、健康、経済、社会の面で社会に壊滅的なコストをもたらす可能性がある。 このように、効果的なパンデミック緩和戦略の研究は、社会に大きな影響を与える可能性がある。 パンデミックは、Susceptible Infected Removed (SIR)モデルのようなコンパートメンタルモデルを用いて数学的に記述することができる。 本稿では,SIRモデルの解方程式をロックダウンを伴う状態遷移モデルに拡張する。 我々は、この状態遷移モデルに基づいて、計量ハイブリッド計画問題を定式化し、計量ハイブリッドプランナーを用いて解決する。 我々は,有効不等式の追加により,計量ハイブリッドプランナのランタイム性能を向上し,理論的にも実験的にも,様々な困難条件下でのアプローチの成功を実証する。

A pandemic is the spread of a disease across large regions, and can have devastating costs to the society in terms of health, economic and social. As such, the study of effective pandemic mitigation strategies can yield significant positive impact on the society. A pandemic can be mathematically described using a compartmental model, such as the Susceptible Infected Removed (SIR) model. In this paper, we extend the solution equations of the SIR model to a state transition model with lockdowns. We formalize a metric hybrid planning problem based on this state transition model, and solve it using a metric hybrid planner. We improve the runtime effectiveness of the metric hybrid planner with the addition of valid inequalities, and demonstrate the success of our approach both theoretically and experimentally under various challenging settings.
翻訳日:2024-11-07 19:50:48 公開日:2024-09-30
# スピン-5/2ハイゼンベルク分子鉄(III)三角形における絡み合い、スピンスクイーズ、量子センシング

Entanglement, Spin Squeezing and Quantum Sensing in a Spin-5/2 Heisenberg Molecular Iron(III) Triangle ( http://arxiv.org/abs/2409.13457v1 )

ライセンス: Link先を確認
Hamid Arian Zad, Jozef Strečka, Winfried Plass, (参考訳) この研究は、三核高スピン鉄(III)分子複合体の静的および動的量子的性質に関する洞察を与える。 磁場中のスピン-5/2ハイゼンベルク三角形の正確な対角化を用いて、分子化合物Fe$_3$の対応する量子挙動をモデル化する。 我々の厳密な分析では、この分子化合物の豊富な量子的挙動を探索するために、様々な重要な指標を用いている。 十分な低温下では、二部晶陰性度は、分子複合体Fe$_3$の任意の鉄(III)磁性イオンの対の絡み合いが、小さな磁場によって著しく向上できることを明らかにする。 この拡張は、磁場がさらに増加するにつれて、プレートの列と突然のダウンターンによって特徴づけられる、伝統的なステップライクな変化に続きます。 定性的に類似した挙動は、三核錯体Fe$_3$の3つの鉄(III)磁性イオン間の真の三部晶の絡み合いでも観察される。 特に、二分石と三分石の絡み合いは、それぞれ約30〜Kと70〜Kの適度な温度まで分子複合体Fe$_3$に持続する。 また, スピンスクイージングパラメータを用いて, 分子化合物Fe$_3$のコヒーレント, エンタングル, 圧縮状態のパラメータ領域を同定した。 以上の結果から, 圧縮された状態は, 15~K以下の温度で, 25~T以下の磁場で達成できることが示唆された。 さらに、Dicke状態の分子錯体Fe$_3$を初期化することにより、量子増強感度の達成を実証する。 最後に, 分子化合物Fe$_3$の1つの鉄(III)磁性イオンに局所磁場を印加し, 2つの鉄(III)磁性イオンのうちの1つを順次読み出し, 量子センシングプロトコルについて検討した。

This study provides insights into the static and dynamic quantum properties of the trinuclear high-spin iron(III) molecular complex. Using exact diagonalization of a spin-5/2 Heisenberg triangle in a magnetic field, we model the corresponding quantum behavior of the molecular compound Fe$_3$. Our rigorous analysis employs various key metrics to explore a rich quantum behavior of this molecular compound. At sufficiently low temperatures, the bipartite negativity reveals that the pairwise entanglement between any pair of iron(III) magnetic ions of the molecular complex Fe$_3$ can be significantly enhanced by a small magnetic field. This enhancement is followed by unconventional step-like changes characterized by a sequence of plateaus and sudden downturns as the magnetic field further increases. A qualitatively similar behavior is also observed in the genuine tripartite entanglement among all three iron(III) magnetic ions in the trinuclear complex Fe$_3$. Notably, the bipartite and tripartite entanglement persist in the molecular complex Fe$_3$ up to moderate temperatures of approximately 30~K and 70~K, respectively. We also utilized a spin squeezing parameter to identify parameter regions of coherent, entangled, and squeezed states of the molecular compound Fe$_3$. Our findings demonstrate that the squeezed states, which are relevant for technological applications, can be achieved at temperatures below 15~K and magnetic fields under 25~T. Additionally, we demonstrate the achievement of quantum-enhanced sensitivity by initializing the molecular complex Fe$_3$ in Dicke states. Finally, we investigated a quantum-sensing protocol by applying a local magnetic field specifically to one iron(III) magnetic ion of the molecular compound Fe$_3$ and performing readout sequentially on one of two remaining iron(III) magnetic ions.
翻訳日:2024-11-07 07:04:14 公開日:2024-09-30
# スピン-5/2ハイゼンベルク分子鉄(III)三角形における絡み合い、スピンスクイーズ、量子センシング

Entanglement, Spin Squeezing and Quantum Sensing in a Spin-5/2 Heisenberg Molecular Iron(III) Triangle ( http://arxiv.org/abs/2409.13457v2 )

ライセンス: Link先を確認
Hamid Arian Zad, Jozef Strečka, Winfried Plass, (参考訳) この研究は、三核高スピン鉄(III)分子複合体の静的および動的量子的性質に関する洞察を与える。 磁場中のスピン-5/2ハイゼンベルク三角形の正確な対角化を用いて、分子化合物Fe$_3$の対応する量子挙動をモデル化する。 我々の厳密な分析では、この分子化合物の豊富な量子的挙動を探索するために、様々な重要な指標を用いている。 十分な低温下では、二部晶陰性度は、分子複合体Fe$_3$の任意の鉄(III)磁性イオンの対の絡み合いが、小さな磁場によって著しく向上できることを明らかにする。 この拡張は、磁場がさらに増加するにつれて、プレートの列と突然のダウンターンによって特徴づけられる、伝統的なステップライクな変化に続きます。 定性的に類似した挙動は、三核錯体Fe$_3$の3つの鉄(III)磁性イオン間の真の三部晶の絡み合いでも観察される。 特に、二部構造体と三部構造体の絡み合いは、それぞれ約$30\,\text{K}$と$70\,\text{K}$の適度な温度まで、分子複合体 Fe$_3$ に持続する。 また, スピンスクイージングパラメータを用いて, 分子化合物Fe$_3$のコヒーレント, エンタングル, 圧縮状態のパラメータ領域を同定した。 以上の結果から, 技術的応用に関係のある圧縮状態は, 温度が15\,\text{K}$以下で, 磁場が25\,\text{T}$以下で達成できることが示唆された。 さらに、Dicke状態の分子錯体Fe$_3$を初期化することにより、量子増強感度の達成を実証する。 最後に, 分子化合物Fe$_3$の1つの鉄(III)磁性イオンに局所磁場を印加し, 残った2つの鉄(III)磁性イオンのうちの1つを順次読み出し, 量子センシングプロトコルについて検討した。

This study provides insights into the static and dynamic quantum properties of the trinuclear high-spin iron(III) molecular complex. Using exact diagonalization of a spin-5/2 Heisenberg triangle in a magnetic field, we model the corresponding quantum behavior of the molecular compound Fe$_3$. Our rigorous analysis employs various key metrics to explore a rich quantum behavior of this molecular compound. At sufficiently low temperatures, the bipartite negativity reveals that the pairwise entanglement between any pair of iron(III) magnetic ions of the molecular complex Fe$_3$ can be significantly enhanced by a small magnetic field. This enhancement is followed by unconventional step-like changes characterized by a sequence of plateaus and sudden downturns as the magnetic field further increases. A qualitatively similar behavior is also observed in the genuine tripartite entanglement among all three iron(III) magnetic ions in the trinuclear complex Fe$_3$. Notably, the bipartite and tripartite entanglement persist in the molecular complex Fe$_3$ up to moderate temperatures of approximately $30\,\text{K}$ and $70\,\text{K}$, respectively. We also utilized a spin squeezing parameter to identify parameter regions of coherent, entangled, and squeezed states of the molecular compound Fe$_3$. Our findings demonstrate that the squeezed states, which are relevant for technological applications, can be achieved at temperatures below $15\,\text{K}$ and magnetic fields under $25\,\text{T}$. Additionally, we demonstrate the achievement of quantum-enhanced sensitivity by initializing the molecular complex Fe$_3$ in Dicke states. Finally, we investigated a quantum-sensing protocol by applying a local magnetic field specifically to one iron(III) magnetic ion of the molecular compound Fe$_3$ and performing readout sequentially on one of two remaining iron(III) magnetic ions.
翻訳日:2024-11-07 07:04:14 公開日:2024-09-30
# 生成AIのN-Versionアセスメントと強化

N-Version Assessment and Enhancement of Generative AI ( http://arxiv.org/abs/2409.14071v1 )

ライセンス: Link先を確認
Marcus Kessel, Colin Atkinson, (参考訳) 生成AI(GAI)は、ソフトウェアエンジニアリングの生産性を向上させる大きな可能性を秘めている。 GAI生成アーティファクトの広範な検証と検証(V&V)の必要性は、潜在的な生産性向上を損なう可能性がある。 本稿では,複数のバージョンのコードとテストを生成するGAIの能力を利用して,これらのリスクを軽減し,バージョン間の比較分析を容易にする手法を提案する。 単一のテストやコードモジュールの品質に頼るのではなく、この"差分GAI"(D-GAI)アプローチは、バージョン多様性を通じてより信頼性の高い品質評価を促進する。 我々は,大規模ソフトウェアオブザーバリアム(LASSO)を紹介した。これはD-GAIをサポートするプラットフォームで,大規模なコードバージョンとテストを実行することによって,D-GAIをサポートする。 本稿では,GAI 生成物の厳密な評価を可能にする LASSO について論じ,ソフトウェア開発と GAI 研究への応用を提案する。

Generative AI (GAI) holds great potential to improve software engineering productivity, but its untrustworthy outputs, particularly in code synthesis, pose significant challenges. The need for extensive verification and validation (V&V) of GAI-generated artifacts may undermine the potential productivity gains. This paper proposes a way of mitigating these risks by exploiting GAI's ability to generate multiple versions of code and tests to facilitate comparative analysis across versions. Rather than relying on the quality of a single test or code module, this "differential GAI" (D-GAI) approach promotes more reliable quality evaluation through version diversity. We introduce the Large-Scale Software Observatorium (LASSO), a platform that supports D-GAI by executing and analyzing large sets of code versions and tests. We discuss how LASSO enables rigorous evaluation of GAI-generated artifacts and propose its application in both software development and GAI research.
翻訳日:2024-11-07 03:44:25 公開日:2024-09-30
# 生成AIのN-Versionアセスメントと強化

N-Version Assessment and Enhancement of Generative AI ( http://arxiv.org/abs/2409.14071v2 )

ライセンス: Link先を確認
Marcus Kessel, Colin Atkinson, (参考訳) 生成AI(GAI)は、ソフトウェアエンジニアリングの生産性を向上させる大きな可能性を秘めている。 GAI生成アーティファクトの広範な検証と検証(V&V)の必要性は、潜在的な生産性向上を損なう可能性がある。 本稿では,複数のバージョンのコードとテストを生成するGAIの能力を利用して,これらのリスクを軽減し,バージョン間の比較分析を容易にする手法を提案する。 単一のテストやコードモジュールの品質に頼るのではなく、この"差分GAI"(D-GAI)アプローチは、バージョン多様性を通じてより信頼性の高い品質評価を促進する。 我々は,大規模ソフトウェアオブザーバリアム(LASSO)を紹介した。これはD-GAIをサポートするプラットフォームで,大規模なコードバージョンとテストを実行することによって,D-GAIをサポートする。 本稿では,GAI 生成物の厳密な評価を可能にする LASSO について論じ,ソフトウェア開発と GAI 研究への応用を提案する。

Generative AI (GAI) holds great potential to improve software engineering productivity, but its untrustworthy outputs, particularly in code synthesis, pose significant challenges. The need for extensive verification and validation (V&V) of GAI-generated artifacts may undermine the potential productivity gains. This paper proposes a way of mitigating these risks by exploiting GAI's ability to generate multiple versions of code and tests to facilitate comparative analysis across versions. Rather than relying on the quality of a single test or code module, this "differential GAI" (D-GAI) approach promotes more reliable quality evaluation through version diversity. We introduce the Large-Scale Software Observatorium (LASSO), a platform that supports D-GAI by executing and analyzing large sets of code versions and tests. We discuss how LASSO enables rigorous evaluation of GAI-generated artifacts and propose its application in both software development and GAI research.
翻訳日:2024-11-07 03:44:25 公開日:2024-09-30
# A is for absorption: Studying Feature Splitting and absorption in Sparse Autoencoders (特集:A)

A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders ( http://arxiv.org/abs/2409.14507v2 )

ライセンス: Link先を確認
David Chanin, James Wilken-Smith, Tomáš Dulka, Hardik Bhatnagar, Joseph Bloom, (参考訳) Sparse Autoencoders (SAEs) は、Large Language Models (LLMs) のアクティベーションを人間の解釈可能なラテントに分解する、有望なアプローチとして登場した。 本稿では2つの疑問を提起する。 まず、SAEsはどの程度モノセマンティックで解釈可能な潜水剤を抽出するのか? 第二に、SAEの空間や大きさの変化が単意味性/解釈可能性にどの程度影響するか。 これらの質問を、語彙中の全てのトークンに対して、基底真理ラベルに完全にアクセス可能な単純なファーストレター識別タスクの文脈で調査することにより、以前の調査よりも詳細な情報を提供することができる。 批判的に言えば、特徴吸収と呼ばれる機能分割の問題点は、明らかにすべき場合において、単意味的な潜伏剤が発射に失敗するように見えることである。 本研究は,SAEのサイズや空間の多様性が,この問題を解決するには不十分であり,解決が必要な概念的な問題があることを示唆している。

Sparse Autoencoders (SAEs) have emerged as a promising approach to decompose the activations of Large Language Models (LLMs) into human-interpretable latents. In this paper, we pose two questions. First, to what extent do SAEs extract monosemantic and interpretable latents? Second, to what extent does varying the sparsity or the size of the SAE affect monosemanticity / interpretability? By investigating these questions in the context of a simple first-letter identification task where we have complete access to ground truth labels for all tokens in the vocabulary, we are able to provide more detail than prior investigations. Critically, we identify a problematic form of feature-splitting we call feature absorption where seemingly monosemantic latents fail to fire in cases where they clearly should. Our investigation suggests that varying SAE size or sparsity is insufficient to solve this issue, and that there are deeper conceptual issues in need of resolution.
翻訳日:2024-11-06 22:30:40 公開日:2024-09-30
# A is for absorption: Studying Feature Splitting and absorption in Sparse Autoencoders (特集:A)

A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders ( http://arxiv.org/abs/2409.14507v3 )

ライセンス: Link先を確認
David Chanin, James Wilken-Smith, Tomáš Dulka, Hardik Bhatnagar, Joseph Bloom, (参考訳) Sparse Autoencoders (SAEs) は、Large Language Models (LLMs) のアクティベーションを人間の解釈可能なラテントに分解する、有望なアプローチとして登場した。 本稿では2つの疑問を提起する。 まず、SAEsはどの程度モノセマンティックで解釈可能な潜水剤を抽出するのか? 第二に、SAEの空間や大きさの変化が単意味性/解釈可能性にどの程度影響するか。 これらの質問を、語彙中の全てのトークンに対して、基底真理ラベルに完全にアクセス可能な単純なファーストレター識別タスクの文脈で調査することにより、以前の調査よりも詳細な情報を提供することができる。 批判的に言えば、特徴吸収と呼ばれる機能分割の問題点は、明らかにすべき場合において、単意味的な潜伏剤が発射に失敗するように見えることである。 本研究は,SAEのサイズや空間の多様性が,この問題を解決するには不十分であり,解決が必要な概念的な問題があることを示唆している。

Sparse Autoencoders (SAEs) have emerged as a promising approach to decompose the activations of Large Language Models (LLMs) into human-interpretable latents. In this paper, we pose two questions. First, to what extent do SAEs extract monosemantic and interpretable latents? Second, to what extent does varying the sparsity or the size of the SAE affect monosemanticity / interpretability? By investigating these questions in the context of a simple first-letter identification task where we have complete access to ground truth labels for all tokens in the vocabulary, we are able to provide more detail than prior investigations. Critically, we identify a problematic form of feature-splitting we call feature absorption where seemingly monosemantic latents fail to fire in cases where they clearly should. Our investigation suggests that varying SAE size or sparsity is insufficient to solve this issue, and that there are deeper conceptual issues in need of resolution.
翻訳日:2024-11-06 22:30:40 公開日:2024-09-30
# A is for absorption: Studying Feature Splitting and absorption in Sparse Autoencoders (特集:A)

A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders ( http://arxiv.org/abs/2409.14507v4 )

ライセンス: Link先を確認
David Chanin, James Wilken-Smith, Tomáš Dulka, Hardik Bhatnagar, Joseph Bloom, (参考訳) Sparse Autoencoders (SAEs) は、Large Language Models (LLMs) のアクティベーションを人間の解釈可能なラテントに分解する、有望なアプローチとして登場した。 本稿では2つの疑問を提起する。 まず、SAEsはどの程度モノセマンティックで解釈可能な潜水剤を抽出するのか? 第二に、SAEの空間や大きさの変化が単意味性/解釈可能性にどの程度影響するか。 これらの質問を、語彙中の全てのトークンに対して、基底真理ラベルに完全にアクセス可能な単純なファーストレター識別タスクの文脈で調査することにより、以前の調査よりも詳細な情報を提供することができる。 批判的に言えば、特徴吸収と呼ばれる機能分割の問題点は、明らかにすべき場合において、単意味的な潜伏剤が発射に失敗するように見えることである。 本研究は,SAEのサイズや空間の多様性が,この問題を解決するには不十分であり,解決が必要な概念的な問題があることを示唆している。

Sparse Autoencoders (SAEs) have emerged as a promising approach to decompose the activations of Large Language Models (LLMs) into human-interpretable latents. In this paper, we pose two questions. First, to what extent do SAEs extract monosemantic and interpretable latents? Second, to what extent does varying the sparsity or the size of the SAE affect monosemanticity / interpretability? By investigating these questions in the context of a simple first-letter identification task where we have complete access to ground truth labels for all tokens in the vocabulary, we are able to provide more detail than prior investigations. Critically, we identify a problematic form of feature-splitting we call feature absorption where seemingly monosemantic latents fail to fire in cases where they clearly should. Our investigation suggests that varying SAE size or sparsity is insufficient to solve this issue, and that there are deeper conceptual issues in need of resolution.
翻訳日:2024-11-06 22:30:40 公開日:2024-09-30
# 直接判断選好最適化

Direct Judgement Preference Optimization ( http://arxiv.org/abs/2409.14664v1 )

ライセンス: Link先を確認
Peifeng Wang, Austin Xu, Yilun Zhou, Caiming Xiong, Shafiq Joty, (参考訳) 自動評価は、応答品質を評価し、モデル開発にフィードバックを提供するために不可欠である。 近年の研究では、他のモデルのアウトプットを評価し、批判するための生成的判断者として、大規模言語モデル(LLM)の訓練について検討されている。 本研究では,LLM審査員の評価能力を高めるために,肯定的データと否定的データの両方から学習する手法について検討する。 異なるユースケースの選好ペアを収集するために3つのアプローチを採用し、それぞれ異なる視点から生成判断を改善することを目的としている。 幅広いベンチマークを総合的に検討した結果,本手法の有効性が示された。 特に,生成型判定器は,13ベンチマーク中10ベンチマークにおいて,GPT-4oや特殊な判定器モデルよりも優れた性能を達成している。 さらに,我々の判断モデルは,位置や長さバイアスなどの固有バイアスに頑健に対処し,実践者が規定する評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。

Auto-evaluation is crucial for assessing response quality and offering feedback for model development. Recent studies have explored training large language models (LLMs) as generative judges to evaluate and critique other models' outputs. In this work, we investigate the idea of learning from both positive and negative data with preference optimization to enhance the evaluation capabilities of LLM judges across an array of different use cases. We achieve this by employing three approaches to collect the preference pairs for different use cases, each aimed at improving our generative judge from a different perspective. Our comprehensive study over a wide range of benchmarks demonstrates the effectiveness of our method. In particular, our generative judge achieves the best performance on 10 out of 13 benchmarks, outperforming strong baselines like GPT-4o and specialized judge models. Further analysis show that our judge model robustly counters inherent biases such as position and length bias, flexibly adapts to any evaluation protocol specified by practitioners, and provides helpful language feedback for improving downstream generator models.
翻訳日:2024-11-06 21:34:58 公開日:2024-09-30
# 直接判断選好最適化

Direct Judgement Preference Optimization ( http://arxiv.org/abs/2409.14664v2 )

ライセンス: Link先を確認
Peifeng Wang, Austin Xu, Yilun Zhou, Caiming Xiong, Shafiq Joty, (参考訳) 自動評価は、応答品質を評価し、モデル開発にフィードバックを提供するために不可欠である。 近年の研究では、他のモデルのアウトプットを評価し、批判するための生成的判断者として、大規模言語モデル(LLM)の訓練について検討されている。 本研究では,LLM審査員の評価能力を高めるために,肯定的データと否定的データの両方から学習する手法について検討する。 異なるユースケースの選好ペアを収集するために3つのアプローチを採用し、それぞれ異なる視点から生成判断を改善することを目的としている。 幅広いベンチマークを総合的に検討した結果,本手法の有効性が示された。 特に,生成型判定器は,13ベンチマーク中10ベンチマークにおいて,GPT-4oや特殊な判定器モデルよりも優れた性能を達成している。 さらに,我々の判断モデルは,位置や長さバイアスなどの固有バイアスに頑健に対処し,実践者が規定する評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。

Auto-evaluation is crucial for assessing response quality and offering feedback for model development. Recent studies have explored training large language models (LLMs) as generative judges to evaluate and critique other models' outputs. In this work, we investigate the idea of learning from both positive and negative data with preference optimization to enhance the evaluation capabilities of LLM judges across an array of different use cases. We achieve this by employing three approaches to collect the preference pairs for different use cases, each aimed at improving our generative judge from a different perspective. Our comprehensive study over a wide range of benchmarks demonstrates the effectiveness of our method. In particular, our generative judge achieves the best performance on 10 out of 13 benchmarks, outperforming strong baselines like GPT-4o and specialized judge models. Further analysis show that our judge model robustly counters inherent biases such as position and length bias, flexibly adapts to any evaluation protocol specified by practitioners, and provides helpful language feedback for improving downstream generator models.
翻訳日:2024-11-06 21:34:58 公開日:2024-09-30
# LINKAGE:LLMによる非ファクトイドQA評価のための付加品質基準リストのランク付け

LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs ( http://arxiv.org/abs/2409.14744v1 )

ライセンス: Link先を確認
Sihui Yang, Keping Bi, Wanqing Cui, Jiafeng Guo, Xueqi Cheng, (参考訳) 非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。 ROUGEやBERTScoreのような一般的な自動評価メトリクスは、意味的類似性や回答を異なる視点から正確に測定することはできない。 近年,大規模言語モデル (LLM) はNFQAの評価に活用されている。 一般的なアプローチには、各候補回答のポイントワイズスコアと、回答間のペアワイズ比較がある。 そこで本研究では,LLM を用いた評価手法を提案する。この手法は,LLM を用いて,下降品質によって分類された参照回答のリストのランク付けを行う。 さらに,マルチグレードや黄金の回答を持たないNF質問に対して,LLMを利用して様々な品質の基準回答リストを生成し,リストワイズ評価を容易にする。 AntiQUE, TREC-DL-NF, WebGLMの3つのNFQAデータセットの大規模な実験結果から, 自動スコアや共通点とペアのアプローチと比較して, 人間のアノテーションとの相関が有意に高いことが示された。

Non-Factoid (NF) Question Answering (QA) is challenging to evaluate due to diverse potential answers and no objective criterion. The commonly used automatic evaluation metrics like ROUGE or BERTScore cannot accurately measure semantic similarities or answers from different perspectives. Recently, Large Language Models (LLMs) have been resorted to for NFQA evaluation due to their compelling performance on various NLP tasks. Common approaches include pointwise scoring of each candidate answer and pairwise comparisons between answers. Inspired by the evolution from pointwise to pairwise to listwise in learning-to-rank methods, we propose a novel listwise NFQA evaluation approach, that utilizes LLMs to rank candidate answers in a list of reference answers sorted by descending quality. Moreover, for NF questions that do not have multi-grade or any golden answers, we leverage LLMs to generate the reference answer list of various quality to facilitate the listwise evaluation. Extensive experimental results on three NFQA datasets, i.e., ANTIQUE, the TREC-DL-NF, and WebGLM show that our method has significantly higher correlations with human annotations compared to automatic scores and common pointwise and pairwise approaches.
翻訳日:2024-11-06 21:12:18 公開日:2024-09-30
# LINKAGE:LLMによる非ファクトイドQA評価のための付加品質基準リストのランク付け

LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs ( http://arxiv.org/abs/2409.14744v2 )

ライセンス: Link先を確認
Sihui Yang, Keping Bi, Wanqing Cui, Jiafeng Guo, Xueqi Cheng, (参考訳) 非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。 ROUGEやBERTScoreのような一般的な自動評価メトリクスは、意味的類似性や回答を異なる視点から正確に測定することはできない。 近年,大規模言語モデル (LLM) はNFQAの評価に活用されている。 一般的なアプローチには、各候補回答のポイントワイズスコアと、回答間のペアワイズ比較がある。 そこで本研究では,LLM を用いた評価手法を提案する。この手法は,LLM を用いて,下降品質によって分類された参照回答のリストのランク付けを行う。 さらに,マルチグレードや黄金の回答を持たないNF質問に対して,LLMを利用して様々な品質の基準回答リストを生成し,リストワイズ評価を容易にする。 AntiQUE, TREC-DL-NF, WebGLMの3つのNFQAデータセットの大規模な実験結果から, 自動スコアや共通点とペアのアプローチと比較して, 人間のアノテーションとの相関が有意に高いことが示された。

Non-Factoid (NF) Question Answering (QA) is challenging to evaluate due to diverse potential answers and no objective criterion. The commonly used automatic evaluation metrics like ROUGE or BERTScore cannot accurately measure semantic similarities or answers from different perspectives. Recently, Large Language Models (LLMs) have been resorted to for NFQA evaluation due to their compelling performance on various NLP tasks. Common approaches include pointwise scoring of each candidate answer and pairwise comparisons between answers. Inspired by the evolution from pointwise to pairwise to listwise in learning-to-rank methods, we propose a novel listwise NFQA evaluation approach, that utilizes LLMs to rank candidate answers in a list of reference answers sorted by descending quality. Moreover, for NF questions that do not have multi-grade or any golden answers, we leverage LLMs to generate the reference answer list of various quality to facilitate the listwise evaluation. Extensive experimental results on three NFQA datasets, i.e., ANTIQUE, the TREC-DL-NF, and WebGLM show that our method has significantly higher correlations with human annotations compared to automatic scores and common pointwise and pairwise approaches.
翻訳日:2024-11-06 21:12:18 公開日:2024-09-30
# LLM審査員のアライメントベンチマークにおける失敗モード

Style Outweighs Substance: Failure Modes of LLM Judges in Alignment Benchmarking ( http://arxiv.org/abs/2409.15268v2 )

ライセンス: Link先を確認
Benjamin Feuer, Micah Goldblum, Teresa Datta, Sanjana Nambiar, Raz Besaleli, Samuel Dooley, Max Cembalest, John P. Dickerson, (参考訳) 2022年11月のChatGPTのリリースは、ポストトレーニングへの関心の爆発と、新しい選好最適化(PO)メソッドの雪崩を引き起こした。 これらの手法は、LLM-judgesによってしばしば測定される、人間のペアワイズ選好とのより良い対応により、優れたアライメントを主張する。 LLM-judgeの好みは、アライメントのためのより具体的なメトリクスの進歩に変換されるのか、そうでなければ、なぜそうでないのか? 我々は、アライメントのための具体的なメトリクスを定義し、SOS-Bench (Substance Outweighs Style Benchmark)を導入します。 1) LLM-judge は安全性,世界知識,指導の具体的な尺度と相関せず,(2) LLM-judge は実効性,安全性よりもスタイルを優先する強力な暗黙の偏見を持ち,(3) PO 段階ではなく,教師付き微調整(SFT) 段階は,データスケーリングと多様性を駆動要因として,アライメントに最も大きな影響を与えている。 私たちのコードベースと完全な結果は、https://github.com/penfever/sos-bench.orgで確認できます。

The release of ChatGPT in November 2022 sparked an explosion of interest in post-training and an avalanche of new preference optimization (PO) methods. These methods claim superior alignment by virtue of better correspondence with human pairwise preferences, often measured by LLM-judges. In this work, we attempt to answer the following question -- do LLM-judge preferences translate to progress on other, more concrete metrics for alignment, and if not, why not? We define a concrete metric for alignment, and introduce SOS-Bench (Substance Outweighs Style Benchmark), which is to the best of our knowledge the largest standardized, reproducible LLM meta-benchmark to date. We find that (1) LLM-judge preferences do not correlate with concrete measures of safety, world knowledge, and instruction following; (2) LLM-judges have powerful implicit biases, prioritizing style over factuality and safety; and (3) the supervised fine-tuning (SFT) stage of post-training, and not the PO stage, has the greatest impact on alignment, with data scaling and prompt diversity as the driving factors. Our codebase and complete results can be found at https://github.com/penfever/sos-bench.
翻訳日:2024-11-06 20:16:59 公開日:2024-09-30
# ソーシャル・マインド・インテリジェンス - 個人、グループ、AIシステムは、どのようにして、より賢くするか(あるいはそうでないか)

Socially-Minded Intelligence: How Individuals, Groups, and AI Systems Can Make Each-Other Smarter (or Not) ( http://arxiv.org/abs/2409.15336v1 )

ライセンス: Link先を確認
William J. Bingley, S. Alexander Haslam, Janet Wiles, (参考訳) 人間の知性の中核は、他者と柔軟に働き、個人と集団の両方の目標を達成する能力である。 人工エージェントを人間空間に組み込むことによって、人工知能(AI)への需要が増加し、その能力の実証と促進が図られている。 しかし、従来のインテリジェンスに対するアプローチは、一般的に個人または集団的な分析レベルに焦点を当てているため、この種の柔軟性はよく理解されていない。 個人のレベルでは、知性は社会的環境とは独立して存在する個人差特性と見なされる。 集団レベルでの知性は、グループの特性として概念化されているが、集団がグループメンバーをより賢くする方法や、個人として振る舞うグループメンバーがグループ自体をより賢くする方法を理解するために使用されるものではない。 本稿では,個人と集団の知性に焦点を合わせることにより,既存の知性の概念が人や機械の可能性を制限することを論じる。 この不適切な問題に対処するために、私たちは、(社会的文脈において)個人と(個人の心の)集団の両方に適用可能な、新しい種類の知性(社会的に意識的な知性)を特定し、探求します。 社会的に意識的なインテリジェンスの観点からは、個人の潜在的なインテリジェンスをグループで解き放つ一方で、グループの潜在的なインテリジェンスは、個々のグループのメンバの柔軟で文脈に敏感なコミットメントによって最大化される。 我々は、社会的な知性を人の中で測定し、栽培する方法と、それをAIシステムでどのようにモデル化するかを提案する。 最後に、人間とAIのコラボレーションを改善するために、社会的な知性を使う方法について議論する。

A core part of human intelligence is the ability to work flexibly with others to achieve both individual and collective goals. The incorporation of artificial agents into human spaces is making increasing demands on artificial intelligence (AI) to demonstrate and facilitate this ability. However, this kind of flexibility is not well understood because existing approaches to intelligence typically focus either on the individual or the collective level of analysis. At the individual level, intelligence is seen as an individual-difference trait that exists independently of the social environment. At the collective level intelligence is conceptualized as a property of groups, but not in a way that can be used to understand how groups can make group members smarter or how group members acting as individuals might make the group itself more intelligent. In the present paper we argue that by focusing either on individual or collective intelligence without considering their interaction, existing conceptualizations of intelligence limit the potential of people and machines. To address this impasse, we identify and explore a new kind of intelligence - socially-minded intelligence - that can be applied to both individuals (in a social context) and collectives (of individual minds). From a socially-minded intelligence perspective, the potential intelligence of individuals is unlocked in groups, while the potential intelligence of groups is maximized by the flexible, context-sensitive commitment of individual group members. We propose ways in which socially-minded intelligence might be measured and cultivated within people, as well as how it might be modelled in AI systems. Finally, we discuss ways in which socially-minded intelligence might be used to improve human-AI teaming.
翻訳日:2024-11-06 19:54:40 公開日:2024-09-30
# ソーシャル・マインド・インテリジェンス - 個人、グループ、AIシステムは、どのようにして、より賢くするか(あるいはそうでないか)

Socially-Minded Intelligence: How Individuals, Groups, and AI Systems Can Make Each-Other Smarter (or Not) ( http://arxiv.org/abs/2409.15336v2 )

ライセンス: Link先を確認
William J. Bingley, S. Alexander Haslam, Janet Wiles, (参考訳) 人間の知性の中核は、他者と柔軟に働き、個人と集団の両方の目標を達成する能力である。 人工エージェントを人間空間に組み込むことによって、人工知能(AI)への需要が増加し、その能力の実証と促進が図られている。 しかし、従来のインテリジェンスに対するアプローチは、一般的に個人または集団的な分析レベルに焦点を当てているため、この種の柔軟性はよく理解されていない。 個人のレベルでは、知性は社会的環境とは独立して存在する個人差特性と見なされる。 集団レベルでの知性は、グループの特性として概念化されているが、集団がグループメンバーをより賢くする方法や、個人として振る舞うグループメンバーがグループ自体をより賢くする方法を理解するために使用されるものではない。 本稿では,個人と集団の知性に焦点を合わせることにより,既存の知性の概念が人や機械の可能性を制限することを論じる。 この不適切な問題に対処するために、私たちは、(社会的文脈において)個人と(個人の心の)集団の両方に適用可能な、新しい種類の知性(社会的に意識的な知性)を特定し、探求します。 社会的に意識的なインテリジェンスの観点からは、個人の潜在的なインテリジェンスをグループで解き放つ一方で、グループの潜在的なインテリジェンスは、個々のグループのメンバの柔軟で文脈に敏感なコミットメントによって最大化される。 我々は、社会的な知性を人の中で測定し、栽培する方法と、それをAIシステムでどのようにモデル化するかを提案する。 最後に、人間とAIのコラボレーションを改善するために、社会的な知性を使う方法について議論する。

A core part of human intelligence is the ability to work flexibly with others to achieve both individual and collective goals. The incorporation of artificial agents into human spaces is making increasing demands on artificial intelligence (AI) to demonstrate and facilitate this ability. However, this kind of flexibility is not well understood because existing approaches to intelligence typically focus either on the individual or the collective level of analysis. At the individual level, intelligence is seen as an individual-difference trait that exists independently of the social environment. At the collective level intelligence is conceptualized as a property of groups, but not in a way that can be used to understand how groups can make group members smarter or how group members acting as individuals might make the group itself more intelligent. In the present paper we argue that by focusing either on individual or collective intelligence without considering their interaction, existing conceptualizations of intelligence limit the potential of people and machines. To address this impasse, we identify and explore a new kind of intelligence - socially-minded intelligence - that can be applied to both individuals (in a social context) and collectives (of individual minds). From a socially-minded intelligence perspective, the potential intelligence of individuals is unlocked in groups, while the potential intelligence of groups is maximized by the flexible, context-sensitive commitment of individual group members. We propose ways in which socially-minded intelligence might be measured and cultivated within people, as well as how it might be modelled in AI systems. Finally, we discuss ways in which socially-minded intelligence might be used to improve human-AI teaming.
翻訳日:2024-11-06 19:54:40 公開日:2024-09-30
# Unimotion: 人間の3Dモーションの合成と理解を統一する

Unimotion: Unifying 3D Human Motion Synthesis and Understanding ( http://arxiv.org/abs/2409.15904v2 )

ライセンス: Link先を確認
Chuqiao Li, Julian Chibane, Yannan He, Naama Pearl, Andreas Geiger, Gerard Pons-moll, (参考訳) フレキシブル・モーション・コントロールとフレームレベルのモーション・理解を両立できる初のマルチタスク・ヒューマン・モーション・モデルであるUnimotionを導入する。 既存の作業は、グローバルテキストコンディショニングやフレーム毎のきめ細かいスクリプトでアバターの動きを制御するが、一度に両方を行うことはできない。 さらに、既存の作業では、生成されたポーズと組み合わせたフレームレベルのテキストを出力することはできない。 対照的に、Unimotionはグローバルテキストやローカルフレームレベルのテキストでモーションを制御できる。 重要なことに、Unimotionは、生成したポーズとペアのローカルテキストを設計することで、ユーザーがどんな動きが起こるか、そしてそれが広範囲のアプリケーションに必要かを知ることができる最初のモデルである。 私たちはUnimotionが新しいアプリケーションを開くことを示しています。 1 階層的な制御で、ユーザーは異なるレベルの細部で動きを指定できる。 2既存のMoCapデータ又はYouTubeビデオのモーションテキスト記述の取得 3. 編集性、テキストからの動作の生成、テキスト編集による動作の編集。 さらに、Unimotionは、確立されたHumanML3Dデータセット上でフレームレベルのテキスト・トゥ・モーションタスクの最先端の結果を得る。 事前トレーニングされたモデルとコードは、プロジェクトのページhttps://coral79.github.io/uni-motion/.com/で利用可能です。

We introduce Unimotion, the first unified multi-task human motion model capable of both flexible motion control and frame-level motion understanding. While existing works control avatar motion with global text conditioning, or with fine-grained per frame scripts, none can do both at once. In addition, none of the existing works can output frame-level text paired with the generated poses. In contrast, Unimotion allows to control motion with global text, or local frame-level text, or both at once, providing more flexible control for users. Importantly, Unimotion is the first model which by design outputs local text paired with the generated poses, allowing users to know what motion happens and when, which is necessary for a wide range of applications. We show Unimotion opens up new applications: 1.) Hierarchical control, allowing users to specify motion at different levels of detail, 2.) Obtaining motion text descriptions for existing MoCap data or YouTube videos 3.) Allowing for editability, generating motion from text, and editing the motion via text edits. Moreover, Unimotion attains state-of-the-art results for the frame-level text-to-motion task on the established HumanML3D dataset. The pre-trained model and code are available available on our project page at https://coral79.github.io/uni-motion/.
翻訳日:2024-11-06 19:21:13 公開日:2024-09-30
# 対向非対称性-合成干渉による顔面対称性と表情分類器の因果関係の解明

Facing Asymmetry -- Uncovering the Causal Link between Facial Symmetry and Expression Classifiers using Synthetic Interventions ( http://arxiv.org/abs/2409.15927v2 )

ライセンス: Link先を確認
Tim Büchner, Niklas Penzel, Orlando Guntinas-Lichius, Joachim Denzler, (参考訳) 表現を理解することは人間の行動の解読に不可欠であり、今日では、エンドツーエンドの訓練されたブラックボックスモデルは高いパフォーマンスを達成する。 これらのモデルのブラックボックスの性質のため、アウト・オブ・ディストリビューションを適用する際にどのように振る舞うかは不明である。 特に, 片側性顔面麻痺患者では, 機能低下が認められた。 内部決定規則を導く重要な要因は、顔対称性である、という仮説を立てる。 本研究では、因果推論からの洞察を用いて仮説を解明する。 構造因果モデルから導出した後、我々は合成介入の枠組みを開発する。 このアプローチにより、他の要因を固定しつつ、顔の対称性がネットワークの出力挙動に与える影響を分析することができる。 17のすべての表現分類器は、対称性の低下のために出力活性化を著しく低下させた。 この結果は、健常者と顔面麻痺患者の実世界データに対する観察行動と一致している。 そこで本研究は,ブラックボックスモデルの挙動に影響を与える因果因子を同定するケーススタディとして機能する。

Understanding expressions is vital for deciphering human behavior, and nowadays, end-to-end trained black box models achieve high performance. Due to the black-box nature of these models, it is unclear how they behave when applied out-of-distribution. Specifically, these models show decreased performance for unilateral facial palsy patients. We hypothesize that one crucial factor guiding the internal decision rules is facial symmetry. In this work, we use insights from causal reasoning to investigate the hypothesis. After deriving a structural causal model, we develop a synthetic interventional framework. This approach allows us to analyze how facial symmetry impacts a network's output behavior while keeping other factors fixed. All 17 investigated expression classifiers significantly lower their output activations for reduced symmetry. This result is congruent with observed behavior on real-world data from healthy subjects and facial palsy patients. As such, our investigation serves as a case study for identifying causal factors that influence the behavior of black-box models.
翻訳日:2024-11-06 19:21:13 公開日:2024-09-30
# ロバスト物体検出に向けて:モジュール不整合解析によるバックドアの同定と除去

Towards Robust Object Detection: Identifying and Removing Backdoors via Module Inconsistency Analysis ( http://arxiv.org/abs/2409.16057v2 )

ライセンス: Link先を確認
Xianda Zhang, Siyuan Liang, (参考訳) セキュリティクリティカルなアプリケーションで広く使用されているオブジェクト検出モデルは、特定のパターンによって引き起こされたターゲットの誤分類を引き起こすバックドア攻撃に対して脆弱である。 既存のバックドア防御技術は、主に画像分類器のようなより単純なモデルのために設計されており、オブジェクト検出器のバックドアを効果的に検出して除去することができないことが多い。 本研究では,オブジェクト検出モデルに適したバックドア防御フレームワークを提案する。これは,地域提案ネットワーク (RPN) や分類ヘッダーなどのローカルモジュールの動作に,バックドア攻撃が重大な不整合を生じさせるという観測に基づいている。 これらの矛盾を定量化し解析することにより、バックドアを検出するアルゴリズムを開発する。 不整合モジュールは、通常、バックドア動作の主源であり、影響を受けるモジュールをローカライズし、パラメータをリセットし、小さなクリーンデータセット上でモデルを微調整する除去方法につながる。 最先端の2段階物体検出器による広範囲な実験により, 精度の低下を4%未満に抑えながら, バックドア除去率を90%向上させることができた。 我々の知る限り、この研究は2段階の物体検出モデルにおいて、バックドアの検出と除去の両方に対処する最初のアプローチを示し、これらの複雑なシステムをバックドア攻撃から保護する分野を前進させる。

Object detection models, widely used in security-critical applications, are vulnerable to backdoor attacks that cause targeted misclassifications when triggered by specific patterns. Existing backdoor defense techniques, primarily designed for simpler models like image classifiers, often fail to effectively detect and remove backdoors in object detectors. We propose a backdoor defense framework tailored to object detection models, based on the observation that backdoor attacks cause significant inconsistencies between local modules' behaviors, such as the Region Proposal Network (RPN) and classification head. By quantifying and analyzing these inconsistencies, we develop an algorithm to detect backdoors. We find that the inconsistent module is usually the main source of backdoor behavior, leading to a removal method that localizes the affected module, resets its parameters, and fine-tunes the model on a small clean dataset. Extensive experiments with state-of-the-art two-stage object detectors show our method achieves a 90% improvement in backdoor removal rate over fine-tuning baselines, while limiting clean data accuracy loss to less than 4%. To the best of our knowledge, this work presents the first approach that addresses both the detection and removal of backdoors in two-stage object detection models, advancing the field of securing these complex systems against backdoor attacks.
翻訳日:2024-11-06 18:04:33 公開日:2024-09-30
# VideoPatchCore: ビデオ異常検出のための正規性を記憶する効果的な方法

VideoPatchCore: An Effective Method to Memorize Normality for Video Anomaly Detection ( http://arxiv.org/abs/2409.16225v2 )

ライセンス: Link先を確認
Sunghyun Ahn, Youngwan Jo, Kijung Lee, Sanghyun Park, (参考訳) ビデオ異常検出(VAD)は、コンピュータビジョン内の映像分析と監視において重要な課題である。 現在、VADは通常のフレームの特徴を格納するメモリ技術で注目を集めている。 記憶された特徴をフレーム再構成に利用し、再構成されたフレームと入力フレームの間に有意差が存在する場合の異常を識別する。 しかし、メモリモデルとエンコーダ-デコーダモデルの両方で同時に最適化する必要があるため、このアプローチはいくつかの課題に直面している。 これらの課題には、メモリサイズに応じて最適化の難しさ、実装の複雑さ、パフォーマンスのばらつきなどがある。 これらの課題に対処するために,VAD の効率的なメモリ手法である VideoPatchCore を提案する。 PatchCoreにインスパイアされた本手法では,メモリ最適化を優先する構造を導入し,ビデオデータの特徴に合わせて3種類のメモリを設定する。 この方法は、既存のメモリベースのメソッドの制限を効果的に解決し、最先端のメソッドに匹敵する優れたパフォーマンスを実現する。 さらに,本手法ではトレーニングを必要とせず,簡単に実装できるため,VADタスクのアクセス性が向上する。 私たちのコードはgithub.com/SkiddieAhn/Paper-VideoPatchCoreでオンラインで公開されています。

Video anomaly detection (VAD) is a crucial task in video analysis and surveillance within computer vision. Currently, VAD is gaining attention with memory techniques that store the features of normal frames. The stored features are utilized for frame reconstruction, identifying an abnormality when a significant difference exists between the reconstructed and input frames. However, this approach faces several challenges due to the simultaneous optimization required for both the memory and encoder-decoder model. These challenges include increased optimization difficulty, complexity of implementation, and performance variability depending on the memory size. To address these challenges,we propose an effective memory method for VAD, called VideoPatchCore. Inspired by PatchCore, our approach introduces a structure that prioritizes memory optimization and configures three types of memory tailored to the characteristics of video data. This method effectively addresses the limitations of existing memory-based methods, achieving good performance comparable to state-of-the-art methods. Furthermore, our method requires no training and is straightforward to implement, making VAD tasks more accessible. Our code is available online at github.com/SkiddieAhn/Paper-VideoPatchCore.
翻訳日:2024-11-06 17:52:35 公開日:2024-09-30
# VideoPatchCore: ビデオ異常検出のための正規性を記憶する効果的な方法

VideoPatchCore: An Effective Method to Memorize Normality for Video Anomaly Detection ( http://arxiv.org/abs/2409.16225v3 )

ライセンス: Link先を確認
Sunghyun Ahn, Youngwan Jo, Kijung Lee, Sanghyun Park, (参考訳) ビデオ異常検出(VAD)は、コンピュータビジョン内の映像分析と監視において重要な課題である。 現在、VADは通常のフレームの特徴を格納するメモリ技術で注目を集めている。 記憶された特徴をフレーム再構成に利用し、再構成されたフレームと入力フレームの間に有意差が存在する場合の異常を識別する。 しかし、メモリモデルとエンコーダ-デコーダモデルの両方で同時に最適化する必要があるため、このアプローチはいくつかの課題に直面している。 これらの課題には、メモリサイズに応じて最適化の難しさ、実装の複雑さ、パフォーマンスのばらつきなどがある。 これらの課題に対処するために,VAD の効率的なメモリ手法である VideoPatchCore を提案する。 PatchCoreにインスパイアされた本手法では,メモリ最適化を優先する構造を導入し,ビデオデータの特徴に合わせて3種類のメモリを設定する。 この方法は、既存のメモリベースのメソッドの制限を効果的に解決し、最先端のメソッドに匹敵する優れたパフォーマンスを実現する。 さらに,本手法ではトレーニングを必要とせず,簡単に実装できるため,VADタスクのアクセス性が向上する。 私たちのコードはgithub.com/SkiddieAhn/Paper-VideoPatchCoreでオンラインで公開されています。

Video anomaly detection (VAD) is a crucial task in video analysis and surveillance within computer vision. Currently, VAD is gaining attention with memory techniques that store the features of normal frames. The stored features are utilized for frame reconstruction, identifying an abnormality when a significant difference exists between the reconstructed and input frames. However, this approach faces several challenges due to the simultaneous optimization required for both the memory and encoder-decoder model. These challenges include increased optimization difficulty, complexity of implementation, and performance variability depending on the memory size. To address these challenges,we propose an effective memory method for VAD, called VideoPatchCore. Inspired by PatchCore, our approach introduces a structure that prioritizes memory optimization and configures three types of memory tailored to the characteristics of video data. This method effectively addresses the limitations of existing memory-based methods, achieving good performance comparable to state-of-the-art methods. Furthermore, our method requires no training and is straightforward to implement, making VAD tasks more accessible. Our code is available online at github.com/SkiddieAhn/Paper-VideoPatchCore.
翻訳日:2024-11-06 17:52:35 公開日:2024-09-30
# VideoPatchCore: ビデオ異常検出のための正規性を記憶する効果的な方法

VideoPatchCore: An Effective Method to Memorize Normality for Video Anomaly Detection ( http://arxiv.org/abs/2409.16225v4 )

ライセンス: Link先を確認
Sunghyun Ahn, Youngwan Jo, Kijung Lee, Sanghyun Park, (参考訳) ビデオ異常検出(VAD)は、コンピュータビジョン内の映像分析と監視において重要な課題である。 現在、VADは通常のフレームの特徴を格納するメモリ技術で注目を集めている。 記憶された特徴をフレーム再構成に利用し、再構成されたフレームと入力フレームの間に有意差が存在する場合の異常を識別する。 しかし、メモリモデルとエンコーダ-デコーダモデルの両方で同時に最適化する必要があるため、このアプローチはいくつかの課題に直面している。 これらの課題には、メモリサイズに応じて最適化の難しさ、実装の複雑さ、パフォーマンスのばらつきなどがある。 これらの課題に対処するために,VAD の効率的なメモリ手法である VideoPatchCore を提案する。 PatchCoreにインスパイアされた本手法では,メモリ最適化を優先する構造を導入し,ビデオデータの特徴に合わせて3種類のメモリを設定する。 この方法は、既存のメモリベースのメソッドの制限を効果的に解決し、最先端のメソッドに匹敵する優れたパフォーマンスを実現する。 さらに,本手法ではトレーニングを必要とせず,簡単に実装できるため,VADタスクのアクセス性が向上する。 私たちのコードはgithub.com/SkiddieAhn/Paper-VideoPatchCoreでオンラインで公開されています。

Video anomaly detection (VAD) is a crucial task in video analysis and surveillance within computer vision. Currently, VAD is gaining attention with memory techniques that store the features of normal frames. The stored features are utilized for frame reconstruction, identifying an abnormality when a significant difference exists between the reconstructed and input frames. However, this approach faces several challenges due to the simultaneous optimization required for both the memory and encoder-decoder model. These challenges include increased optimization difficulty, complexity of implementation, and performance variability depending on the memory size. To address these challenges,we propose an effective memory method for VAD, called VideoPatchCore. Inspired by PatchCore, our approach introduces a structure that prioritizes memory optimization and configures three types of memory tailored to the characteristics of video data. This method effectively addresses the limitations of existing memory-based methods, achieving good performance comparable to state-of-the-art methods. Furthermore, our method requires no training and is straightforward to implement, making VAD tasks more accessible. Our code is available online at github.com/SkiddieAhn/Paper-VideoPatchCore.
翻訳日:2024-11-06 17:52:35 公開日:2024-09-30
# RISCORE: コンテキスト再構成による言語モデルにおけるコンテキストリドル解決の強化

RISCORE: Enhancing In-Context Riddle Solving in Language Models through Context-Reconstructed Example Augmentation ( http://arxiv.org/abs/2409.16383v2 )

ライセンス: Link先を確認
Ioannis Panagiotopoulos, Giorgos Filandrianos, Maria Lymperaiou, Giorgos Stamou, (参考訳) リドル解決には高度な推論スキルが必要で、LLMは抽象的な思考と創造的な問題解決に従事し、認知能力の限界を明らかにする。 本稿では,複数選択形式を用いたLLMの解法能力について検討し,多様な推論スキルを必要とする解法の性能に異なるプロンプト技術が及ぼす影響について検討する。 結果を高めるために, RISCORE (Riddle Solving with Context Recontruciton) を導入し, 文脈的に再構成された文ベースのパズルを元の例と組み合わせて生成し, 数発の例を作成する。 実験により, RISCOREは, 縦・横両方の思考課題における言語モデルの性能を著しく向上させることを示した。

Riddle-solving requires advanced reasoning skills, pushing LLMs to engage in abstract thinking and creative problem-solving, often revealing limitations in their cognitive abilities. In this paper, we examine the riddle-solving capabilities of LLMs using a multiple-choice format, exploring how different prompting techniques impact performance on riddles that demand diverse reasoning skills. To enhance results, we introduce RISCORE (RIddle Solving with COntext REcontruciton) a novel fully automated prompting method that generates and utilizes contextually reconstructed sentence-based puzzles in conjunction with the original examples to create few-shot exemplars. Our experiments demonstrate that RISCORE significantly improves the performance of language models in both vertical and lateral thinking tasks, surpassing traditional exemplar selection strategies across a variety of few-shot settings.
翻訳日:2024-11-06 17:42:27 公開日:2024-09-30
# RISCORE: コンテキスト再構成による言語モデルにおけるコンテキストリドル解決の強化

RISCORE: Enhancing In-Context Riddle Solving in Language Models through Context-Reconstructed Example Augmentation ( http://arxiv.org/abs/2409.16383v3 )

ライセンス: Link先を確認
Ioannis Panagiotopoulos, Giorgos Filandrianos, Maria Lymperaiou, Giorgos Stamou, (参考訳) リドル解決には高度な推論スキルが必要で、LLMは抽象的な思考と創造的な問題解決に従事し、認知能力の限界を明らかにする。 本稿では,複数選択形式を用いたLLMの解法能力について検討し,多様な推論スキルを必要とする解法の性能に異なるプロンプト技術が及ぼす影響について検討する。 結果を高めるために, RISCORE (Riddle Solving with Context Recontruciton) を導入し, 文脈的に再構成された文ベースのパズルを元の例と組み合わせて生成し, 数発の例を作成する。 実験により, RISCOREは, 縦・横両方の思考課題における言語モデルの性能を著しく向上させることを示した。

Riddle-solving requires advanced reasoning skills, pushing LLMs to engage in abstract thinking and creative problem-solving, often revealing limitations in their cognitive abilities. In this paper, we examine the riddle-solving capabilities of LLMs using a multiple-choice format, exploring how different prompting techniques impact performance on riddles that demand diverse reasoning skills. To enhance results, we introduce RISCORE (RIddle Solving with COntext REcontruciton) a novel fully automated prompting method that generates and utilizes contextually reconstructed sentence-based puzzles in conjunction with the original examples to create few-shot exemplars. Our experiments demonstrate that RISCORE significantly improves the performance of language models in both vertical and lateral thinking tasks, surpassing traditional exemplar selection strategies across a variety of few-shot settings.
翻訳日:2024-11-06 17:42:27 公開日:2024-09-30
# FLaRe: 大規模強化学習ファインチューニングによる熟練した適応型ロボットポリシーの実現

FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning ( http://arxiv.org/abs/2409.16578v2 )

ライセンス: Link先を確認
Jiaheng Hu, Rose Hendrix, Ali Farhadi, Aniruddha Kembhavi, Roberto Martin-Martin, Peter Stone, Kuo-Hao Zeng, Kiana Ehsani, (参考訳) 近年、ロボティクス分野は、大規模マルチタスク・ビヘイビア・クローンを通じて、汎用的なロボットポリシーを構築するためにいくつかの取り組みを開始している。 しかし、これらのポリシーの直接的な展開は、政策が目に見えない状態やタスクと競合する不満足なパフォーマンスにつながっている。 これらのモデルのパフォーマンス高原をどうやって突破し、その能力を新しい高さに高めることができるのか? 本稿では、堅牢な事前学習表現、大規模トレーニング、勾配安定化技術を統合した大規模強化学習微調整フレームワークであるFLaReを提案する。 提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,従来と全く新しいタスクと実施の両面で,最先端(SoTA)のパフォーマンスを達成する。 具体的には、長い水平移動操作タスクのセットにおいて、FLaReは目に見えない環境では平均79.5%の成功率を達成し、シミュレーションでは+23.6%、SOTAでは+30.7%の絶対的な改善を達成している。 スパース報酬のみを利用することで、人間の努力を最小限に抑えることで、事前学習データ以外の新たな能力への一般化が可能になる。 さらに,1日以内の微調整で新しい実施形態や行動に迅速に適応できることを示す。 ビデオはプロジェクトのWebサイトhttps://robot-flare.github.io/にある。

In recent years, the Robotics field has initiated several efforts toward building generalist robot policies through large-scale multi-task Behavior Cloning. However, direct deployments of these policies have led to unsatisfactory performance, where the policy struggles with unseen states and tasks. How can we break through the performance plateau of these models and elevate their capabilities to new heights? In this paper, we propose FLaRe, a large-scale Reinforcement Learning fine-tuning framework that integrates robust pre-trained representations, large-scale training, and gradient stabilization techniques. Our method aligns pre-trained policies towards task completion, achieving state-of-the-art (SoTA) performance both on previously demonstrated and on entirely novel tasks and embodiments. Specifically, on a set of long-horizon mobile manipulation tasks, FLaRe achieves an average success rate of 79.5% in unseen environments, with absolute improvements of +23.6% in simulation and +30.7% on real robots over prior SoTA methods. By utilizing only sparse rewards, our approach can enable generalizing to new capabilities beyond the pretraining data with minimal human effort. Moreover, we demonstrate rapid adaptation to new embodiments and behaviors with less than a day of fine-tuning. Videos can be found on the project website at https://robot-flare.github.io/
翻訳日:2024-11-06 17:30:16 公開日:2024-09-30
# 事象検出のためのトピック対応因果介入

Topic-aware Causal Intervention for Counterfactual Detection ( http://arxiv.org/abs/2409.16668v2 )

ライセンス: Link先を確認
Thong Nguyen, Truc-My Nguyen, (参考訳) イベントが起こらなかったり起こらなかったりする現象を記述した反現実的ステートメントは、多くのNLPアプリケーションにとって有益である。 そこで,本研究では,CFDの問題点を考察し,CFDモデルの拡張を目指す。 従来のモデルは、偽造性を予測するための手がかりフレーズに依存しているため、テスト中にヒントフレーズのヒントが存在しない場合、大きなパフォーマンス低下に悩まされる。 さらに、これらのモデルは反事実よりも非事実を予測しがちである。 これらの問題に対処するために、入力文のグローバルな意味を捉えるために、ニューラルネットワークのトピックモデルをCFDモデルに統合することを提案する。 我々は、クラスラベルの効果のバランスをとるために、CFDモデルの隠れ表現を慎重に介入し続けます。 大規模実験により,本手法は従来のCFD法およびバイアス解消法をCFD法と他のバイアス感受性タスクの両方で上回ることがわかった。

Counterfactual statements, which describe events that did not or cannot take place, are beneficial to numerous NLP applications. Hence, we consider the problem of counterfactual detection (CFD) and seek to enhance the CFD models. Previous models are reliant on clue phrases to predict counterfactuality, so they suffer from significant performance drop when clue phrase hints do not exist during testing. Moreover, these models tend to predict non-counterfactuals over counterfactuals. To address these issues, we propose to integrate neural topic model into the CFD model to capture the global semantics of the input statement. We continue to causally intervene the hidden representations of the CFD model to balance the effect of the class labels. Extensive experiments show that our approach outperforms previous state-of-the-art CFD and bias-resolving methods in both the CFD and other bias-sensitive tasks.
翻訳日:2024-11-06 17:20:02 公開日:2024-09-30
# 低ビット大言語モデルに関する調査:基礎,システム,アルゴリズム

A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms ( http://arxiv.org/abs/2409.16694v2 )

ライセンス: Link先を確認
Ruihao Gong, Yifu Ding, Zining Wang, Chengtao Lv, Xingyu Zheng, Jinyang Du, Haotong Qin, Jinyang Guo, Michele Magno, Xianglong Liu, (参考訳) 大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げており、様々なタスクにおいて例外的な性能を示している。 しかし、高価なメモリと計算の要求は、その実践的な展開に重大な課題をもたらしている。 低ビット量子化は、モデルパラメータ、アクティベーション、勾配のビット幅を減らし、メモリ使用量と計算要求を減らし、これらの課題を軽減する重要なアプローチとして現れてきた。 本稿では,LLMに適した低ビット量子化手法の包括的調査を行い,基本原理,システム実装,アルゴリズム戦略について述べる。 低ビット LLM に特有の基本概念と新しいデータフォーマットの概要が最初に紹介され、その後様々なハードウェアプラットフォームで低ビット LLM を促進するフレームワークとシステムのレビューが行われた。 次に,LLMの効率的な低ビットトレーニングと推論のための手法とツールキットを分類,解析する。 最後に,低ビットLLMの今後の動向と今後の発展について論じる。 低ビット量子化によるLCMの効率性と適用性を高めるため, 基本, システム, アルゴリズムの観点からの体系的な概要は, 今後の研究に有用な洞察とガイドラインを提供することができる。

Large language models (LLMs) have achieved remarkable advancements in natural language processing, showcasing exceptional performance across various tasks. However, the expensive memory and computational requirements present significant challenges for their practical deployment. Low-bit quantization has emerged as a critical approach to mitigate these challenges by reducing the bit-width of model parameters, activations, and gradients, thus decreasing memory usage and computational demands. This paper presents a comprehensive survey of low-bit quantization methods tailored for LLMs, covering the fundamental principles, system implementations, and algorithmic strategies. An overview of basic concepts and new data formats specific to low-bit LLMs is first introduced, followed by a review of frameworks and systems that facilitate low-bit LLMs across various hardware platforms. Then, we categorize and analyze techniques and toolkits for efficient low-bit training and inference of LLMs. Finally, we conclude with a discussion of future trends and potential advancements of low-bit LLMs. Our systematic overview from basic, system, and algorithm perspectives can offer valuable insights and guidelines for future works to enhance the efficiency and applicability of LLMs through low-bit quantization.
翻訳日:2024-11-06 17:20:02 公開日:2024-09-30
# 複数のSentinel-2リビジットによる衛星画像のセグメンテーションの改善

Improving satellite imagery segmentation using multiple Sentinel-2 revisits ( http://arxiv.org/abs/2409.17363v2 )

ライセンス: Link先を確認
Kartik Jindgar, Grace W. Lindsay, (参考訳) 近年、リモートセンシングデータの解析は、大規模で多様なデータセットで事前訓練された共有モデルの使用など、コンピュータビジョンの幅広い分野からの借用技術から大きな恩恵を受けている。 しかし、衛星画像には、同じ場所の複数の再訪が存在するなど、従来のコンピュータビジョンでは説明できない特徴がある。 ここでは,事前学習したリモートセンシングモデルを微調整するフレームワークにおいて,リビジョンを利用する最善の方法を検討する。 我々は、より一般的に、事前訓練されたモデルの応用利用を代表した、気候変動緩和 -- 電力サブステーションの分断 -- との関連性に関する応用研究に焦点をあてる。 多様なモデルアーキテクチャにまたがる多時間入力方式の広範なテストを通して、モデル潜在空間における複数のリビジョンから表現を融合させることは、データ拡張の形式を含む他のリビジョンを使用する方法よりも優れていることがわかった。 また、SWINトランスフォーマーベースのアーキテクチャは、U-netやViTベースのモデルよりも優れた性能を示す。 建物密度推定タスクを別々に行うことで,結果の汎用性を検証した。

In recent years, analysis of remote sensing data has benefited immensely from borrowing techniques from the broader field of computer vision, such as the use of shared models pre-trained on large and diverse datasets. However, satellite imagery has unique features that are not accounted for in traditional computer vision, such as the existence of multiple revisits of the same location. Here, we explore the best way to use revisits in the framework of fine-tuning pre-trained remote sensing models. We focus on an applied research question of relevance to climate change mitigation -- power substation segmentation -- that is representative of applied uses of pre-trained models more generally. Through extensive tests of different multi-temporal input schemes across diverse model architectures, we find that fusing representations from multiple revisits in the model latent space is superior to other methods of using revisits, including as a form of data augmentation. We also find that a SWIN Transformer-based architecture performs better than U-nets and ViT-based models. We verify the generality of our results on a separate building density estimation task.
翻訳日:2024-11-06 16:30:51 公開日:2024-09-30
# コミュニティベースの質問応答プラットフォームとGPT-3によるジェネレーティブAIの探索分析:オンラインコミュニティベースの学習の終わりか?

An exploratory analysis of Community-based Question-Answering Platforms and GPT-3-driven Generative AI: Is it the end of online community-based learning? ( http://arxiv.org/abs/2409.17473v2 )

ライセンス: Link先を確認
Mohammed Mehedi Hasan, Mahady Hasan, Mamun Bin Ibne Reaz, Jannat Un Nayeem Iqra, (参考訳) コンテキスト: ChatGPTのような大規模言語モデル駆動ツールの出現は、ソフトウェアエンジニアにStack Overflowのようなコミュニティ質問回答(CQA)プラットフォームに代わるインタラクティブな代替手段を提供する。 Stack Overflowはクラウドソースの知識の蓄積によるメリットを提供するが、しばしば不快なコメントやリアクション、長い待ち時間に悩まされる。 目的: 本研究は,ChatGPTのソフトウェア工学的問題に対するソリューション提供における有効性を評価し,その性能を人為的ソリューションに対して分析する。 メソッド: 私たちは、2022年1月から2022年12月までに質問されたStackOverflowから、2564のPythonとJavaScriptの質問を経験的に分析しました。 Stack Overflowから質問や回答を解析し、ChatGPTからAPIを通じて同じ質問に対する回答を収集し、4つのテキストと4つの認知メトリクスを使用して、ChatGPTが生成した回答と、人間の主題の専門家が提示した回答を比較し、将来の知識希望者がCQAプラットフォームよりもChatGPTを好む可能性を探る。 また,ChatGPTによる回答の精度も測定した。 また、過去2年間のStackOverflowでのユーザインタラクションを3つのメトリクスを使って測定し、ChatGPTがそれにどのように影響するかを確認します。 結果: 分析の結果, ChatGPTの回答は66%短く, 質問に対して35%の回答が得られ, 人の反応に比べて25%の肯定的な感情が増加した。 ChatGPTの回答の正確度は71から75%であり、JavaScriptとPythonの応答特性は様々である。 さらに,Stack Overflowにおけるコメントインタラクションの38%が減少し,コミュニティの関与パターンのシフトが示唆された。 PythonとJavaScriptのプロフェッショナル14名による補足的な調査で、これらの調査結果が検証された。

Context: The advent of Large Language Model-driven tools like ChatGPT offers software engineers an interactive alternative to community question-answering (CQA) platforms like Stack Overflow. While Stack Overflow provides benefits from the accumulated crowd-sourced knowledge, it often suffers from unpleasant comments, reactions, and long waiting times. Objective: In this study, we assess the efficacy of ChatGPT in providing solutions to software engineering questions by analyzing its performance specifically against human solutions. Method: We empirically analyze 2564 Python and JavaScript questions from StackOverflow that were asked between January 2022 and December 2022. We parse the questions and answers from Stack Overflow, then collect the answers to the same questions from ChatGPT through API, and employ four textual and four cognitive metrics to compare the answers generated by ChatGPT with the accepted answers provided by human subject matter experts to find out the potential reasons for which future knowledge seekers may prefer ChatGPT over CQA platforms. We also measure the accuracy of the answers provided by ChatGPT. We also measure user interaction on StackOverflow over the past two years using three metrics to determine how ChatGPT affects it. Results: Our analysis indicates that ChatGPT's responses are 66% shorter and share 35% more words with the questions, showing a 25% increase in positive sentiment compared to human responses. ChatGPT's answers' accuracy rate is between 71 to 75%, with a variation in response characteristics between JavaScript and Python. Additionally, our findings suggest a recent 38% decrease in comment interactions on Stack Overflow, indicating a shift in community engagement patterns. A supplementary survey with 14 Python and JavaScript professionals validated these findings.
翻訳日:2024-11-06 16:30:51 公開日:2024-09-30
# Omnibus Joint Graph Embedding における相関の最適化

Optimizing the Induced Correlation in Omnibus Joint Graph Embeddings ( http://arxiv.org/abs/2409.17544v2 )

ライセンス: Link先を確認
Konstantinos Pantazis, Michael Trosset, William N. Frost, Carey E. Priebe, Vince Lyzinski, (参考訳) 理論的および実証的な証拠は、結合グラフ埋め込みアルゴリズムが埋め込み空間内のネットワーク間の相関を誘導することを示唆している。 Omnibusのジョイントグラフ埋め込みフレームワークにおいて、前回の結果は、組込みネットワーク間の相関に対するアルゴリズム誘起相関とモデル独立相関の二重効果を明示的に記述した。 アルゴリズムが引き起こした相関を考慮し緩和することがその後の推論の鍵であり、準最適オムニバス行列の構成が推論の不確かさを損なうことが示されている。 本研究は,Omnibus 構築の自動化に向けた最初の取り組みとして,OMNI 間の相関問題とフラット相関問題という2つの重要な問題に対処するものである。 平坦な相関問題では、一般化されたOmnibus埋め込みによって生成される最小のアルゴリズムによる平坦な相関(すなわち、すべてのグラフ対で同じ)を理解する。 完全に一般のオムニバス行列の部分空間で作用すると、この平坦な相関に対する下界と古典的なオムニバス構成が最大平坦な相関を誘導することの両方が証明される。 相関-OMNI問題において、推定ペアワイドグラフ相関の与えられた行列から、埋め込み空間における最適相関を誘導する一般化オムニバス重みの行列を推定するアルゴリズム(corr2Omni)を提案する。 さらに、シミュレーションと実データ設定の両方において、従来のOmnibus構築に対するcorr2Omniアルゴリズムの有効性の増大を実証する。

Theoretical and empirical evidence suggests that joint graph embedding algorithms induce correlation across the networks in the embedding space. In the Omnibus joint graph embedding framework, previous results explicitly delineated the dual effects of the algorithm-induced and model-inherent correlations on the correlation across the embedded networks. Accounting for and mitigating the algorithm-induced correlation is key to subsequent inference, as sub-optimal Omnibus matrix constructions have been demonstrated to lead to loss in inference fidelity. This work presents the first efforts to automate the Omnibus construction in order to address two key questions in this joint embedding framework: the correlation-to-OMNI problem and the flat correlation problem. In the flat correlation problem, we seek to understand the minimum algorithm-induced flat correlation (i.e., the same across all graph pairs) produced by a generalized Omnibus embedding. Working in a subspace of the fully general Omnibus matrices, we prove both a lower bound for this flat correlation and that the classical Omnibus construction induces the maximal flat correlation. In the correlation-to-OMNI problem, we present an algorithm -- named corr2Omni -- that, from a given matrix of estimated pairwise graph correlations, estimates the matrix of generalized Omnibus weights that induces optimal correlation in the embedding space. Moreover, in both simulated and real data settings, we demonstrate the increased effectiveness of our corr2Omni algorithm versus the classical Omnibus construction.
翻訳日:2024-11-06 16:20:44 公開日:2024-09-30
# DiffSSC: Denoising Diffusion Probabilistic Modelを用いた意味的LiDARスキャン補完

DiffSSC: Semantic LiDAR Scan Completion using Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2409.18092v2 )

ライセンス: Link先を確認
Helin Cao, Sven Behnke, (参考訳) 知覚システムは、複数のセンサーと対応するコンピュータビジョンアルゴリズムを組み込んだ自律運転において重要な役割を果たす。 3D LiDARセンサーは、車両の周囲の粗い点雲を捉えるために広く使われている。 しかし、これらのシステムは、これらの点雲の空白さと意味論の欠如により、隠蔽された領域と風景の隙間を知覚するのに苦労している。 これらの課題に対処するため、SSC(Semantic Scene Completion)は、より完全なシーン表現を目指して、生のLiDAR測定を与えられたシーンにおける観測されていない幾何学と意味を共同で予測する。 画像生成および超解像タスクにおける拡散モデルの有望な結果に基づいて、各点と意味空間における拡散過程を個別に導入し、SSCへの拡張を提案する。 生成を制御するため,条件付き入力として意味的LiDAR点雲を用い,局所的およびグローバルな正規化損失を設計し,デノナイジングプロセスの安定化を図る。 我々は、自律運転データセットに対する我々のアプローチを評価し、そのアプローチは、SSCの最先端技術よりも優れています。

Perception systems play a crucial role in autonomous driving, incorporating multiple sensors and corresponding computer vision algorithms. 3D LiDAR sensors are widely used to capture sparse point clouds of the vehicle's surroundings. However, such systems struggle to perceive occluded areas and gaps in the scene due to the sparsity of these point clouds and their lack of semantics. To address these challenges, Semantic Scene Completion (SSC) jointly predicts unobserved geometry and semantics in the scene given raw LiDAR measurements, aiming for a more complete scene representation. Building on promising results of diffusion models in image generation and super-resolution tasks, we propose their extension to SSC by implementing the noising and denoising diffusion processes in the point and semantic spaces individually. To control the generation, we employ semantic LiDAR point clouds as conditional input and design local and global regularization losses to stabilize the denoising process. We evaluate our approach on autonomous driving datasets and our approach outperforms the state-of-the-art for SSC.
翻訳日:2024-11-06 15:51:02 公開日:2024-09-30
# 有限群に基づく構成量子力学

Constructive quantum mechanics based on finite groups ( http://arxiv.org/abs/2409.18159v1 )

ライセンス: Link先を確認
V. V. Kornyak, (参考訳) 一般ユニタリ群を有限群で置き換える量子力学の定式化を考える。 この定式化の文脈で生じる問題を解決するために、計算機代数と計算群理論法を用いる。

A formulation of quantum mechanics based on replacing the general unitary group by finite groups is considered. To solve problems arising in the context of this formulation, we use computer algebra and computational group theory methods.
翻訳日:2024-11-06 15:41:17 公開日:2024-09-30
# 有限群に基づく構成量子力学

Constructive quantum mechanics based on finite groups ( http://arxiv.org/abs/2409.18159v2 )

ライセンス: Link先を確認
V. V. Kornyak, (参考訳) 一般ユニタリ群を有限群で置き換える量子力学の定式化を考える。 この定式化の文脈で生じる問題を解決するために、計算機代数と計算群理論法を用いる。

A formulation of quantum mechanics based on replacing the general unitary group by finite groups is considered. To solve problems arising in the context of this formulation, we use computer algebra and computational group theory methods.
翻訳日:2024-11-06 15:41:17 公開日:2024-09-30
# 強化学習に基づくニューラルネットワーク探索に関する研究

A Survey on Neural Architecture Search Based on Reinforcement Learning ( http://arxiv.org/abs/2409.18163v1 )

ライセンス: Link先を確認
Wenzhu Shao, (参考訳) 機械学習の特徴抽出の自動化は、深層学習の爆発的発展によって実現されている。 しかし、ディープニューラルネットワークアーキテクチャの構造とハイパーパラメータは、異なるタスクのパフォーマンスに大きな違いをもたらす。 最適な構造とハイパーパラメータを探索するプロセスは、しばしば退屈な人間の介入を伴います。 その結果、最適なネットワーク構造とハイパーパラメータを探索する自動化を求めることが妥当な問題である。 最適パラメータを探索する自動化の作業は、ハイパーパラメータ最適化によって行われる。 Neural Architecture Searchは、特定のタスクに対して最適なネットワーク構造を自動的に見つけることを目的としている。 本稿では,まず,ニューラルネットワーク検索の総合開発について紹介し,さらに,より複雑な構造や資源不足の環境を満たすことを願って,強化学習に関連するニューラルネットワーク探索について,総合的かつ理解可能な調査を行うことに焦点をあてる。

The automation of feature extraction of machine learning has been successfully realized by the explosive development of deep learning. However, the structures and hyperparameters of deep neural network architectures also make huge difference on the performance in different tasks. The process of exploring optimal structures and hyperparameters often involves a lot of tedious human intervene. As a result, a legitimate question is to ask for the automation of searching for optimal network structures and hyperparameters. The work of automation of exploring optimal hyperparameters is done by Hyperparameter Optimization. Neural Architecture Search is aimed to automatically find the best network structure given specific tasks. In this paper, we firstly introduced the overall development of Neural Architecture Search and then focus mainly on providing an overall and understandable survey about Neural Architecture Search works that are relevant with reinforcement learning, including improvements and variants based on the hope of satisfying more complex structures and resource-insufficient environment.
翻訳日:2024-11-06 15:41:17 公開日:2024-09-30
# 強化学習に基づくニューラルネットワーク探索に関する研究

A Survey on Neural Architecture Search Based on Reinforcement Learning ( http://arxiv.org/abs/2409.18163v2 )

ライセンス: Link先を確認
Wenzhu Shao, (参考訳) 機械学習の特徴抽出の自動化は、深層学習の爆発的発展によって実現されている。 しかし、ディープニューラルネットワークアーキテクチャの構造とハイパーパラメータは、異なるタスクのパフォーマンスに大きな違いをもたらす。 最適な構造とハイパーパラメータを探索するプロセスは、しばしば退屈な人間の介入を伴います。 その結果、最適なネットワーク構造とハイパーパラメータを探索する自動化を求めることが妥当な問題である。 最適パラメータを探索する自動化の作業は、ハイパーパラメータ最適化によって行われる。 Neural Architecture Searchは、特定のタスクに対して最適なネットワーク構造を自動的に見つけることを目的としている。 本稿では,まず,ニューラルネットワーク検索の総合開発について紹介し,さらに,より複雑な構造や資源不足の環境を満たすことを願って,強化学習に関連するニューラルネットワーク探索について,総合的かつ理解可能な調査を行うことに焦点をあてる。

The automation of feature extraction of machine learning has been successfully realized by the explosive development of deep learning. However, the structures and hyperparameters of deep neural network architectures also make huge difference on the performance in different tasks. The process of exploring optimal structures and hyperparameters often involves a lot of tedious human intervene. As a result, a legitimate question is to ask for the automation of searching for optimal network structures and hyperparameters. The work of automation of exploring optimal hyperparameters is done by Hyperparameter Optimization. Neural Architecture Search is aimed to automatically find the best network structure given specific tasks. In this paper, we firstly introduced the overall development of Neural Architecture Search and then focus mainly on providing an overall and understandable survey about Neural Architecture Search works that are relevant with reinforcement learning, including improvements and variants based on the hope of satisfying more complex structures and resource-insufficient environment.
翻訳日:2024-11-06 15:41:17 公開日:2024-09-30
# 核爆発に対するベイズ事象分類行列アプローチ

Bayesian Event Categorization Matrix Approach for Nuclear Detonations ( http://arxiv.org/abs/2409.18227v1 )

ライセンス: Link先を確認
Scott Koermer, Joshua D. Carmichael, Brian J. Williams, (参考訳) 核爆発の検出と爆発源の正確な分類に向けた現在の取り組みは、事象分類行列 (ECM) モデルに従わない課題を提示している。 より小さな事象(収率の低い爆発)は、わずかなモダリティの中でスパースな観測しか含まないため、完全な識別剤のセットが欠落することがある。 共分散構造は、事象(ソースタイプ)カテゴリの観測で大きく異なることもある。 どちらの障害も ``classic'' の ECM には問題があります。 我々の研究は、このギャップに対処し、B-ECMと呼ばれる以前のECMモデルに対するベイズ的更新を提示する。 さらに、ベイズ決定理論を用いてECMを増大させ、事象分類の偽陰性または偽陽性率を直感的に減らすことができるようにした。 B-ECMによる分類率の向上を示すため,モンテカルロ実験を応用したB-ECMモデルと古典的ECMモデルを比較した。 合成データと実データの両方を使用します。 我々のB-ECMモデルは、古典的ECMモデルと比較して総合的精度と低い偽陰性率で一貫した利得を示す。 我々は,B-ECMの意思決定能力と予測能力を向上させるための今後の道を提案する。

Current efforts to detect nuclear detonations and correctly categorize explosion sources with ground- and space-collected discriminants presents challenges that remain unaddressed by the Event Categorization Matrix (ECM) model. Smaller events (lower yield explosions) often include only sparse observations among few modalities and can therefore lack a complete set of discriminants. The covariance structures can also vary significantly between such observations of event (source-type) categories. Both obstacles are problematic for ``classic'' ECM. Our work addresses this gap and presents a Bayesian update to the previous ECM model, termed B-ECM, which can be trained on partial observations and does not rely on a pooled covariance structure. We further augment ECM with Bayesian Decision Theory so that false negative or false positive rates of an event categorization can be reduced in an intuitive manner. To demonstrate improved categorization rates with B-ECM, we compare an array of B-ECM and classic ECM models with multiple performance metrics that leverage Monte Carlo experiments. We use both synthetic and real data. Our B-ECM models show consistent gains in overall accuracy and a lower false negative rates relative to the classic ECM model. We propose future avenues to improve B-ECM that expand its decision-making and predictive capability.
翻訳日:2024-11-06 15:01:18 公開日:2024-09-30
# 核爆発に対するベイズ事象分類行列アプローチ

Bayesian Event Categorization Matrix Approach for Nuclear Detonations ( http://arxiv.org/abs/2409.18227v2 )

ライセンス: Link先を確認
Scott Koermer, Joshua D. Carmichael, Brian J. Williams, (参考訳) 核爆発の検出と爆発源の正確な分類に向けた現在の取り組みは、事象分類行列 (ECM) モデルに従わない課題を提示している。 より小さな事象(収率の低い爆発)は、わずかなモダリティの中でスパースな観測しか含まないため、完全な識別剤のセットが欠落することがある。 共分散構造は、事象(ソースタイプ)カテゴリの観測で大きく異なることもある。 どちらの障害も ``classic'' の ECM には問題があります。 我々の研究は、このギャップに対処し、B-ECMと呼ばれる以前のECMモデルに対するベイズ的更新を提示する。 さらに、ベイズ決定理論を用いてECMを増大させ、事象分類の偽陰性または偽陽性率を直感的に減らすことができるようにした。 B-ECMによる分類率の向上を示すため,モンテカルロ実験を応用したB-ECMモデルと古典的ECMモデルを比較した。 合成データと実データの両方を使用します。 我々のB-ECMモデルは、古典的ECMモデルと比較して総合的精度と低い偽陰性率で一貫した利得を示す。 我々は,B-ECMの意思決定能力と予測能力を向上させるための今後の道を提案する。

Current efforts to detect nuclear detonations and correctly categorize explosion sources with ground- and space-collected discriminants presents challenges that remain unaddressed by the Event Categorization Matrix (ECM) model. Smaller events (lower yield explosions) often include only sparse observations among few modalities and can therefore lack a complete set of discriminants. The covariance structures can also vary significantly between such observations of event (source-type) categories. Both obstacles are problematic for ``classic'' ECM. Our work addresses this gap and presents a Bayesian update to the previous ECM model, termed B-ECM, which can be trained on partial observations and does not rely on a pooled covariance structure. We further augment ECM with Bayesian Decision Theory so that false negative or false positive rates of an event categorization can be reduced in an intuitive manner. To demonstrate improved categorization rates with B-ECM, we compare an array of B-ECM and classic ECM models with multiple performance metrics that leverage Monte Carlo experiments. We use both synthetic and real data. Our B-ECM models show consistent gains in overall accuracy and a lower false negative rates relative to the classic ECM model. We propose future avenues to improve B-ECM that expand its decision-making and predictive capability.
翻訳日:2024-11-06 15:01:18 公開日:2024-09-30
# Omni6D:カテゴリーレベル6次元オブジェクト空間推定のための大語彙3次元オブジェクトデータセット

Omni6D: Large-Vocabulary 3D Object Dataset for Category-Level 6D Object Pose Estimation ( http://arxiv.org/abs/2409.18261v1 )

ライセンス: Link先を確認
Mengchen Zhang, Tong Wu, Tai Wang, Tengfei Wang, Ziwei Liu, Dahua Lin, (参考訳) 6Dオブジェクトのポーズ推定は、典型的には単一のRGBD画像からオブジェクトの翻訳、回転、スケールを決定することを目的としている。 最近の進歩は、この推定をインスタンスレベルからカテゴリレベルに拡張し、モデルが同じカテゴリ内の見えないインスタンスをまたいだ一般化を可能にしている。 しかし、この一般化はNOCSのような既存のデータセットによってカバーされる限られた範囲のカテゴリによって制限されている。 これらの課題に対処するために、Omni6Dという、さまざまなカテゴリとさまざまなバックグラウンドを備えた総合的なRGBDデータセットを導入し、タスクをより現実的な状況に高める。 1) データセットは166のカテゴリ, 4688のインスタンスを標準ポーズに合わせて調整し, 0.8百万回の捕獲を行い, 評価範囲を大きく広げた。 2)Omni6Dに対称性を意識した基準を導入し,既存のアルゴリズムの系統的ベンチマークを実施し,新しい課題と洞察を徹底的に探求する。 3) 従来のデータセットからのモデルから広範囲な語彙設定に適応する効果的な微調整手法を提案する。 我々は,このイニシアチブが,一般の6次元ポーズ推定の境界を推し進め,産業・学術分野における新たな洞察と実質的な進歩の道を開くと信じている。

6D object pose estimation aims at determining an object's translation, rotation, and scale, typically from a single RGBD image. Recent advancements have expanded this estimation from instance-level to category-level, allowing models to generalize across unseen instances within the same category. However, this generalization is limited by the narrow range of categories covered by existing datasets, such as NOCS, which also tend to overlook common real-world challenges like occlusion. To tackle these challenges, we introduce Omni6D, a comprehensive RGBD dataset featuring a wide range of categories and varied backgrounds, elevating the task to a more realistic context. 1) The dataset comprises an extensive spectrum of 166 categories, 4688 instances adjusted to the canonical pose, and over 0.8 million captures, significantly broadening the scope for evaluation. 2) We introduce a symmetry-aware metric and conduct systematic benchmarks of existing algorithms on Omni6D, offering a thorough exploration of new challenges and insights. 3) Additionally, we propose an effective fine-tuning approach that adapts models from previous datasets to our extensive vocabulary setting. We believe this initiative will pave the way for new insights and substantial progress in both the industrial and academic fields, pushing forward the boundaries of general 6D pose estimation.
翻訳日:2024-11-06 14:51:14 公開日:2024-09-30
# Omni6D:カテゴリーレベル6次元オブジェクト空間推定のための大語彙3次元オブジェクトデータセット

Omni6D: Large-Vocabulary 3D Object Dataset for Category-Level 6D Object Pose Estimation ( http://arxiv.org/abs/2409.18261v2 )

ライセンス: Link先を確認
Mengchen Zhang, Tong Wu, Tai Wang, Tengfei Wang, Ziwei Liu, Dahua Lin, (参考訳) 6Dオブジェクトのポーズ推定は、典型的には単一のRGBD画像からオブジェクトの翻訳、回転、スケールを決定することを目的としている。 最近の進歩は、この推定をインスタンスレベルからカテゴリレベルに拡張し、モデルが同じカテゴリ内の見えないインスタンスをまたいだ一般化を可能にしている。 しかし、この一般化はNOCSのような既存のデータセットによってカバーされる限られた範囲のカテゴリによって制限されている。 これらの課題に対処するために、Omni6Dという、さまざまなカテゴリとさまざまなバックグラウンドを備えた総合的なRGBDデータセットを導入し、タスクをより現実的な状況に高める。 1) データセットは166のカテゴリ, 4688のインスタンスを標準ポーズに合わせて調整し, 0.8百万回の捕獲を行い, 評価範囲を大きく広げた。 2)Omni6Dに対称性を意識した基準を導入し,既存のアルゴリズムの系統的ベンチマークを実施し,新しい課題と洞察を徹底的に探求する。 3) 従来のデータセットからのモデルから広範囲な語彙設定に適応する効果的な微調整手法を提案する。 我々は,このイニシアチブが,一般の6次元ポーズ推定の境界を推し進め,産業・学術分野における新たな洞察と実質的な進歩の道を開くと信じている。

6D object pose estimation aims at determining an object's translation, rotation, and scale, typically from a single RGBD image. Recent advancements have expanded this estimation from instance-level to category-level, allowing models to generalize across unseen instances within the same category. However, this generalization is limited by the narrow range of categories covered by existing datasets, such as NOCS, which also tend to overlook common real-world challenges like occlusion. To tackle these challenges, we introduce Omni6D, a comprehensive RGBD dataset featuring a wide range of categories and varied backgrounds, elevating the task to a more realistic context. 1) The dataset comprises an extensive spectrum of 166 categories, 4688 instances adjusted to the canonical pose, and over 0.8 million captures, significantly broadening the scope for evaluation. 2) We introduce a symmetry-aware metric and conduct systematic benchmarks of existing algorithms on Omni6D, offering a thorough exploration of new challenges and insights. 3) Additionally, we propose an effective fine-tuning approach that adapts models from previous datasets to our extensive vocabulary setting. We believe this initiative will pave the way for new insights and substantial progress in both the industrial and academic fields, pushing forward the boundaries of general 6D pose estimation.
翻訳日:2024-11-06 14:51:14 公開日:2024-09-30
# 一度だけ話すだけ

You Only Speak Once to See ( http://arxiv.org/abs/2409.18372v1 )

ライセンス: Link先を確認
Wenhao Yang, Jianguo Wei, Wenhuan Lu, Lei Li, (参考訳) 視覚的手がかりを用いた画像中の物体のグラウンド化は、コンピュータビジョンにおいて確立されたアプローチであるが、物体認識とグラウンド化のモダリティとしてのオーディオの可能性は、いまだ過小評価されている。 そこで我々は,YOSS (You Only Speak Once to See) を導入し,映像のグラウンド化にオーディオを活用する。 コントラスト学習とマルチモーダルアライメントを用いて、事前学習した音声モデルと視覚モデルを統合することにより、音声コマンドや記述をキャプチャし、画像内の対応するオブジェクトに直接マッピングする。 実験結果から,音声誘導は物体の接地に効果的に適用できることが示唆され,従来の物体の接地手法の精度と堅牢性を向上し,ロボットシステムやコンピュータビジョンアプリケーションの性能を向上させることが示唆された。 この発見は、高度な物体認識、シーン理解、そしてより直感的で有能なロボットシステムの開発の新しい可能性を開く。

Grounding objects in images using visual cues is a well-established approach in computer vision, yet the potential of audio as a modality for object recognition and grounding remains underexplored. We introduce YOSS, "You Only Speak Once to See," to leverage audio for grounding objects in visual scenes, termed Audio Grounding. By integrating pre-trained audio models with visual models using contrastive learning and multi-modal alignment, our approach captures speech commands or descriptions and maps them directly to corresponding objects within images. Experimental results indicate that audio guidance can be effectively applied to object grounding, suggesting that incorporating audio guidance may enhance the precision and robustness of current object grounding methods and improve the performance of robotic systems and computer vision applications. This finding opens new possibilities for advanced object recognition, scene understanding, and the development of more intuitive and capable robotic systems.
翻訳日:2024-11-06 06:41:07 公開日:2024-09-30
# 一度だけ話すだけ

You Only Speak Once to See ( http://arxiv.org/abs/2409.18372v2 )

ライセンス: Link先を確認
Wenhao Yang, Jianguo Wei, Wenhuan Lu, Lei Li, (参考訳) 視覚的手がかりを用いた画像中の物体のグラウンド化は、コンピュータビジョンにおいて確立されたアプローチであるが、物体認識とグラウンド化のモダリティとしてのオーディオの可能性は、いまだ過小評価されている。 そこで我々は,YOSS (You Only Speak Once to See) を導入し,映像のグラウンド化にオーディオを活用する。 コントラスト学習とマルチモーダルアライメントを用いて、事前学習した音声モデルと視覚モデルを統合することにより、音声コマンドや記述をキャプチャし、画像内の対応するオブジェクトに直接マッピングする。 実験結果から,音声誘導は物体の接地に効果的に適用できることが示唆され,従来の物体の接地手法の精度と堅牢性を向上し,ロボットシステムやコンピュータビジョンアプリケーションの性能を向上させることが示唆された。 この発見は、高度な物体認識、シーン理解、そしてより直感的で有能なロボットシステムの開発の新しい可能性を開く。

Grounding objects in images using visual cues is a well-established approach in computer vision, yet the potential of audio as a modality for object recognition and grounding remains underexplored. We introduce YOSS, "You Only Speak Once to See," to leverage audio for grounding objects in visual scenes, termed Audio Grounding. By integrating pre-trained audio models with visual models using contrastive learning and multi-modal alignment, our approach captures speech commands or descriptions and maps them directly to corresponding objects within images. Experimental results indicate that audio guidance can be effectively applied to object grounding, suggesting that incorporating audio guidance may enhance the precision and robustness of current object grounding methods and improve the performance of robotic systems and computer vision applications. This finding opens new possibilities for advanced object recognition, scene understanding, and the development of more intuitive and capable robotic systems.
翻訳日:2024-11-06 06:41:07 公開日:2024-09-30
# UniEmoX: ユニバーサルシーン感情知覚のためのクロスモーダルセマンティックガイド付き大規模事前学習

UniEmoX: Cross-modal Semantic-Guided Large-Scale Pretraining for Universal Scene Emotion Perception ( http://arxiv.org/abs/2409.18877v2 )

ライセンス: Link先を確認
Chuang Chen, Xiao Sun, Zhi Liu, (参考訳) 視覚的感情分析は、コンピュータビジョンと心理学の両方において重要な研究価値を持っている。 しかし、既存の視覚的感情分析法は、感情知覚のあいまいさとデータシナリオの多様性により、限定的な一般化性に悩まされている。 この問題に対処するため, モーダルなセマンティック誘導型大規模事前学習フレームワークUniEmoXを導入する。 UniEmoXは、個人と環境の間の相互作用から感情探索プロセスの分離性を強調した心理学的研究に触発され、よりニュアンスで差別的な感情表現を導出することを目的として、シーン中心および人中心の低レベル画像空間構造情報を統合した。 UniEmoXは、ペア画像とペア画像テキストの類似性を利用して、CLIPモデルから豊富な意味知識を抽出し、感情的な埋め込み表現をより効果的に強化する。 我々の知る限り、このフレームワークは、心理学理論を現代のコントラスト学習と統合する最初の大規模事前学習フレームワークであり、多様なシナリオにおける感情分析のためのマスク付き画像モデリング技術である。 さらに,視覚的感情的データセットEmo8を開発した。 Emo8サンプルは、漫画、自然、現実、SF、広告のカバースタイルなど、さまざまな領域をカバーする。 2つの下流タスクにわたる6つのベンチマークデータセットで実施された総合的な実験は、UniEmoXの有効性を検証する。 ソースコードはhttps://github.com/chincharles/u-emo.comで入手できる。

Visual emotion analysis holds significant research value in both computer vision and psychology. However, existing methods for visual emotion analysis suffer from limited generalizability due to the ambiguity of emotion perception and the diversity of data scenarios. To tackle this issue, we introduce UniEmoX, a cross-modal semantic-guided large-scale pretraining framework. Inspired by psychological research emphasizing the inseparability of the emotional exploration process from the interaction between individuals and their environment, UniEmoX integrates scene-centric and person-centric low-level image spatial structural information, aiming to derive more nuanced and discriminative emotional representations. By exploiting the similarity between paired and unpaired image-text samples, UniEmoX distills rich semantic knowledge from the CLIP model to enhance emotional embedding representations more effectively. To the best of our knowledge, this is the first large-scale pretraining framework that integrates psychological theories with contemporary contrastive learning and masked image modeling techniques for emotion analysis across diverse scenarios. Additionally, we develop a visual emotional dataset titled Emo8. Emo8 samples cover a range of domains, including cartoon, natural, realistic, science fiction and advertising cover styles, covering nearly all common emotional scenes. Comprehensive experiments conducted on six benchmark datasets across two downstream tasks validate the effectiveness of UniEmoX. The source code is available at https://github.com/chincharles/u-emo.
翻訳日:2024-11-06 05:32:49 公開日:2024-09-30
# 各次元における最大デバイス非依存ランダム性

Maximal device-independent randomness in every dimension ( http://arxiv.org/abs/2409.18916v2 )

ライセンス: Link先を確認
Máté Farkas, Jurij Volčič, Sigurd A. L. Storgaard, Ranyiliu Chen, Laura Mančinska, (参考訳) ランダム数は幅広い科学で使われている。 多くの応用において、予測不能なプライベート乱数を生成することは不可欠である。 デバイス非依存の量子乱数生成は、量子プロセスの固有のランダム性を利用して、現在の物理学の理解に従って、基本的に予測不可能な数を生成するフレームワークである。 デバイス非依存の量子乱数生成は例外的な理論的な偉業であるが、量子システムを制御することの難しさは、実際に実行することを困難にしている。 したがって、制御できる自由度(次元)の完全なパワーを利用するのが望ましい。 ローカル次元$d$の量子系から、プライベートなデバイスに依存しないランダム性を持つ2 ビット以上の \log(d)$ビットが抽出されることが知られている。 本稿では、この境界は、明示的なプロトコルの族を提供することにより、すべての次元に対して$d$で達成できることを実証する。 この結果を得るために, 完全認証(「自己検証」)が不可能あるいは非現実的なシナリオに対して, デバイス非依存のアプリケーションに広く関心を持つことのできる, 新たな認証技術を開発した。

Random numbers are used in a wide range of sciences. In many applications, generating unpredictable private random numbers is indispensable. Device-independent quantum random number generation is a framework that makes use of the intrinsic randomness of quantum processes to generate numbers that are fundamentally unpredictable according to our current understanding of physics. While device-independent quantum random number generation is an exceptional theoretical feat, the difficulty of controlling quantum systems makes it challenging to carry out in practice. It is therefore desirable to harness the full power of the quantum degrees of freedom (the dimension) that one can control. It is known that no more than $2 \log(d)$ bits of private device-independent randomness can be extracted from a quantum system of local dimension $d$. In this paper we demonstrate that this bound can be achieved for all dimensions $d$ by providing a family of explicit protocols. In order to obtain our result, we develop new certification techniques that can be of wider interest in device-independent applications for scenarios in which complete certification ('self-testing') is impossible or impractical.
翻訳日:2024-11-06 05:22:53 公開日:2024-09-30
# シングルヒューマン誘導による複数ロボット協調の実現

Enabling Multi-Robot Collaboration from Single-Human Guidance ( http://arxiv.org/abs/2409.19831v1 )

ライセンス: Link先を確認
Zhengran Ji, Lingyu Zhang, Paul Sajda, Boyuan Chen, (参考訳) 協調行動の学習はマルチエージェントシステムにとって不可欠である。 伝統的に、マルチエージェント強化学習は共同報酬と集中的な観察を通して暗黙的にこれを解決し、協調行動が現れると仮定する。 他の研究では、協力的な専門家のグループによるデモンストレーションから学ぶことを提案する。 そこで我々は,一人の人間のみの専門知識を活用することで,多エージェントシステムにおける協調行動の効率的かつ明示的な学習方法を提案する。 私たちの洞察では、人間はチームの中で様々な役割を担えます。 本研究では,人間操作者が短時間で制御エージェントを動的に切り替えることができ,チームメイトの人間的な理論を取り入れることで,効果的に協調学習できることを示す。 実験の結果,本手法は,人的指導を40分で最大58$%向上させることができた。 さらに,本研究は,マルチロボット実験により実世界への移動を実証する。

Learning collaborative behaviors is essential for multi-agent systems. Traditionally, multi-agent reinforcement learning solves this implicitly through a joint reward and centralized observations, assuming collaborative behavior will emerge. Other studies propose to learn from demonstrations of a group of collaborative experts. Instead, we propose an efficient and explicit way of learning collaborative behaviors in multi-agent systems by leveraging expertise from only a single human. Our insight is that humans can naturally take on various roles in a team. We show that agents can effectively learn to collaborate by allowing a human operator to dynamically switch between controlling agents for a short period and incorporating a human-like theory-of-mind model of teammates. Our experiments showed that our method improves the success rate of a challenging collaborative hide-and-seek task by up to 58$% with only 40 minutes of human guidance. We further demonstrate our findings transfer to the real world by conducting multi-robot experiments.
翻訳日:2024-11-05 17:19:55 公開日:2024-09-30
# HazyDet: ドローンビューオブジェクト検出のためのオープンソースのベンチマーク

HazyDet: Open-source Benchmark for Drone-view Object Detection with Depth-cues in Hazy Scenes ( http://arxiv.org/abs/2409.19833v1 )

ライセンス: Link先を確認
Changfeng Feng, Zhenyuan Chen, Renke Kou, Guangwei Gao, Chunping Wang, Xiang Li, Xiangbo Shu, Yimian Dai, Qiang Fu, Jian Yang, (参考訳) 悪天候下でのドローンによる物体検出は、ドローンの環境認識を高めるために重要であるが、関連するベンチマークが欠如しているため、ほとんど探索されていない。 このギャップを埋めるために、我々はヘイジーシーンにおけるドローンによる物体検出に適した大規模なデータセットであるHazyDetを紹介した。 自然環境と通常のシーンの両方から収集された383,000件の現実世界のインスタンスが含まれており、悪天候をシミュレートするために合成的にヘイズ効果を課している。 深度や湿気条件の違いによる物体のスケールや明度に大きな変化を観測することにより,Depth Conditioned Detector (DeCoDet) を設計し,この知識を取り入れた。 DeCoDetは、深度認識をシームレスに統合するマルチスケール深度認識ヘッドを備えており、その結果、動的深度条件カーネルモジュールが利用している。 さらに, 擬似ラベルからの頑健な深度学習を容易にするため, スケール不変再生損失を提案する。 HazyDetデータセットの大規模な評価は、我々の手法の柔軟性と有効性を示し、大幅な性能改善をもたらす。 データセットとツールキットはhttps://github.com/GrokCV/HazyDet.orgから入手可能です。

Drone-based object detection in adverse weather conditions is crucial for enhancing drones' environmental perception, yet it remains largely unexplored due to the lack of relevant benchmarks. To bridge this gap, we introduce HazyDet, a large-scale dataset tailored for drone-based object detection in hazy scenes. It encompasses 383,000 real-world instances, collected from both naturally hazy environments and normal scenes with synthetically imposed haze effects to simulate adverse weather conditions. By observing the significant variations in object scale and clarity under different depth and haze conditions, we designed a Depth Conditioned Detector (DeCoDet) to incorporate this prior knowledge. DeCoDet features a Multi-scale Depth-aware Detection Head that seamlessly integrates depth perception, with the resulting depth cues harnessed by a dynamic Depth Condition Kernel module. Furthermore, we propose a Scale Invariant Refurbishment Loss to facilitate the learning of robust depth cues from pseudo-labels. Extensive evaluations on the HazyDet dataset demonstrate the flexibility and effectiveness of our method, yielding significant performance improvements. Our dataset and toolkit are available at https://github.com/GrokCV/HazyDet.
翻訳日:2024-11-05 17:19:55 公開日:2024-09-30
# GrokLST:土地表面温度ダウンスケーリングのための高分解能ベンチマークとツールキット

GrokLST: Towards High-Resolution Benchmark and Toolkit for Land Surface Temperature Downscaling ( http://arxiv.org/abs/2409.19835v1 )

ライセンス: Link先を確認
Qun Dai, Chunyang Yuan, Yimian Dai, Yuxuan Li, Xiang Li, Kang Ni, Jianhui Xu, Xiangbo Shu, Jian Yang, (参考訳) 地表面温度(LST)は環境研究において重要なパラメータであるが,衛星リモートセンシングにおける時空間トレードオフのため,高解像度のLSTデータを取得することは依然として困難である。 ガイド付きLSTダウンスケーリングがソリューションとして登場したが、現在の手法では空間的非定常性を無視することが多く、ディープラーニングのためのオープンソースのエコシステムが欠如している。 これらの制約に対処するため,モーダリティ条件付き投影によりマルチモーダルデータを動的に融合する新しいアーキテクチャであるModality-Conditional Large Selective Kernel (MoCoLSK) Networksを提案する。 MoCoLSKは、我々の以前のLSKNetを再設計し、動的受容野の調整とマルチモーダル機能の統合を実現し、LST予測精度を向上した。 さらに、GrokLSTプロジェクト、GrokLSTデータセット、高解像度ベンチマーク、およびオープンソースのPyTorchベースのツールキットであるGrokLSTツールキット、MoCoLSKを40以上の最先端アプローチと共にカプセル化するGrokLSTプロジェクトを構築した。 大規模な実験結果は、複雑な依存関係とマルチスペクトルデータの微妙な変化を捉えたMoCoLSKの有効性を検証し、LSTダウンスケーリングにおける既存の手法よりも優れていた。 私たちのコード、データセット、ツールキットはhttps://github.com/GrokCV/GrokLST.orgで公開されています。

Land Surface Temperature (LST) is a critical parameter for environmental studies, but obtaining high-resolution LST data remains challenging due to the spatio-temporal trade-off in satellite remote sensing. Guided LST downscaling has emerged as a solution, but current methods often neglect spatial non-stationarity and lack a open-source ecosystem for deep learning methods. To address these limitations, we propose the Modality-Conditional Large Selective Kernel (MoCoLSK) Networks, a novel architecture that dynamically fuses multi-modal data through modality-conditioned projections. MoCoLSK re-engineers our previous LSKNet to achieve a confluence of dynamic receptive field adjustment and multi-modal feature integration, leading to enhanced LST prediction accuracy. Furthermore, we establish the GrokLST project, a comprehensive open-source ecosystem featuring the GrokLST dataset, a high-resolution benchmark, and the GrokLST toolkit, an open-source PyTorch-based toolkit encapsulating MoCoLSK alongside 40+ state-of-the-art approaches. Extensive experimental results validate MoCoLSK's effectiveness in capturing complex dependencies and subtle variations within multispectral data, outperforming existing methods in LST downscaling. Our code, dataset, and toolkit are available at https://github.com/GrokCV/GrokLST.
翻訳日:2024-11-05 17:19:55 公開日:2024-09-30
# geom2vec: コンフォメーションダイナミクスのための幾何学的な芸品としての事前訓練されたGNN

geom2vec: pretrained GNNs as geometric featurizers for conformational dynamics ( http://arxiv.org/abs/2409.19838v1 )

ライセンス: Link先を確認
Zihan Pengmei, Chatipat Lorpaiboon, Spencer C. Guo, Jonathan Weare, Aaron R. Dinner, (参考訳) 分子シミュレーションの力学を特徴付ける情報的低次元の特徴を特定することは、しばしば手作業やシステム固有の知識を必要とする。 ここでは,事前学習されたグラフニューラルネットワーク(GNN)を普遍的な幾何演算器として用いるgeom2vecを紹介する。 分子配座の大規模データセット上の同変GNNの事前学習により,分子の幾何学的パターンをさらに微調整することなく捉えるための伝達可能な構造表現を学習する。 学習した表現は直接トラジェクトリデータの解析に利用でき、手動による特徴選択の必要性を排除し、シミュレーション解析ワークフローの堅牢性を向上させることができる。 重要なことは、下流タスクのトレーニングからGNNトレーニングを分離することで、計算資源が限られている大規模分子グラフの分析を可能にすることである。

Identifying informative low-dimensional features that characterize dynamics in molecular simulations remains a challenge, often requiring extensive hand-tuning and system-specific knowledge. Here, we introduce geom2vec, in which pretrained graph neural networks (GNNs) are used as universal geometric featurizers. By pretraining equivariant GNNs on a large dataset of molecular conformations with a self-supervised denoising objective, we learn transferable structural representations that capture molecular geometric patterns without further fine-tuning. We show that the learned representations can be directly used to analyze trajectory data, thus eliminating the need for manual feature selection and improving robustness of the simulation analysis workflows. Importantly, by decoupling GNN training from training for downstream tasks, we enable analysis of larger molecular graphs with limited computational resources.
翻訳日:2024-11-05 17:19:55 公開日:2024-09-30
# ForecastBench: AI予測機能の動的ベンチマーク

ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities ( http://arxiv.org/abs/2409.19839v1 )

ライセンス: Link先を確認
Ezra Karger, Houtan Bastani, Chen Yueh-Han, Zachary Jacobs, Danny Halawi, Fred Zhang, Philip E. Tetlock, (参考訳) 将来の出来事の予測は、情報的意思決定に不可欠なインプットである。 機械学習(ML)システムは、大規模に予測を配信する可能性があるが、標準化された予測質問セットに基づいて、MLシステムの正確性を評価するためのフレームワークはない。 このギャップに対処するため、ForecastBenchは、自動生成および定期更新された1000の予測質問セット上で、MLシステムの精度を評価する動的ベンチマークである。 データ漏洩の可能性を避けるため、ForecastBenchは、提出時に既知の回答がない将来のイベントに関する質問のみで構成されている。 ベンチマーク(N=200)から,専門家(人間)の予測者,一般人,LLMからの予測をランダムなサブセットで収集することにより,現在のMLシステムの能力の定量化を行う。 LLMは、多くのベンチマークで超人的性能を達成したが、ここでは、専門家予測器が最高性能のLSM(p-values <= 0.01)を上回っている。 私たちはwww.forecastbench.orgの公開リーダーボードにシステムと人間のスコアを表示します。

Forecasts of future events are essential inputs into informed decision-making. Machine learning (ML) systems have the potential to deliver forecasts at scale, but there is no framework for evaluating the accuracy of ML systems on a standardized set of forecasting questions. To address this gap, we introduce ForecastBench: a dynamic benchmark that evaluates the accuracy of ML systems on an automatically generated and regularly updated set of 1,000 forecasting questions. To avoid any possibility of data leakage, ForecastBench is comprised solely of questions about future events that have no known answer at the time of submission. We quantify the ability of current ML systems by collecting forecasts from expert (human) forecasters, the general public, and LLMs on a random subset of questions from the benchmark (N = 200). While LLMs have achieved super-human performance on many benchmarks, they perform less well here: expert forecasters outperform the top-performing LLM (p-values <= 0.01). We display system and human scores in a public leaderboard at www.forecastbench.org.
翻訳日:2024-11-05 17:19:55 公開日:2024-09-30
# セマンティックラベルのない開語彙セマンティックセマンティックセマンティックセマンティックセマンティック化に向けて

Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels ( http://arxiv.org/abs/2409.19846v1 )

ライセンス: Link先を確認
Heeseong Shin, Chaehyun Kim, Sunghwan Hong, Seokju Cho, Anurag Arnab, Paul Hongsuck Seo, Seungryong Kim, (参考訳) CLIPのような大規模視覚言語モデルは、イメージレベルのタスクに対して印象的なオープンボキャブラリ機能を示し、どのオブジェクトが存在するかを認識するのに優れています。 しかし、セマンティックセグメンテーションのようなピクセルレベルの認識タスクには、オブジェクトの位置を理解する必要が生じる。 本研究では,SAM や DINO などの視覚基盤モデルから生成した未ラベルの画像やマスクを用いて,その位置を導くことによって,CLIP 画像エンコーダを画素レベルの理解に適応させる新しい手法 PixelCLIP を提案する。 セマンティックラベルを使わずにマスクを活用するという課題に対処するため,学習可能なクラス名を用いたオンラインクラスタリングアルゴリズムを考案し,一般的なセマンティック概念を取得する。 PixelCLIPは、オープン語彙セマンティックセグメンテーションにおけるキャプション管理手法と比較して、CLIPと競合する結果よりも大幅にパフォーマンスが向上した。 プロジェクトページはhttps://cvlab-kaist.github.io/PixelCLIPで公開されている。

Large-scale vision-language models like CLIP have demonstrated impressive open-vocabulary capabilities for image-level tasks, excelling in recognizing what objects are present. However, they struggle with pixel-level recognition tasks like semantic segmentation, which additionally require understanding where the objects are located. In this work, we propose a novel method, PixelCLIP, to adapt the CLIP image encoder for pixel-level understanding by guiding the model on where, which is achieved using unlabeled images and masks generated from vision foundation models such as SAM and DINO. To address the challenges of leveraging masks without semantic labels, we devise an online clustering algorithm using learnable class names to acquire general semantic concepts. PixelCLIP shows significant performance improvements over CLIP and competitive results compared to caption-supervised methods in open-vocabulary semantic segmentation. Project page is available at https://cvlab-kaist.github.io/PixelCLIP
翻訳日:2024-11-05 17:19:55 公開日:2024-09-30
# テストウェアに関する調査研究

An Investigation into Protestware ( http://arxiv.org/abs/2409.19849v1 )

ライセンス: Link先を確認
Tanner Finken, Jesse Chen, Sazzadur Rahaman, (参考訳) 抗議者は、現在の状況に対する個人的または集団的な不満の公的な表現である。 伝統的な抗議活動には個人的イベントが含まれるが、コンピュータとソフトウェアの普及により、行動主義の新たな道が開かれた。 デモウェアのルーツは、コンピューティングの初期までさかのぼる。 しかし、近年のロシア・ウクライナ戦争の出来事は、新たな抗議活動の波を引き起こした。 ニュースやメディアは個々の抗議ウェアを大量に報告しているが、そのようなソフトウェア全体の理解は極めて限られている。 特に、その特性とコミュニティへの影響について、詳細は分かっていません。 このギャップに対処するため、まず32種類のデモウェアを収集する。 そして、これらのサンプルを用いて、帰納的分析を用いて抗議ウェアの特性を定式化する。 さらに,コミュニティの感情や利用状況の観点から,ソフトウェアサプライチェーンに影響を与える可能性がある抗議ウェアの余波を分析した。 1)デモウェアには3つの特徴、すなわち3つの特徴がある。 i)「抗議を誘発する能力」は多様である。 二 「利用者を狙う行為」とは、差別であって、 三)「透明性の自然」は必ずしも尊重されないこと、(2)破壊的な抗議ウェアが下流の利用者に重大な影響をもたらすこと、(3)反抗ウェアの開発者は、プッシュバックしても信念をシフトさせることができないこと、(4)JavaScriptライブラリからの抗議ウェアの使用は、一般的に時間とともに増加することが示されていること。

Protests are public expressions of personal or collective discontent with the current state of affairs. Although traditional protests involve in-person events, the ubiquity of computers and software opened up a new avenue for activism: protestware. The roots of protestware date back to the early days of computing. However, recent events in the Russo-Ukrainian war has sparked a new wave of protestware. While news and media are heavily reporting on individual protestware as they are discovered, the understanding of such software as a whole is severely limited. In particular, we do not have a detailed understanding of their characteristics and their impact on the community. To address this gap, we first collect 32 samples of protestware. Then, with these samples, we formulate characteristics of protestware using inductive analysis. In addition, we analyze the aftermath of the protestware which has potential to affect the software supply chain in terms of community sentiment and usage. We report that: (1) protestware has three notable characteristics, namely, i) the "nature of inducing protest" is diverse, ii) the "nature of targeting users" is discriminatory, and iii) the "nature of transparency" is not always respected; (2) disruptive protestware may cause substantial adverse impact on downstream users; (3) developers of protestware may not shift their beliefs even with pushback; (4) the usage of protestware from JavaScript libraries has been seen to generally increase over time.
翻訳日:2024-11-05 17:19:55 公開日:2024-09-30
# SATA:視覚変換器のロバスト性向上のための空間自己相関トークン解析

SATA: Spatial Autocorrelation Token Analysis for Enhancing the Robustness of Vision Transformers ( http://arxiv.org/abs/2409.19850v1 )

ライセンス: Link先を確認
Nick Nikzad, Yi Liao, Yongsheng Gao, Jun Zhou, (参考訳) 過去数年間、視覚変換器(ViT)は、様々な視覚認識タスクにおいて、常に顕著な性能を示してきた。 しかし、その堅牢性を高める試みは、主に異なるトレーニング戦略、入力パッチ強化、ネットワーク構造強化に焦点を当て、限られた成功を収めた。 これらのアプローチには、広範囲なトレーニングと微調整が伴うことが多い。 これらの障害に対処するために,空間自己相関トークン分析(SATA)という新しい手法を導入する。 トークンの特徴間の空間的関係を利用することで、SATAはViTモデルの表現能力とロバスト性の両方を高める。 これは、自己保持機構のFeed-Forward Network(FFN)ブロックへの入力の前に、それらの空間的自己相関スコアに従ってトークンの分析とグループ化によって達成される。 重要なことは、SATAは既存のトレーニング済みのViTベースラインにシームレスに統合し、リトレーニングや微調整を必要とせず、FFNユニットの計算負荷を減らすことで効率を同時に改善する。 実験結果によると、SATAで強化されたベースラインViTは、ImageNet-1K画像分類(94.9%)で新しい最先端トップ1の精度を達成するだけでなく、ImageNet-A(トップ-1=63.6%)、ImageNet-R(トップ-1=79.2%)、ImageNet-C(mCE=13.6%)など複数の堅牢性ベンチマークで新しい最先端のパフォーマンスを確立する。

Over the past few years, vision transformers (ViTs) have consistently demonstrated remarkable performance across various visual recognition tasks. However, attempts to enhance their robustness have yielded limited success, mainly focusing on different training strategies, input patch augmentation, or network structural enhancements. These approaches often involve extensive training and fine-tuning, which are time-consuming and resource-intensive. To tackle these obstacles, we introduce a novel approach named Spatial Autocorrelation Token Analysis (SATA). By harnessing spatial relationships between token features, SATA enhances both the representational capacity and robustness of ViT models. This is achieved through the analysis and grouping of tokens according to their spatial autocorrelation scores prior to their input into the Feed-Forward Network (FFN) block of the self-attention mechanism. Importantly, SATA seamlessly integrates into existing pre-trained ViT baselines without requiring retraining or additional fine-tuning, while concurrently improving efficiency by reducing the computational load of the FFN units. Experimental results show that the baseline ViTs enhanced with SATA not only achieve a new state-of-the-art top-1 accuracy on ImageNet-1K image classification (94.9%) but also establish new state-of-the-art performance across multiple robustness benchmarks, including ImageNet-A (top-1=63.6%), ImageNet-R (top-1=79.2%), and ImageNet-C (mCE=13.6%), all without requiring additional training or fine-tuning of baseline models.
翻訳日:2024-11-05 17:19:55 公開日:2024-09-30
# 継続事前学習とモデルマージによる指導データのない金融用授業調整LDMの構築

The Construction of Instruction-tuned LLMs for Finance without Instruction Data Using Continual Pretraining and Model Merging ( http://arxiv.org/abs/2409.19854v1 )

ライセンス: Link先を確認
Masanori Hirano, Kentaro Imajo, (参考訳) 本稿では,命令データなしでファイナンスのための命令調整型大規模言語モデル(LLM)を構築するための新しい手法を提案する。 伝統的に、そのようなドメイン固有のLLMの開発はリソース集約的であり、継続的な事前訓練と命令チューニングのために大きなデータセットと重要な計算能力を必要とする。 本研究では,ドメイン固有の事前学習とモデルマージを組み合わせた簡易なアプローチを提案する。 汎用的な事前訓練 LLM と命令調整 LLM が一般に公開されていることを考えると、必要な命令タスクベクトルを得るために利用することができる。 これをドメイン固有の事前訓練ベクタとマージすることで、追加の命令データなしで金融のための命令調整型LLMを効果的に作成できる。 まず、金融データに基づいて継続事前訓練を行い、次に、命令調整ベクターとドメイン固有の事前訓練ベクターをマージする。 本実験は,金融のための指導訓練型LLMの構築に成功したことを実証する。 提案手法の主な利点の1つは、命令調整およびドメイン固有の事前学習ベクトルがほぼ独立であることである。 この独立は我々のアプローチを極めて効果的にする。 本研究で開発した LLM は https://huggingface.co/pfnet/nekomata-14b-pfn-qfin-inst-merge で利用可能である。

This paper proposes a novel method for constructing instruction-tuned large language models (LLMs) for finance without instruction data. Traditionally, developing such domain-specific LLMs has been resource-intensive, requiring a large dataset and significant computational power for continual pretraining and instruction tuning. Our study proposes a simpler approach that combines domain-specific continual pretraining with model merging. Given that general-purpose pretrained LLMs and their instruction-tuned LLMs are often publicly available, they can be leveraged to obtain the necessary instruction task vector. By merging this with a domain-specific pretrained vector, we can effectively create instruction-tuned LLMs for finance without additional instruction data. Our process involves two steps: first, we perform continual pretraining on financial data; second, we merge the instruction-tuned vector with the domain-specific pretrained vector. Our experiments demonstrate the successful construction of instruction-tuned LLMs for finance. One major advantage of our method is that the instruction-tuned and domain-specific pretrained vectors are nearly independent. This independence makes our approach highly effective. The Japanese financial instruction-tuned LLMs we developed in this study are available at https://huggingface.co/pfnet/nekomata-14b-pfn-qfin-inst-merge.
翻訳日:2024-11-05 17:19:55 公開日:2024-09-30
# ロボット協調における適応知能とコンピュータビジョンのベンチマーク

Benchmarking Adaptive Intelligence and Computer Vision on Human-Robot Collaboration ( http://arxiv.org/abs/2409.19856v1 )

ライセンス: Link先を確認
Salaar Saraj, Gregory Shklovski, Kristopher Irizarry, Jonathan Vet, Yutian Ren, (参考訳) ヒューマンロボットコラボレーション(HRC)は、センサー、デジタル双生児、協調ロボット(コボット)、そして効率的な製造プロセスを持つ意図認識モデルを用いて、産業4.0において不可欠である。 しかし、Concept Driftはロボットが新しい環境に適応するのに苦労する重要な課題である。 適応インテリジェンスと自己ラベル(SLB)を統合して,HRCシステムにおける意図認識のレジリエンスを向上させることにより,概念の漂流に対処する。 提案手法は,カメラと重みセンサを用いたデータ収集から始まり,その後に意図や状態変化のアノテーションが続く。 そして、意図を認識し予測するために、さまざまな前処理技術を用いて様々なディープラーニングモデルを訓練する。 さらに、SLBの精度を高めるためのカスタム状態検出アルゴリズムを開発し、正確な状態変化定義とタイムスタンプをラベル付けする。 その結果, 骨格姿勢前処理によるMViT2モデルは, 骨格姿勢抽出のないMViT2の79%の精度と比較して, データ環境において83%の精度が得られることがわかった。 さらに、私たちのSLBメカニズムはラベリング精度91%を実現し、手動のアノテーションに費やされた膨大な時間を削減します。 最後に,従来の学習環境との大きな違いがあるシフトした領域において,自己ラベル付きデータの異なる増分を微調整することで,概念のドリフトと戦うモデル性能の迅速なスケーリングを観察する。 と。 本研究は,より適応的で効率的なHRCシステムを実現するために,本手法で示すステップを通じて,インテリジェントコボットを製造に迅速に展開する可能性を示す。

Human-Robot Collaboration (HRC) is vital in Industry 4.0, using sensors, digital twins, collaborative robots (cobots), and intention-recognition models to have efficient manufacturing processes. However, Concept Drift is a significant challenge, where robots struggle to adapt to new environments. We address concept drift by integrating Adaptive Intelligence and self-labeling (SLB) to improve the resilience of intention-recognition in an HRC system. Our methodology begins with data collection using cameras and weight sensors, which is followed by annotation of intentions and state changes. Then we train various deep learning models with different preprocessing techniques for recognizing and predicting the intentions. Additionally, we developed a custom state detection algorithm for enhancing the accuracy of SLB, offering precise state-change definitions and timestamps to label intentions. Our results show that the MViT2 model with skeletal posture preprocessing achieves an accuracy of 83% on our data environment, compared to the 79% accuracy of MViT2 without skeleton posture extraction. Additionally, our SLB mechanism achieves a labeling accuracy of 91%, reducing a significant amount of time that would've been spent on manual annotation. Lastly, we observe swift scaling of model performance that combats concept drift by fine tuning on different increments of self-labeled data in a shifted domain that has key differences from the original training environment.. This study demonstrates the potential for rapid deployment of intelligent cobots in manufacturing through the steps shown in our methodology, paving a way for more adaptive and efficient HRC systems.
翻訳日:2024-11-05 17:19:55 公開日:2024-09-30
# エネルギーベースプライオリティを用いたマルチモーダル潜在生成モデル学習

Learning Multimodal Latent Generative Models with Energy-Based Prior ( http://arxiv.org/abs/2409.19862v1 )

ライセンス: Link先を確認
Shiyu Yuan, Jiali Cui, Hanao Li, Tian Han, (参考訳) マルチモーダル生成モデルは、様々なモダリティにまたがる表現を学習し、ジョイントとクロスジェネレーションのコヒーレンスを高める能力において、近年大きな注目を集めている。 しかし、既存のほとんどの著作では、標準ガウス分布やラプラシア分布を先行として用いており、その不定型で情報的でない性質のため、複数のデータ型に固有の多様な情報を捉えるのに苦労する可能性がある。 エネルギーベースモデル(EBM)は、様々なタスクにまたがる表現性と柔軟性で知られており、マルチモーダル生成モデル(英語版)の文脈ではまだ徹底的に研究されていない。 本稿では,マルチモーダル遅延生成モデルとEMMを統合した新しいフレームワークを提案する。 どちらのモデルも変分スキームによって共同で訓練することができる。 このアプローチは、より表現力があり、情報的であり、複数のモダリティにまたがる情報のより良いキャプチャをもたらす。 本実験では,提案モデルの有効性を検証し,その優れた世代コヒーレンスを実証した。

Multimodal generative models have recently gained significant attention for their ability to learn representations across various modalities, enhancing joint and cross-generation coherence. However, most existing works use standard Gaussian or Laplacian distributions as priors, which may struggle to capture the diverse information inherent in multiple data types due to their unimodal and less informative nature. Energy-based models (EBMs), known for their expressiveness and flexibility across various tasks, have yet to be thoroughly explored in the context of multimodal generative models. In this paper, we propose a novel framework that integrates the multimodal latent generative model with the EBM. Both models can be trained jointly through a variational scheme. This approach results in a more expressive and informative prior, better-capturing of information across multiple modalities. Our experiments validate the proposed model, demonstrating its superior generation coherence.
翻訳日:2024-11-05 17:09:32 公開日:2024-09-30
# TokenBinder:一対多のアライメントパラダイムによるテキストビデオ検索

TokenBinder: Text-Video Retrieval with One-to-Many Alignment Paradigm ( http://arxiv.org/abs/2409.19865v1 )

ライセンス: Link先を確認
Bingqing Zhang, Zhuo Cao, Heming Du, Xin Yu, Xue Li, Jiajun Liu, Sen Wang, (参考訳) テキスト・ビデオ検索 (Text-Video Retrieval, TVR) の手法は、テキストとビデオの特徴を粗い粒度、細かい粒度、または粗い粒度(粗い粒度)で整列することで、クエリと候補のペアをマッチングするのが一般的である。 しかしながら、これらのフレームワークは主に1対1のアライメントパラダイムを採用しており、候補間のニュアンスの違いを識別するのに苦労しており、しばしばミスマッチが発生する。 人間の認知科学における比較判断に触発され,個別に評価するのではなく,直接比較することで決定が下されるTokenBinderを提案する。 この革新的な2段階のTVRフレームワークは、大きなコレクション内の特定のアイテムを識別する人間の認知過程を模倣する、新しい1対多の粗大なアライメントパラダイムを導入している。 提案手法では,複数のビデオにまたがる特徴を動的に整列・比較して,より微細なニュアンスや文脈変化を捉える,高度なクロスアテンション機構を備えたFocused-view Fusion Networkを採用している。 6つのベンチマークデータセットに対する大規模な実験により、TokenBinderが既存の最先端メソッドを大幅に上回っていることが確認された。 これらの結果は、TVRタスクにおけるモダリティ内およびモダリティ間情報のギャップを埋める際の、その堅牢性と、その微粒化アライメントの有効性を示す。

Text-Video Retrieval (TVR) methods typically match query-candidate pairs by aligning text and video features in coarse-grained, fine-grained, or combined (coarse-to-fine) manners. However, these frameworks predominantly employ a one(query)-to-one(candidate) alignment paradigm, which struggles to discern nuanced differences among candidates, leading to frequent mismatches. Inspired by Comparative Judgement in human cognitive science, where decisions are made by directly comparing items rather than evaluating them independently, we propose TokenBinder. This innovative two-stage TVR framework introduces a novel one-to-many coarse-to-fine alignment paradigm, imitating the human cognitive process of identifying specific items within a large collection. Our method employs a Focused-view Fusion Network with a sophisticated cross-attention mechanism, dynamically aligning and comparing features across multiple videos to capture finer nuances and contextual variations. Extensive experiments on six benchmark datasets confirm that TokenBinder substantially outperforms existing state-of-the-art methods. These results demonstrate its robustness and the effectiveness of its fine-grained alignment in bridging intra- and inter-modality information gaps in TVR tasks.
翻訳日:2024-11-05 17:09:32 公開日:2024-09-30
# TSI:時系列予測のためのマルチビュー表現学習手法

TSI: A Multi-View Representation Learning Approach for Time Series Forecasting ( http://arxiv.org/abs/2409.19871v1 )

ライセンス: Link先を確認
Wentao Gao, Ziqi Xu, Jiuyong Li, Lin Liu, Jixue Liu, Thuc Duy Le, Debo Cheng, Yanchang Zhao, Yun Chen, (参考訳) 電力消費計画などの現実の応用における時系列予測の需要が増大するにつれ、時系列予測の重要性は各領域でますます重要になっている。 これは、この分野における表現学習の最近の進歩によって強調される。 本研究では,傾向と季節表現を独立成分分析(ICA)に基づく表現と革新的に統合する時系列予測の新しい多視点手法を提案する。 複雑で高次元の時系列データを表現するための既存の手法の限界を認識し、TSとICA(独立成分)の視点を組み合わせることで課題に対処する。 このアプローチは時系列データの全体的理解を提供し、しばしば曖昧で非線形な関係を見逃す伝統的なモデルを越えている。 TSIモデルの有効性は、様々なベンチマークデータセットの包括的なテストを通じて実証され、特に多変量予測において、現在の最先端モデルよりも優れた性能を示す。 この方法は予測の精度を高めるだけでなく、時系列データのより深い理解を提供することによって、分野に大きく貢献する。 ICAを視野に入れた研究は、時系列予測におけるさらなる探索と方法論の進歩、研究と実践のための新たな道を開くための基礎となる。

As the growing demand for long sequence time-series forecasting in real-world applications, such as electricity consumption planning, the significance of time series forecasting becomes increasingly crucial across various domains. This is highlighted by recent advancements in representation learning within the field. This study introduces a novel multi-view approach for time series forecasting that innovatively integrates trend and seasonal representations with an Independent Component Analysis (ICA)-based representation. Recognizing the limitations of existing methods in representing complex and high-dimensional time series data, this research addresses the challenge by combining TS (trend and seasonality) and ICA (independent components) perspectives. This approach offers a holistic understanding of time series data, going beyond traditional models that often miss nuanced, nonlinear relationships. The efficacy of TSI model is demonstrated through comprehensive testing on various benchmark datasets, where it shows superior performance over current state-of-the-art models, particularly in multivariate forecasting. This method not only enhances the accuracy of forecasting but also contributes significantly to the field by providing a more in-depth understanding of time series data. The research which uses ICA for a view lays the groundwork for further exploration and methodological advancements in time series forecasting, opening new avenues for research and practical applications.
翻訳日:2024-11-05 17:09:32 公開日:2024-09-30
# 機械翻訳における繰り返し抑制のための類似性低下を伴う対照的なトークン学習

Contrastive Token Learning with Similarity Decay for Repetition Suppression in Machine Translation ( http://arxiv.org/abs/2409.19877v1 )

ライセンス: Link先を確認
Huangyu Dai, Ben Chen, Kaidi Chen, Ying Han, Zihan Liang, Wen Jiang, (参考訳) 言語間の会話と貿易において、Neural Machine Translation(NMT)は中心的だが、モノトニーと生成されたコンテンツの反復による永続的な課題に直面している。 テキスト冗長性やトークン再帰を罰することに依存する従来のソリューションは、特にLarge Language Models (LLMs) の出現時でさえ、長い記事や固有冗長性を持つeコマース記述に対して、限定的な有効性を示してきた。 本稿では,情報エントロピーのレンズによるテキスト反復の根本原因を考察し,この現象が入力テキスト内の高次不確実性の原因となっていることを示す。 これを解決するためにCTSD(Contrastive Token Learning with similarity Decay)と呼ばれる新しいアルゴリズムが導入された。 さらに、オンラインリアルアイテムのタイトルテキストからなる電子商取引データセットをコンパイルし、そのアルゴリズムをベンチマークするために幻覚翻訳の影響を受けやすいリリースする。 広範囲な評価により、CTSDは既存の精度と一般化可能性のアプローチを著しく上回っていることが示されている。 追加のオンラインA/Bテストは、ユーザエンゲージメントとコンバージョンを著しく改善した、実用的価値を強調している。 特に、この方法は、世界最大のB2B電子商取引プラットフォームであるAlibaba.comの8つの多言語サイトで、完全なトラフィックで実装されている。

For crosslingual conversation and trade, Neural Machine Translation (NMT) is pivotal yet faces persistent challenges with monotony and repetition in generated content. Traditional solutions that rely on penalizing text redundancy or token reoccurrence have shown limited efficacy, particularly for lengthy article and e-commerce descriptions with inherent redundancy, even with the advent of Large Language Models (LLMs). This paper investigates the underlying causes of textual repetition through the lens of information entropy, attributing the phenomenon to the elevated uncertainty within the input text. To address this, a novel algorithm named Contrastive Token Learning with Similarity Decay (CTSD) is introduced, which modulates the suppression of tokens dynamically, informed by varying attention weights and inter-token distances. Furthermore, an e-commerce dataset comprised of title texts of online real items is compiled and released susceptible to hallucination translations to benchmark the algorithm. Extensive evaluations demonstrate that CTSD significantly outperforms existing approaches in precision and generalizability. Additional online A/B testing underscores its practical value, showing marked improvements in user engagement and conversion. Notably, this method has been implemented with full traffic on eight multilingual sites of alibaba.com, the largest B2B e-commerce platform in the world.
翻訳日:2024-11-05 17:09:32 公開日:2024-09-30
# EthereumにおけるRANDAOの最適操作

Optimal RANDAO Manipulation in Ethereum ( http://arxiv.org/abs/2409.19883v1 )

ライセンス: Link先を確認
Kaya Alpturer, S. Matthew Weinberg, (参考訳) 敵がエポックの最後のスロットに割り当てられたプロジェクタを制御する場合、EthereumではRANDAO操作が可能であることはよく知られている。 我々は、敵が所有する任意の分数$\alpha$に対して、戦略的敵が提案できるラウンドの最大分数$f(\alpha)$を計算する方法を提供する。 さらに我々の方法論を実装し、すべての$\alpha$に対して$f(\cdot)$を計算します。 例えば、$5\%の最適戦略参加者は$5.048\%のラウンドを、$10\%のラウンドを$10.19\%のラウンドを、$20\%のラウンドを$20.68\%のラウンドを提案できる。

It is well-known that RANDAO manipulation is possible in Ethereum if an adversary controls the proposers assigned to the last slots in an epoch. We provide a methodology to compute, for any fraction $\alpha$ of stake owned by an adversary, the maximum fraction $f(\alpha)$ of rounds that a strategic adversary can propose. We further implement our methodology and compute $f(\cdot)$ for all $\alpha$. For example, we conclude that an optimal strategic participant with $5\%$ of the stake can propose a $5.048\%$ fraction of rounds, $10\%$ of the stake can propose a $10.19\%$ fraction of rounds, and $20\%$ of the stake can propose a $20.68\%$ fraction of rounds.
翻訳日:2024-11-05 17:09:32 公開日:2024-09-30
# SWIM:mambaと統合した短絡CNNによる脳波を用いた聴覚空間注意復号

SWIM: Short-Window CNN Integrated with Mamba for EEG-Based Auditory Spatial Attention Decoding ( http://arxiv.org/abs/2409.19884v1 )

ライセンス: Link先を確認
Ziyang Zhang, Andrew Thwaites, Alexandra Woolgar, Brian Moore, Chao Zhang, (参考訳) 複雑な聴覚環境においては、人間の聴覚システムは、他者を無視しながら特定の話者に集中する顕著な能力を持っている。 本研究では,Mambaと統合された短時間の畳み込みニューラルネットワーク(CNN)であるSWIMという新しいモデルを提案し,音声エンベロープに依存しない脳波信号から聴覚注意の軌跡(左右)を同定した。 SWIMは2つの部分から構成される。 1つはショートウインドウのCNN(SW$_\text{CNN}$)で、これは短期的なEEG特徴抽出器として機能し、広く使われているKULデータセットにおいて、最後の84.9%の精度を達成する。 この改善は、改良されたCNN構造、データ拡張、マルチタスクトレーニング、モデルの組み合わせによって実現されている。 第2部であるMambaは、前回のSW$_\text{CNN}$時間ステップからの長期依存性を活用するために、最初に聴覚空間注意復号に適用されるシーケンスモデルである。 SW$_\text{CNN}$とMambaの合同トレーニングにより、提案したSWIM構造は短期情報と長期情報の両方を使用し、86.2%の精度で分類誤差を31.0%削減する。 ソースコードはhttps://github.com/windowso/SWIM-ASADで公開されている。

In complex auditory environments, the human auditory system possesses the remarkable ability to focus on a specific speaker while disregarding others. In this study, a new model named SWIM, a short-window convolution neural network (CNN) integrated with Mamba, is proposed for identifying the locus of auditory attention (left or right) from electroencephalography (EEG) signals without relying on speech envelopes. SWIM consists of two parts. The first is a short-window CNN (SW$_\text{CNN}$), which acts as a short-term EEG feature extractor and achieves a final accuracy of 84.9% in the leave-one-speaker-out setup on the widely used KUL dataset. This improvement is due to the use of an improved CNN structure, data augmentation, multitask training, and model combination. The second part, Mamba, is a sequence model first applied to auditory spatial attention decoding to leverage the long-term dependency from previous SW$_\text{CNN}$ time steps. By joint training SW$_\text{CNN}$ and Mamba, the proposed SWIM structure uses both short-term and long-term information and achieves an accuracy of 86.2%, which reduces the classification errors by a relative 31.0% compared to the previous state-of-the-art result. The source code is available at https://github.com/windowso/SWIM-ASAD.
翻訳日:2024-11-05 17:09:32 公開日:2024-09-30
# RouterDC:大規模言語モデル構築のためのデュアルコントラスト学習によるクエリベースルータ

RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models ( http://arxiv.org/abs/2409.19886v1 )

ライセンス: Link先を確認
Shuhao Chen, Weisen Jiang, Baijiong Lin, James T. Kwok, Yu Zhang, (参考訳) 近年の研究では,複数の既成の大規模言語モデル (LLM) を組み立てることによって,それらの相補的能力を活用できることが示されている。 これを実現するために、ルーティングは有望な方法であり、ルータを学習し、クエリ毎に最も適したLSMを選択する。 しかし、複数のLLMがクエリに対して良好に動作する場合、既存のルーティングモデルは効果がない。 そこで本稿では,Dual Contrastive Learning (RouterDC) を用いたクエリベースルータを提案する。 RouterDC モデルはエンコーダと LLM 埋め込みで構成されており,LuterDC モデルを訓練するための2つの対照的な学習損失を提案する。 実験結果から,RuterDC は LLM の組立に有効であり,各トップパフォーマンス LLM の組立に優れており,既存の配電系統(+2.76 %) と配電系統(+1.90 %) の配電系統(+1.90 %) にも優れていた。 ソースコードはhttps://github.com/shuhao02/RouterDCで入手できる。

Recent works show that assembling multiple off-the-shelf large language models (LLMs) can harness their complementary abilities. To achieve this, routing is a promising method, which learns a router to select the most suitable LLM for each query. However, existing routing models are ineffective when multiple LLMs perform well for a query. To address this problem, in this paper, we propose a method called query-based Router by Dual Contrastive learning (RouterDC). The RouterDC model consists of an encoder and LLM embeddings, and we propose two contrastive learning losses to train the RouterDC model. Experimental results show that RouterDC is effective in assembling LLMs and largely outperforms individual top-performing LLMs as well as existing routing methods on both in-distribution (+2.76\%) and out-of-distribution (+1.90\%) tasks. Source code is available at https://github.com/shuhao02/RouterDC.
翻訳日:2024-11-05 17:09:32 公開日:2024-09-30
# OpenKD: ゼロショットとFewショットのキーポイント検出のためのプロンプト多様性の開放

OpenKD: Opening Prompt Diversity for Zero- and Few-shot Keypoint Detection ( http://arxiv.org/abs/2409.19899v1 )

ライセンス: Link先を確認
Changsheng Lu, Zheyuan Liu, Piotr Koniusz, (参考訳) 汎用キーポイント検出器を構築するための基礎モデル(例えばCLIP)の展開が注目されている。 ほとんどの既存モデルは、テキストプロンプト(例: `` ``the nose of a cat'')またはビジュアルプロンプト(例:キーポイントアノテーションによるイメージのサポート)を受け入れて、クエリ画像の対応するキーポイントを検出し、ゼロショットまたは少数ショット検出能力を示す。 しかし、マルチモーダルなプロンプトの取得に関する研究はいまだ未定であり、セマンティクスや言語における迅速な多様性は明らかになっていない。 例えば、新しいキーポイント検出のための未知のテキストプロンプトと‘Can you detect the nose and ears of a cat?’のような多様なテキストプロンプトをどう扱うか。本研究では、モダリティ、セマンティクス(見当たらない)、言語という3つの側面から迅速な多様性を開放し、より一般化されたゼロショットと少数ショットのキーポイント検出(Z-FSKD)を可能にする。 視覚とテキストのプロンプトをサポートするために,マルチモーダルなプロトタイプセットを利用する新しいOpenKDモデルを提案する。 さらに、未知のテキストのキーポイント位置を推測するために、視覚的およびテキスト的領域から補間された補助的なキーポイントとテキストをトレーニングに追加し、モデルの空間的推論を改善し、ゼロショットの新規キーポイント検出を大幅に強化する。 また、大きな言語モデル(LLM)は、テキストからキーポイントを解析する精度を96%以上達成できるパーサであることも見出した。 LLMでは、OpenKDは多様なテキストプロンプトを処理できる。 実験により,本手法はZ-FSKD上での最先端性能を実現し,未知のテキストや多様なテキストに対処する新たな方法を開始することを示す。 ソースコードとデータはhttps://github.com/AlanLuSun/OpenKD.comで公開されている。

Exploiting the foundation models (e.g., CLIP) to build a versatile keypoint detector has gained increasing attention. Most existing models accept either the text prompt (e.g., ``the nose of a cat''), or the visual prompt (e.g., support image with keypoint annotations), to detect the corresponding keypoints in query image, thereby, exhibiting either zero-shot or few-shot detection ability. However, the research on taking multimodal prompt is still underexplored, and the prompt diversity in semantics and language is far from opened. For example, how to handle unseen text prompts for novel keypoint detection and the diverse text prompts like ``Can you detect the nose and ears of a cat?'' In this work, we open the prompt diversity from three aspects: modality, semantics (seen v.s. unseen), and language, to enable a more generalized zero- and few-shot keypoint detection (Z-FSKD). We propose a novel OpenKD model which leverages multimodal prototype set to support both visual and textual prompting. Further, to infer the keypoint location of unseen texts, we add the auxiliary keypoints and texts interpolated from visual and textual domains into training, which improves the spatial reasoning of our model and significantly enhances zero-shot novel keypoint detection. We also found large language model (LLM) is a good parser, which achieves over 96% accuracy to parse keypoints from texts. With LLM, OpenKD can handle diverse text prompts. Experimental results show that our method achieves state-of-the-art performance on Z-FSKD and initiates new ways to deal with unseen text and diverse texts. The source code and data are available at https://github.com/AlanLuSun/OpenKD.
翻訳日:2024-11-05 16:57:15 公開日:2024-09-30
# SurvCORN: 条件付き順序付けニューラルネットワークによる生存分析

SurvCORN: Survival Analysis with Conditional Ordinal Ranking Neural Network ( http://arxiv.org/abs/2409.19901v1 )

ライセンス: Link先を確認
Muhammad Ridzuan, Numan Saeed, Fadillah Adamsyah Maani, Karthik Nandakumar, Mohammad Yaqub, (参考訳) 生存分析は、特に死亡や病気の再発といった結果の予測が不可欠である医療環境において、時間から時間までのデータをモデル化することで、患者の将来的な事象の可能性を推定する上で重要な役割を担っている。 しかし、この分析は、特定のデータポイントに時間から時間までの情報が欠落している検閲データの存在によって、問題を引き起こす。 しかし、検閲されたデータは、モデリング中に検閲時間が適切に組み込まれているため、貴重な洞察を与えることができる。 本稿では,条件付き順序付きランキングネットワークを用いた生存曲線の予測手法であるSurvCORNを提案する。 また,モデル予測の精度を評価するための指標であるSurvMAEを導入する。 実世界の2つのがんデータセットに対する経験的評価を通じて、患者間の正確な順序付けを維持できると同時に、個々の時間対イベント予測を改善しながら、SurvCORNの能力を実証する。 我々の貢献は、生存分析への経常的回帰の最近の進歩を延長し、医療環境における正確な予後に関する貴重な洞察を提供する。

Survival analysis plays a crucial role in estimating the likelihood of future events for patients by modeling time-to-event data, particularly in healthcare settings where predictions about outcomes such as death and disease recurrence are essential. However, this analysis poses challenges due to the presence of censored data, where time-to-event information is missing for certain data points. Yet, censored data can offer valuable insights, provided we appropriately incorporate the censoring time during modeling. In this paper, we propose SurvCORN, a novel method utilizing conditional ordinal ranking networks to predict survival curves directly. Additionally, we introduce SurvMAE, a metric designed to evaluate the accuracy of model predictions in estimating time-to-event outcomes. Through empirical evaluation on two real-world cancer datasets, we demonstrate SurvCORN's ability to maintain accurate ordering between patient outcomes while improving individual time-to-event predictions. Our contributions extend recent advancements in ordinal regression to survival analysis, offering valuable insights into accurate prognosis in healthcare settings.
翻訳日:2024-11-05 16:57:15 公開日:2024-09-30
# ビデオで誰にでも置き換える

Replace Anyone in Videos ( http://arxiv.org/abs/2409.19911v1 )

ライセンス: Link先を確認
Xiang Wang, Changxin Gao, Yuehuan Wang, Nong Sang, (参考訳) 制御可能な人中心ビデオ生成の最近の進歩、特に拡散モデルの台頭は、かなりの進歩を見せている。 しかし、人間の動きを正確にかつ局所的に制御すること、例えば、ビデオに個人を置き換えたり、挿入したりしながら、望ましい動きのパターンを示すことは、依然として困難である。 本研究では,多彩で複雑な背景を持つビデオにおける人間の動きのローカライズと操作に焦点を当てたReplaceAnyoneフレームワークを提案する。 具体的には、このタスクを、画像条件付きポーズ駆動ビデオ塗装パラダイムとして定式化し、画像条件付きポーズ駆動ビデオ生成とマスク付きビデオ領域内のインペイントを容易にする統合ビデオ拡散アーキテクチャを用いる。 さらに, 形状の漏れを回避し, 局所制御のきめ細やかな制御を可能にするために, 規則形状と不規則形状を含む多種多様なマスク形式を導入する。 さらに,2段階のトレーニング手法を実装し,まず画像条件付きポーズ駆動型映像生成モデルを訓練し,その後,マスク付き領域内での映像の合体訓練を行った。 このようにして、本手法は、1つのフレームワーク内で所望のポーズ動作と参照外観を維持しつつ、文字のシームレスな置換や挿入を可能にする。 実験により,現実的かつ一貫性のある映像コンテンツを生成する上で,本手法の有効性が示された。

Recent advancements in controllable human-centric video generation, particularly with the rise of diffusion models, have demonstrated considerable progress. However, achieving precise and localized control over human motion, e.g., replacing or inserting individuals into videos while exhibiting desired motion patterns, still remains challenging. In this work, we propose the ReplaceAnyone framework, which focuses on localizing and manipulating human motion in videos with diverse and intricate backgrounds. Specifically, we formulate this task as an image-conditioned pose-driven video inpainting paradigm, employing a unified video diffusion architecture that facilitates image-conditioned pose-driven video generation and inpainting within masked video regions. Moreover, we introduce diverse mask forms involving regular and irregular shapes to avoid shape leakage and allow granular local control. Additionally, we implement a two-stage training methodology, initially training an image-conditioned pose driven video generation model, followed by joint training of the video inpainting within masked areas. In this way, our approach enables seamless replacement or insertion of characters while maintaining the desired pose motion and reference appearance within a single framework. Experimental results demonstrate the effectiveness of our method in generating realistic and coherent video content.
翻訳日:2024-11-05 16:57:15 公開日:2024-09-30
# ベンチマークChatGPT、Codeium、GitHub Copilot:AI駆動プログラミングとデバッグアシスタントの比較研究

Benchmarking ChatGPT, Codeium, and GitHub Copilot: A Comparative Study of AI-Driven Programming and Debugging Assistants ( http://arxiv.org/abs/2409.19922v1 )

ライセンス: Link先を確認
Md Sultanul Islam Ovi, Nafisa Anjum, Tasmina Haque Bithe, Md. Mahabubur Rahman, Mst. Shahnaj Akter Smrity, (参考訳) ソフトウェア開発におけるAI駆動ツールの採用の増加に伴い、コード生成やバグ修正、最適化といったタスクには、大規模言語モデル(LLM)が不可欠になっている。 ChatGPT、GitHub Copilot、Codeiumといったツールは、プログラミングの課題を解決する上で貴重な支援を提供するが、その効果は未調査である。 本稿では、ChatGPT、Codeium、GitHub Copilotの比較研究を行い、LeetCode問題のパフォーマンスをさまざまな難易度とカテゴリで評価する。 成功率、実行効率、メモリ使用量、エラー処理能力などの主要な指標が評価される。 GitHub Copilotは、より簡単で中程度のタスクで優れたパフォーマンスを示し、ChatGPTは、メモリ効率とデバッグに優れていた。 コーディウムは有望ではあるが、より複雑な問題に苦しんだ。 その強みにもかかわらず、すべてのツールは難しい問題に対処する上で困難に直面した。 これらの洞察は、各ツールの機能と制限をより深く理解し、コーディングワークフローにおけるAI統合の最適化を目指す開発者と研究者にガイダンスを提供する。

With the increasing adoption of AI-driven tools in software development, large language models (LLMs) have become essential for tasks like code generation, bug fixing, and optimization. Tools like ChatGPT, GitHub Copilot, and Codeium provide valuable assistance in solving programming challenges, yet their effectiveness remains underexplored. This paper presents a comparative study of ChatGPT, Codeium, and GitHub Copilot, evaluating their performance on LeetCode problems across varying difficulty levels and categories. Key metrics such as success rates, runtime efficiency, memory usage, and error-handling capabilities are assessed. GitHub Copilot showed superior performance on easier and medium tasks, while ChatGPT excelled in memory efficiency and debugging. Codeium, though promising, struggled with more complex problems. Despite their strengths, all tools faced challenges in handling harder problems. These insights provide a deeper understanding of each tool's capabilities and limitations, offering guidance for developers and researchers seeking to optimize AI integration in coding workflows.
翻訳日:2024-11-05 16:57:15 公開日:2024-09-30
# シークエンシャルレコメンデーションのための大規模言語モデルを用いた埋め込み発電機

Large Language Model Empowered Embedding Generator for Sequential Recommendation ( http://arxiv.org/abs/2409.19925v1 )

ライセンス: Link先を確認
Qidong Liu, Xian Wu, Wanyu Wang, Yejing Wang, Yuanshao Zhu, Xiangyu Zhao, Feng Tian, Yefeng Zheng, (参考訳) SRS(Sequential Recommender Systems)は、様々なドメインにまたがって広く適用され、対話シーケンスをモデル化してユーザの次のインタラクションを予測する。 しかし、これらのシステムは通常、あまり人気がないアイテムを推薦するのに苦労するロングテール問題に対処します。 この課題は、ユーザー発見の減少とベンダーの収益の減少をもたらし、システム全体に悪影響を及ぼした。 大言語モデル(LLM)は、その人気に関係なく、アイテム間の意味的関係を理解する可能性があり、これらをこのジレンマの実行可能な解決策として位置づけている。 本稿では, LLMEmbについて述べる。LLMEmbは, LLMを利用して, SRSの性能を高めるアイテム埋め込みを作成する革新的な技術である。 汎用LLMの能力とレコメンデーションドメインのニーズを整合させるため,SCFT(Supervised Contrastive Fine-Tuning)と呼ばれる手法を導入する。 この方法は、属性レベルのデータ拡張と、レコメンデーション性能を高めるためにLLMを調整するためのカスタムコントラスト損失を含む。 さらに,LLM の埋め込みに協調フィルタリング信号を統合する必要性を強調し,この目的のためにレコメンデーション適応トレーニング (RAT) を提案する。 RATは、SRSに最適な埋め込みを洗練する。 LLMEmbから派生した埋め込みは任意のSRSモデルと容易に統合でき、実用性を示している。 3つの実世界のデータセットに対する大規模な実験により、LLMEmbは異なるSRSモデルにまたがって適用した場合、現在の手法により大幅に改善されることが示された。

Sequential Recommender Systems (SRS) are extensively applied across various domains to predict users' next interaction by modeling their interaction sequences. However, these systems typically grapple with the long-tail problem, where they struggle to recommend items that are less popular. This challenge results in a decline in user discovery and reduced earnings for vendors, negatively impacting the system as a whole. Large Language Model (LLM) has the potential to understand the semantic connections between items, regardless of their popularity, positioning them as a viable solution to this dilemma. In our paper, we present LLMEmb, an innovative technique that harnesses LLM to create item embeddings that bolster the performance of SRS. To align the capabilities of general-purpose LLM with the needs of the recommendation domain, we introduce a method called Supervised Contrastive Fine-Tuning (SCFT). This method involves attribute-level data augmentation and a custom contrastive loss designed to tailor LLM for enhanced recommendation performance. Moreover, we highlight the necessity of incorporating collaborative filtering signals into LLM-generated embeddings and propose Recommendation Adaptation Training (RAT) for this purpose. RAT refines the embeddings to be optimally suited for SRS. The embeddings derived from LLMEmb can be easily integrated with any SRS model, showcasing its practical utility. Extensive experimentation on three real-world datasets has shown that LLMEmb significantly improves upon current methods when applied across different SRS models.
翻訳日:2024-11-05 16:47:30 公開日:2024-09-30
# エントロピーリスク尺度による不確実性を考慮したデータ駆動意思決定

Data-driven decision-making under uncertainty with entropic risk measure ( http://arxiv.org/abs/2409.19926v1 )

ライセンス: Link先を確認
Utsav Sadana, Erick Delage, Angelos Georghiou, (参考訳) エントロピーリスク尺度は、不確実な損失に関連する尾のリスクを考慮に入れた高い意思決定に広く用いられている。 限られたデータでは、経験的エントロピーリスク推定器、すなわち、エントロピーリスク測定の期待値をサンプル平均に置き換えることで、真のリスクを過小評価する。 経験的エントロピーリスク推定器を劣化させるため, 高度に漸近的に一貫したブートストラップ法を提案する。 手順の第1ステップはデータに分布を合わせることを含み、第2ステップはブートストラップを用いた経験的エントロピーリスク推定器のバイアスを推定し、修正する。 ガウス混合モデル(英語版)を最大極大基準を用いたデータに適用することにより、リスクの過小評価につながることが示される。 この問題を緩和するために、経験的エントロピーリスクの分布に適合するより計算的に要求される方法と、極値分布に適合するより単純な方法を考える。 提案手法の適用例として,タイプ=$\infty$Wasserstein ambiguity 集合を用いた分布的に頑健なエントロピーリスク最小化問題について検討した。 さらに,よく研究された保険契約設計問題に対する分散的ロバストな最適化モデルを提案する。 このモデルは、依存するリスクを持つ複数の(潜在的)政策ホルダーを考慮し、保険会社と政策ホルダーはエントロピー的リスク尺度を使用する。 検証性能のバイアスが補正されない場合,クロスバリデーション手法は,保険業者のアウト・オブ・サンプルリスクを著しく高める可能性があることを示す。 この改善は、我々の手法が住宅所有者により高い(そしてより正確な)プレミアムを示唆しているという観察から説明できる。

The entropic risk measure is widely used in high-stakes decision making to account for tail risks associated with an uncertain loss. With limited data, the empirical entropic risk estimator, i.e. replacing the expectation in the entropic risk measure with a sample average, underestimates the true risk. To debias the empirical entropic risk estimator, we propose a strongly asymptotically consistent bootstrapping procedure. The first step of the procedure involves fitting a distribution to the data, whereas the second step estimates the bias of the empirical entropic risk estimator using bootstrapping, and corrects for it. We show that naively fitting a Gaussian Mixture Model to the data using the maximum likelihood criterion typically leads to an underestimation of the risk. To mitigate this issue, we consider two alternative methods: a more computationally demanding one that fits the distribution of empirical entropic risk, and a simpler one that fits the extreme value distribution. As an application of the approach, we study a distributionally robust entropic risk minimization problem with type-$\infty$ Wasserstein ambiguity set, where debiasing the validation performance using our techniques significantly improves the calibration of the size of the ambiguity set. Furthermore, we propose a distributionally robust optimization model for a well-studied insurance contract design problem. The model considers multiple (potential) policyholders that have dependent risks and the insurer and policyholders use entropic risk measure. We show that cross validation methods can result in significantly higher out-of-sample risk for the insurer if the bias in validation performance is not corrected for. This improvement can be explained from the observation that our methods suggest a higher (and more accurate) premium to homeowners.
翻訳日:2024-11-05 16:47:30 公開日:2024-09-30
# EndoDepth:内視鏡的深度予測におけるロバスト性評価ベンチマーク

EndoDepth: A Benchmark for Assessing Robustness in Endoscopic Depth Prediction ( http://arxiv.org/abs/2409.19930v1 )

ライセンス: Link先を確認
Ivan Reyes-Amezcua, Ricardo Espinosa, Christian Daul, Gilberto Ochoa-Ruiz, Andres Mendez-Vazquez, (参考訳) 内視鏡における正確な深度推定は、様々な医療処置やCADツールのためのコンピュータビジョンパイプラインの実装に成功するために不可欠である。 本稿では,単眼深度予測モデルのロバスト性を評価するための評価フレームワークであるEndoDepthベンチマークを提案する。 従来のデータセットとは異なり、EndoDepthベンチマークは内視鏡的手順で遭遇する一般的な課題を取り入れている。 本稿では,内視鏡的シナリオにおけるモデルの堅牢性を評価するために,一貫した,特に設計された評価手法を提案する。 これらのなかには、平均深度推定ロバストネススコア (mDERS) と呼ばれる新しい合成計量があり、これは、内視鏡画像の破損による誤差に対するモデルの精度を詳細に評価するものである。 さらに、内視鏡の堅牢性を評価するために設計された新しいデータセットであるSCARED-Cを提案する。 広範囲にわたる実験を通じて,EndoDepthベンチマークの最先端の深度予測アーキテクチャを評価し,その強度と弱点を明らかにする。 本研究は,内視鏡検査における精密深度推定のための専門技術の重要性を実証し,今後の研究の方向性について貴重な知見を提供するものである。

Accurate depth estimation in endoscopy is vital for successfully implementing computer vision pipelines for various medical procedures and CAD tools. In this paper, we present the EndoDepth benchmark, an evaluation framework designed to assess the robustness of monocular depth prediction models in endoscopic scenarios. Unlike traditional datasets, the EndoDepth benchmark incorporates common challenges encountered during endoscopic procedures. We present an evaluation approach that is consistent and specifically designed to evaluate the robustness performance of the model in endoscopic scenarios. Among these is a novel composite metric called the mean Depth Estimation Robustness Score (mDERS), which offers an in-depth evaluation of a model's accuracy against errors brought on by endoscopic image corruptions. Moreover, we present SCARED-C, a new dataset designed specifically to assess endoscopy robustness. Through extensive experimentation, we evaluate state-of-the-art depth prediction architectures on the EndoDepth benchmark, revealing their strengths and weaknesses in handling endoscopic challenging imaging artifacts. Our results demonstrate the importance of specialized techniques for accurate depth estimation in endoscopy and provide valuable insights for future research directions.
翻訳日:2024-11-05 16:47:30 公開日:2024-09-30
# 量子抵抗フォトニックハッシュ関数

A Quantum-Resistant Photonic Hash Function ( http://arxiv.org/abs/2409.19932v1 )

ライセンス: Link先を確認
Tomoya Hatanaka, Rikuto Fushio, Masataka Watanabe, William J. Munro, Tatsuhiko N. Ikeda, Sho Sugiura, (参考訳) 本稿では,フォトニック量子コンピュータ上でのガウスボソンサンプリングに基づく量子ハッシュ関数を提案する。 大規模なシミュレーションにより、このハッシュ関数は暗号アプリケーションに不可欠な前像、第二前像、衝突抵抗の強い特性を示すことが示された。 特に、衝突攻撃の成功に必要な試行回数は、フォトニック量子コンピュータのモード数とともに指数関数的に増加し、誕生日攻撃に対する堅牢な抵抗が示唆される。 また、物理実装のサンプリングコストを分析し、ハッシュ計算の本質的な量子的性質が量子耐性のセキュリティを提供するブロックチェーン技術への潜在的な応用について議論する。 ハッシュ処理に関わる量子状態空間の高次元性は、量子攻撃に重大な課題をもたらし、量子セキュリティへの道のりを示している。 我々の研究は、量子時代の情報システムにおける新しい量子抵抗ハッシュのパラダイムの基礎を築いた。

We propose a quantum hash function based on Gaussian boson sampling on a photonic quantum computer, aiming to provide quantum-resistant security. Extensive simulations demonstrate that this hash function exhibits strong properties of preimage, second preimage, and collision resistance, which are essential for cryptographic applications. Notably, the estimated number of attempts required for a successful collision attack increases exponentially with the mode counts of the photonic quantum computer, suggesting robust resistance against birthday attacks. We also analyze the sampling cost for physical implementation and discuss potential applications to blockchain technologies, where the inherent quantum nature of the hash computation could provide quantum-resistant security. The high dimensionality of the quantum state space involved in the hashing process poses significant challenges for quantum attacks, indicating a path towards quantum security. Our work lays the foundation for a new paradigm of quantum-resistant hashing with applications in emerging quantum-era information systems.
翻訳日:2024-11-05 16:47:30 公開日:2024-09-30
# 軽量自己教師型深度推定ネットワークCCDepth

CCDepth: A Lightweight Self-supervised Depth Estimation Network with Enhanced Interpretability ( http://arxiv.org/abs/2409.19933v1 )

ライセンス: Link先を確認
Xi Zhang, Yaru Xue, Shaocheng Jia, Xin Pei, (参考訳) 近年,入力として単眼画像のみを必要とする自己監督深度推定が普及し,将来性が高まっている。 現在の研究は主にモデルの予測精度の向上に焦点を当てている。 しかし、過剰な数のパラメータは、エッジデバイスへのモデルの普遍的な展開を妨げる。 さらに、ブラックボックスモデルである新興ニューラルネットワークの分析は困難であり、パフォーマンス改善の合理性を理解する上での課題となっている。 これらの問題を緩和するために、畳み込みニューラルネットワーク(CNN)とホワイトボックスCRATE(Coding RAte reduction TransformEr)からなる新しいハイブリッド自己教師型深度推定ネットワークCCDepthを提案する。 このネットワークは,CNNとCRATEモジュールを用いて画像中の局所的およびグローバルな情報を抽出し,学習効率の向上とモデルサイズ削減を実現する。 さらに、CRATEモジュールをネットワークに組み込むことで、グローバルな特徴を捉える数学的に解釈可能なプロセスが可能になる。 KITTIデータセットの大規模な実験は、提案したCCDepthネットワークがこれらの最先端手法に匹敵する性能を達成できることを示しているが、モデルサイズは大幅に縮小されている。 さらに,CCDepthネットワークの内部特性の定量的および定性的な分析により,提案手法の有効性をさらに確認した。

Self-supervised depth estimation, which solely requires monocular image sequence as input, has become increasingly popular and promising in recent years. Current research primarily focuses on enhancing the prediction accuracy of the models. However, the excessive number of parameters impedes the universal deployment of the model on edge devices. Moreover, the emerging neural networks, being black-box models, are difficult to analyze, leading to challenges in understanding the rationales for performance improvements. To mitigate these issues, this study proposes a novel hybrid self-supervised depth estimation network, CCDepth, comprising convolutional neural networks (CNNs) and the white-box CRATE (Coding RAte reduction TransformEr) network. This novel network uses CNNs and the CRATE modules to extract local and global information in images, respectively, thereby boosting learning efficiency and reducing model size. Furthermore, incorporating the CRATE modules into the network enables a mathematically interpretable process in capturing global features. Extensive experiments on the KITTI dataset indicate that the proposed CCDepth network can achieve performance comparable with those state-of-the-art methods, while the model size has been significantly reduced. In addition, a series of quantitative and qualitative analyses on the inner features in the CCDepth network further confirm the effectiveness of the proposed method.
翻訳日:2024-11-05 16:47:30 公開日:2024-09-30
# キドニーストーン型認識のためのロバストフェデレーション学習のための事前学習モデルの活用

Leveraging Pre-trained Models for Robust Federated Learning for Kidney Stone Type Recognition ( http://arxiv.org/abs/2409.19934v1 )

ライセンス: Link先を確認
Ivan Reyes-Amezcua, Michael Rojas-Ruiz, Gilberto Ochoa-Ruiz, Andres Mendez-Vazquez, Christian Daul, (参考訳) 深層学習の発展により、医療画像診断が劇的に改善し、いくつかの領域で精度が向上した。 それでも、巨大なデータセットとデータ交換に関する法的制限が要求されるため、障害は引き続き存在する。 ソリューションはフェデレートラーニング(FL)によって提供され、データプライバシを維持しながら、分散モデルのトレーニングを可能にする。 しかし、FLモデルはデータ破損の影響を受けやすいため、性能が低下する可能性がある。 プレトレーニングモデルを用いて腎臓結石診断を改善するための強力なFLフレームワークを提案する。 2つの異なる腎臓石のデータセットは、それぞれ6つの異なるカテゴリのイメージを持つもので、実験環境で使用されています。 本手法は,学習パラメータ最適化(LPO)とフェデレートロバストネス検証(FRV)の2段階を含む。 診断精度は84.1%であり,LPOでは7回,LPOでは10回,FRVでは77.2%,画像破壊では77.2%であった。 これは、医療診断におけるプライバシとパフォーマンス上の懸念に対処するために、事前訓練されたモデルをFLとマージする可能性を強調し、患者ケアの改善とFLベースの医療システムへの信頼の向上を保証する。

Deep learning developments have improved medical imaging diagnoses dramatically, increasing accuracy in several domains. Nonetheless, obstacles continue to exist because of the requirement for huge datasets and legal limitations on data exchange. A solution is provided by Federated Learning (FL), which permits decentralized model training while maintaining data privacy. However, FL models are susceptible to data corruption, which may result in performance degradation. Using pre-trained models, this research suggests a strong FL framework to improve kidney stone diagnosis. Two different kidney stone datasets, each with six different categories of images, are used in our experimental setting. Our method involves two stages: Learning Parameter Optimization (LPO) and Federated Robustness Validation (FRV). We achieved a peak accuracy of 84.1% with seven epochs and 10 rounds during LPO stage, and 77.2% during FRV stage, showing enhanced diagnostic accuracy and robustness against image corruption. This highlights the potential of merging pre-trained models with FL to address privacy and performance concerns in medical diagnostics, and guarantees improved patient care and enhanced trust in FL-based medical systems.
翻訳日:2024-11-05 16:47:30 公開日:2024-09-30
# MaskMamba: マスク画像生成のためのハイブリッドMamba-Transformerモデル

MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation ( http://arxiv.org/abs/2409.19937v1 )

ライセンス: Link先を確認
Wenchao Chen, Liqiang Niu, Ziyao Lu, Fandong Meng, Jie Zhou, (参考訳) 画像生成モデルは、主にTransformerベースのバックボーンに依存するため、スケーラビリティと二次的複雑性に関連する課題に直面している。 本研究では,非自己回帰画像合成にMasked Image Modelingを応用して,MaskMambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルを提案する。 1) 因果的畳み込みを標準的な畳み込みに置き換え、グローバルな文脈をよりよく捉え、2) 乗算の代わりに連結を利用して、推論速度を加速しながら、性能を大幅に向上させる。 さらに、シリアルおよびグループ化された並列配置を含む、MaskMambaの様々なハイブリッドスキームについて検討する。 さらに,クラス・ツー・イメージ生成タスクとテキスト・ツー・イメージ生成タスクの両方の実行が可能なコンテキスト内条件を組み込んだ。 私たちのMaskMambaは、MambaベースのモデルとTransformerベースのモデルを世代品質で上回ります。 注目すべきは、Transformerの2048ドルという解像度で、推論速度が54.44ドル%向上したことだ。

Image generation models have encountered challenges related to scalability and quadratic complexity, primarily due to the reliance on Transformer-based backbones. In this study, we introduce MaskMamba, a novel hybrid model that combines Mamba and Transformer architectures, utilizing Masked Image Modeling for non-autoregressive image synthesis. We meticulously redesign the bidirectional Mamba architecture by implementing two key modifications: (1) replacing causal convolutions with standard convolutions to better capture global context, and (2) utilizing concatenation instead of multiplication, which significantly boosts performance while accelerating inference speed. Additionally, we explore various hybrid schemes of MaskMamba, including both serial and grouped parallel arrangements. Furthermore, we incorporate an in-context condition that allows our model to perform both class-to-image and text-to-image generation tasks. Our MaskMamba outperforms Mamba-based and Transformer-based models in generation quality. Notably, it achieves a remarkable $54.44\%$ improvement in inference speed at a resolution of $2048\times 2048$ over Transformer.
翻訳日:2024-11-05 16:47:30 公開日:2024-09-30
# ポジティブ・サム・フェアネス:グループの利益を犠牲にすることなく、公正なAIの成果を達成するために、デモグラフィックの属性を活用する

Positive-Sum Fairness: Leveraging Demographic Attributes to Achieve Fair AI Outcomes Without Sacrificing Group Gains ( http://arxiv.org/abs/2409.19940v1 )

ライセンス: Link先を確認
Samia Belhadj, Sanguk Park, Ambika Seth, Hesham Dar, Thijs Kooi, (参考訳) 医療AIの公平性は、医療提供の重要な側面としてますます認識されている。 フェアネスに関する以前の作業の多くは、同等のパフォーマンスの重要性を強調していますが、フェアネスの減少は、変化の種類や感度属性の使用方法によって、有害か非有害かのどちらかである、と私たちは主張します。 この目的のために,グループ間の格差が大きくなるようなパフォーマンスの増加は,個々のサブグループのパフォーマンスのコストを伴わない限り受け入れられる,というポジティブサムフェアネスの概念を導入する。 これにより、公平さを損なうことなく、病気と相関した感度な属性を使用してパフォーマンスを向上させることができる。 トレーニングフェーズにおけるレース属性の異なる4つのCNNモデルを比較することで、このアイデアを説明する。 その結果、画像から全ての階層エンコーディングを除去することは、異なるサブグループ間のパフォーマンスのギャップを埋めるのに役立ち、一方、レース属性をモデル入力として活用することで、サブグループ間の格差を広げながら全体的なパフォーマンスを高めることがわかった。 これらの大きなギャップは、有害な非有害な格差と区別するために、ポジティブ・サム・フェアネスという概念を通じて、集団的な利益を考慮に入れられる。

Fairness in medical AI is increasingly recognized as a crucial aspect of healthcare delivery. While most of the prior work done on fairness emphasizes the importance of equal performance, we argue that decreases in fairness can be either harmful or non-harmful, depending on the type of change and how sensitive attributes are used. To this end, we introduce the notion of positive-sum fairness, which states that an increase in performance that results in a larger group disparity is acceptable as long as it does not come at the cost of individual subgroup performance. This allows sensitive attributes correlated with the disease to be used to increase performance without compromising on fairness. We illustrate this idea by comparing four CNN models that make different use of the race attribute in the training phase. The results show that removing all demographic encodings from the images helps close the gap in performance between the different subgroups, whereas leveraging the race attribute as a model's input increases the overall performance while widening the disparities between subgroups. These larger gaps are then put in perspective of the collective benefit through our notion of positive-sum fairness to distinguish harmful from non harmful disparities.
翻訳日:2024-11-05 16:47:30 公開日:2024-09-30
# 新規コンテンツ空間評価指標を用いた皮膚損傷データセットにおける長期的爪問題に対する一ショットGAN

One Shot GANs for Long Tail Problem in Skin Lesion Dataset using novel content space assessment metric ( http://arxiv.org/abs/2409.19945v1 )

ライセンス: Link先を確認
Kunal Deo, Deval Mehta, Kshitij Jadhav, (参考訳) 医療分野では、特に稀な状況における医療データの不足により、長い尾の問題はしばしば発生する。 この不足は、しばしばそのような限られたサンプルに過度に適合するモデルに繋がる。 結果として、サンプルの数が著しく異なる、非常に歪んだクラスを持つデータセットのトレーニングモデルが現れると、問題が発生する。 このような不均衡なデータセットのトレーニングは選択的な検出をもたらし、モデルが多数派に属するイメージを正確に識別するが、少数派から無視する。 これにより、モデルは一般化性に欠け、新しいデータに対する使用が妨げられる。 これは、医用画像データセットの画像検出と診断モデルの開発において重要な課題となる。 この課題に対処するため、One Shot GANsモデルを使用して、追加のサンプルを生成することで、HAM10000データセットのテールクラスを拡張した。 さらに、精度を高めるため、ワンショットガンに合うように調整された新しいメートル法が用いられた。

Long tail problems frequently arise in the medical field, particularly due to the scarcity of medical data for rare conditions. This scarcity often leads to models overfitting on such limited samples. Consequently, when training models on datasets with heavily skewed classes, where the number of samples varies significantly, a problem emerges. Training on such imbalanced datasets can result in selective detection, where a model accurately identifies images belonging to the majority classes but disregards those from minority classes. This causes the model to lack generalizability, preventing its use on newer data. This poses a significant challenge in developing image detection and diagnosis models for medical image datasets. To address this challenge, the One Shot GANs model was employed to augment the tail class of HAM10000 dataset by generating additional samples. Furthermore, to enhance accuracy, a novel metric tailored to suit One Shot GANs was utilized.
翻訳日:2024-11-05 16:47:30 公開日:2024-09-30
# Illustrious:オープン・アドバンスト・イラストレーション・モデル

Illustrious: an Open Advanced Illustration Model ( http://arxiv.org/abs/2409.19946v1 )

ライセンス: Link先を確認
Sang Hyun Park, Jun Young Koh, Junha Lee, Joy Song, Dongha Kim, Hoyeon Moon, Hyunju Lee, Min Song, (参考訳) 本研究は, Illustrious というテキスト・ツー・イメージ・アニメーション画像生成モデルにおいて, 最先端の画質を実現するための洞察を共有した。 高解像度、ダイナミックカラーレンジ画像、高復元能力を実現するため、モデル改善のための3つの重要なアプローチに焦点をあてる。 まず、制御可能なトークンベースの概念アクティベーションの高速な学習を可能にするバッチサイズとドロップアウト制御の重要性について検討する。 第2に、画像のトレーニング精度を高め、文字解剖の正確な描写をはるかに高解像度にし、適切な方法で20MP以上の生成能力を拡張した。 最後に、モデル開発における重要な要素として、すべてのタグと様々な自然言語キャプションを網羅した改良された多層キャプションを提案する。 大規模な分析と実験を通じて、Illustriousはアニメーションスタイルで最先端のパフォーマンスを示し、イラストドメインで広く使われているモデルよりも優れ、オープンソースの性質によるカスタマイズとパーソナライズを容易にする。 更新されたIllustriousモデルシリーズを順次公開し、改善の持続的な計画を立てる予定です。

In this work, we share the insights for achieving state-of-the-art quality in our text-to-image anime image generative model, called Illustrious. To achieve high resolution, dynamic color range images, and high restoration ability, we focus on three critical approaches for model improvement. First, we delve into the significance of the batch size and dropout control, which enables faster learning of controllable token based concept activations. Second, we increase the training resolution of images, affecting the accurate depiction of character anatomy in much higher resolution, extending its generation capability over 20MP with proper methods. Finally, we propose the refined multi-level captions, covering all tags and various natural language captions as a critical factor for model development. Through extensive analysis and experiments, Illustrious demonstrates state-of-the-art performance in terms of animation style, outperforming widely-used models in illustration domains, propelling easier customization and personalization with nature of open source. We plan to publicly release updated Illustrious model series sequentially as well as sustainable plans for improvements.
翻訳日:2024-11-05 16:47:30 公開日:2024-09-30
# 部分的インフォーマティブエージェントネットワークによる分類--個人的ミオピック分類器から集団を抽出する

Classification with a Network of Partially Informative Agents: Enabling Wise Crowds from Individually Myopic Classifiers ( http://arxiv.org/abs/2409.19947v1 )

ライセンス: Link先を確認
Tong Yao, Shreyas Sundaram, (参考訳) 我々は,不均一かつ部分的情報的エージェントによる(ピアツーピア)ネットワークによる分類の問題について考察し,各エージェントが真クラスによって生成された局所データを受信し,クラス全体のサブセットを区別できる分類器を備える。 本稿では,局所分類器の後部確率を用いた反復的アルゴリズムを提案し,各エージェントの局所的信念を,その局所的信号と隣人からの信念情報に基づいて再帰的に更新する。 次に、各エージェントのグローバルな信念を更新し、すべてのエージェントに対して真のクラスを学習できるようにするために、新しい分散ミンルールを採用する。 ある仮定の下では、真のクラスについての信念は、ほぼ確実に1つの漸近的に収束することを示す。 我々は漸近収束率を提供し、画像データを用いたシミュレーションによりアルゴリズムの性能を実証し、ランダムな森林分類器とMobileNetを用いて実験した。

We consider the problem of classification with a (peer-to-peer) network of heterogeneous and partially informative agents, each receiving local data generated by an underlying true class, and equipped with a classifier that can only distinguish between a subset of the entire set of classes. We propose an iterative algorithm that uses the posterior probabilities of the local classifier and recursively updates each agent's local belief on all the possible classes, based on its local signals and belief information from its neighbors. We then adopt a novel distributed min-rule to update each agent's global belief and enable learning of the true class for all agents. We show that under certain assumptions, the beliefs on the true class converge to one asymptotically almost surely. We provide the asymptotic convergence rate, and demonstrate the performance of our algorithm through simulation with image data and experimented with random forest classifiers and MobileNet.
翻訳日:2024-11-05 16:37:45 公開日:2024-09-30
# JaPOC:Voucherを用いた日本語のOCR補正ベンチマーク

JaPOC: Japanese Post-OCR Correction Benchmark using Vouchers ( http://arxiv.org/abs/2409.19948v1 )

ライセンス: Link先を確認
Masato Fujitake, (参考訳) 本稿では,OCR(Optical Character Recognition)システムにおける日本語母音の誤り訂正手法の有効性をベンチマークで評価する。 自動処理は、請求書の会社名など、スキャンされたヴォーチャーテキストを正しく認識することが不可欠である。 しかし、スタンプなどのノイズのため、完全認識は複雑である。 したがって、誤ったOCR結果を正しく修正することが重要である。 しかし,日本語のOCR誤り訂正ベンチマークは存在せず,その方法が十分に研究されていない。 本研究では,既存サービスによる音声認識の精度を測定し,OCR後補正ベンチマークを開発した。 そこで我々は,言語モデルを用いた誤り訂正のための単純なベースラインを提案し,これらの誤りを効果的に修正できるかどうかを検証した。 実験では,提案した誤り訂正アルゴリズムにより,全体の認識精度が大幅に向上した。

In this paper, we create benchmarks and assess the effectiveness of error correction methods for Japanese vouchers in OCR (Optical Character Recognition) systems. It is essential for automation processing to correctly recognize scanned voucher text, such as the company name on invoices. However, perfect recognition is complex due to the noise, such as stamps. Therefore, it is crucial to correctly rectify erroneous OCR results. However, no publicly available OCR error correction benchmarks for Japanese exist, and methods have not been adequately researched. In this study, we measured text recognition accuracy by existing services on Japanese vouchers and developed a post-OCR correction benchmark. Then, we proposed simple baselines for error correction using language models and verified whether the proposed method could effectively correct these errors. In the experiments, the proposed error correction algorithm significantly improved overall recognition accuracy.
翻訳日:2024-11-05 16:37:45 公開日:2024-09-30
# Versatile Diffusion Plannerのためのタスク非依存事前学習とタスク誘導微調整

Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner ( http://arxiv.org/abs/2409.19949v1 )

ライセンス: Link先を確認
Chenyou Fan, Chenjia Bai, Zhao Shan, Haoran He, Yang Zhang, Zhen Wang, (参考訳) 拡散モデルはマルチタスクの軌跡をモデル化する能力を示した。 しかし、既存のマルチタスクプランナやポリシーは、通常、マルチタスクの模倣によるタスク固有のデモンストレーションや、強化学習(RL)によるポリシー最適化を促進するためにタスク固有の報酬ラベルを必要とする。 これらの課題に対処するために,タスク非依存の準最適軌道を含む大規模劣等データを利用して,特定のタスクに迅速に適応できる汎用拡散プランナを開発することを目的とする。 本稿では, 様々な下流タスクに対して一般化可能な \textbf{D}iffusion \textbf{P}lanner を学習するために, \textbf{S}ub-\textbf{O}ptimalデータを利用する2段階フレームワークである \textbf{SODP} を提案する。 具体的には、事前学習段階において、準最適で広範なデータカバレッジを有するマルチタスク軌道の多目的分布をモデル化することにより、一般的な計画能力を抽出する基礎拡散プランナーを訓練する。 そして、下流タスクに対して、より高いタスク固有リターンを持つアクションシーケンスを生成することを目的とした拡散プランナーを高速に洗練するために、タスク固有リターンを持つRLベースの微調整を採用する。 Meta-World や Adroit などのマルチタスクドメインによる実験結果から,SODP は報酬誘導微調整のための少量のデータのみを用いて最先端の手法より優れていることが示された。

Diffusion models have demonstrated their capabilities in modeling trajectories of multi-tasks. However, existing multi-task planners or policies typically rely on task-specific demonstrations via multi-task imitation, or require task-specific reward labels to facilitate policy optimization via Reinforcement Learning (RL). To address these challenges, we aim to develop a versatile diffusion planner that can leverage large-scale inferior data that contains task-agnostic sub-optimal trajectories, with the ability to fast adapt to specific tasks. In this paper, we propose \textbf{SODP}, a two-stage framework that leverages \textbf{S}ub-\textbf{O}ptimal data to learn a \textbf{D}iffusion \textbf{P}lanner, which is generalizable for various downstream tasks. Specifically, in the pre-training stage, we train a foundation diffusion planner that extracts general planning capabilities by modeling the versatile distribution of multi-task trajectories, which can be sub-optimal and has wide data coverage. Then for downstream tasks, we adopt RL-based fine-tuning with task-specific rewards to fast refine the diffusion planner, which aims to generate action sequences with higher task-specific returns. Experimental results from multi-task domains including Meta-World and Adroit demonstrate that SODP outperforms state-of-the-art methods with only a small amount of data for reward-guided fine-tuning.
翻訳日:2024-11-05 16:37:45 公開日:2024-09-30
# 生涯的人物再同定のための属性・テキスト案内手形補償

Attribute-Text Guided Forgetting Compensation for Lifelong Person Re-Identification ( http://arxiv.org/abs/2409.19954v1 )

ライセンス: Link先を確認
Shiben Liu, Huijie Fan, Qiang Wang, Weihong Ren, Yandong Tang, (参考訳) LReID(Lifelong person re-identification)は、静止しないデータから継続的に学習し、異なる環境の個人をマッチングすることを目的としている。 それぞれのタスクは照明のバリエーションや人物関連の情報(ポーズや衣服など)に影響され、タスクのドメインギャップが生じる。 現在のLReIDメソッドは、タスク固有の知識に注目し、ドメインギャップ内の固有のタスク共有表現を無視し、モデル性能を制限する。 タスクワイズドメインギャップのブリッジは、特にトレーニング中に限られた古いクラスにアクセスする場合、アンチフォッゲッティングと一般化機能を改善するために重要である。 これらの問題に対処するために,LReIDのための属性関連情報と属性関連ローカル表現をテキスト駆動でグローバルに表現するATFCモデルを提案する。 ペア化されたテキストイメージデータがないため、属性テキストジェネレータ(ATG)を設計し、各インスタンスのテキストディスクリプタを動的に生成する。 次に、テキスト誘導集約ネットワーク(TGA)を導入し、各アイデンティティと知識伝達のためのロバストなテキスト駆動グローバル表現を探索する。 さらに,属性関連局所表現を識別する属性補償ネットワーク (ACN) を提案する。 最後に、ドメインギャップを最小限に抑え、知識伝達を達成し、モデル性能を向上させるために、属性鍛造(AF)損失と知識伝達(KT)損失を開発する。 大規模な実験により,ATFC法は既存のLReID法よりも9.0$\%$/7.4$\%$平均mAP/R-1よりも優れた性能を示した。

Lifelong person re-identification (LReID) aims to continuously learn from non-stationary data to match individuals in different environments. Each task is affected by variations in illumination and person-related information (such as pose and clothing), leading to task-wise domain gaps. Current LReID methods focus on task-specific knowledge and ignore intrinsic task-shared representations within domain gaps, limiting model performance. Bridging task-wise domain gaps is crucial for improving anti-forgetting and generalization capabilities, especially when accessing limited old classes during training. To address these issues, we propose a novel attribute-text guided forgetting compensation (ATFC) model, which explores text-driven global representations of identity-related information and attribute-related local representations of identity-free information for LReID. Due to the lack of paired text-image data, we design an attribute-text generator (ATG) to dynamically generate a text descriptor for each instance. We then introduce a text-guided aggregation network (TGA) to explore robust text-driven global representations for each identity and knowledge transfer. Furthermore, we propose an attribute compensation network (ACN) to investigate attribute-related local representations, which distinguish similar identities and bridge domain gaps. Finally, we develop an attribute anti-forgetting (AF) loss and knowledge transfer (KT) loss to minimize domain gaps and achieve knowledge transfer, improving model performance. Extensive experiments demonstrate that our ATFC method achieves superior performance, outperforming existing LReID methods by over 9.0$\%$/7.4$\%$ in average mAP/R-1 on the seen dataset.
翻訳日:2024-11-05 16:37:45 公開日:2024-09-30
# OpenAI o1-miniのジェンダーバイアスの早期レビュー: LLMの高次知能は必ずしもジェンダーバイアスとステレオタイピングの問題を解決するとは限らない

Early review of Gender Bias of OpenAI o1-mini: Higher Intelligence of LLM does not necessarily solve Gender Bias and Stereotyping issues ( http://arxiv.org/abs/2409.19959v1 )

ライセンス: Link先を確認
Rajesh Ranjan, Shailja Gupta, Surya Naranyan Singh, (参考訳) 本稿では,OpenAI o1-miniモデルの初期評価を行い,性別の傾向と偏りを解析した。 本研究は, GPT-4o mini 700人, o1-mini 350人を対象に行った結果, 性格特性や嗜好に関する傾向が改善したにもかかわらず, 有意な性別バイアスが残ることが明らかとなった。 例えば、o1-miniの男子は8.06点、女子は7.88点、非バイナリは7.80点である。 さらに、o1-miniは男性28%にPhDを割り当てたが、女性22.4%、非バイナリ・ペルソナ0%に留まった。 男性ペルソナは69.4%、CEOは62.17%、女性ペルソナは67.97%、61.11%、非バイナリペルソナは65.7%、非バイナリペルソナは58.37%であった。 この分析によって、男性は伝統的なステレオタイプを反映して、エンジニアリング、データ、テクノロジーといった分野にまたがる永続的な性別バイアスが明らかになる。 逆に、デザイン、アート、マーケティングといった分野は女性の存在を強く示し、創造性と女性とのコミュニケーションを結び付ける社会的概念を強化する。 これらの発見は、ジェンダーバイアスを緩和する上で進行中の課題を強調し、AIモデルにおけるすべてのジェンダーの平等な表現を保証するためのさらなる介入の必要性を強化する。

In this paper, we present an early evaluation of the OpenAI o1-mini model, analyzing its performance in gender inclusivity and bias. Our research, conducted on 700 personas 350 from GPT-4o mini and 350 from o1-mini, reveals that despite improvements in inclusivity regarding personality traits and preferences, significant gender biases remain. For instance, o1-mini rated male personas higher in competency, with a score of 8.06, compared to female personas at 7.88 and non-binary personas at 7.80. Additionally, o1-mini assigned PhD roles to 28% of male personas but only 22.4% of females and 0% of non-binary personas. Male personas were also more likely to be perceived as successful founders, at 69.4%, and CEOs, at 62.17%, compared to female personas at 67.97% and 61.11%, and non-binary personas at 65.7% and 58.37%. The analysis reveals persistent gender biases across fields like Engineering, Data, and Technology, where males dominate, reflecting traditional stereotypes. Conversely, fields like Design, Art, and Marketing show a stronger presence of females, reinforcing societal notions that associate creativity and communication with females. These findings highlight ongoing challenges in mitigating gender bias, reinforcing the need for further interventions to ensure equitable representation across all genders in AI models.
翻訳日:2024-11-05 16:37:45 公開日:2024-09-30
# マルチモーダルLLMによる言語間クロスモーダル検索

Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval ( http://arxiv.org/abs/2409.19961v1 )

ライセンス: Link先を確認
Yabing Wang, Le Wang, Qiang Zhou, Zhibin Wang, Hao Li, Gang Hua, Wei Tang, (参考訳) 言語間クロスモーダル検索(CCR)は、トレーニング中に人ラベルのクロスモーダルデータペアに頼ることなく、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。 1つの一般的なアプローチは、機械翻訳(MT)を使用して擬似並列データペアを作成し、視覚と非英語のテキストデータとの対応を確立することである。 しかし、それらの表現の整列は、視覚とテキストの間に大きな意味的ギャップがあり、事前訓練されたエンコーダとデータノイズによって引き起こされる非英語表現の質が低いため、課題となる。 これらの課題を克服するために,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションであるLECCRを提案し,視覚的表現と非英語表現の整合性を改善する。 具体的には、まずMLLMを使用して視覚的コンテンツ記述を詳細に生成し、それらを多視点セマンティックスロットに集約し、異なるセマンティックスをカプセル化する。 次に、これらのセマンティックスロットを内部的特徴として、視覚的特徴と相互作用するために活用する。 これにより、視覚的特徴のセマンティック情報を強化し、モダリティ間のセマンティックなギャップを狭め、その後のマルチレベルマッチングのための局所的な視覚的セマンティックスを生成する。 さらに、視覚的特徴と非英語的特徴のアライメントをさらに強化するために、英語指導の下で軟化マッチングを導入する。 このアプローチは、視覚的特徴と非英語的特徴のより包括的で信頼性の高いモーダル間対応を提供する。 提案手法の有効性を実証するために,4つのCCRベンチマーク(Shaie Multi30K, MSCOCO, VATEX, MSR-VTT-CN)の大規模な実験を行った。 コード: \url{https://github.com/LiJiaBei-7/leccr}

Cross-lingual cross-modal retrieval (CCR) aims to retrieve visually relevant content based on non-English queries, without relying on human-labeled cross-modal data pairs during training. One popular approach involves utilizing machine translation (MT) to create pseudo-parallel data pairs, establishing correspondence between visual and non-English textual data. However, aligning their representations poses challenges due to the significant semantic gap between vision and text, as well as the lower quality of non-English representations caused by pre-trained encoders and data noise. To overcome these challenges, we propose LECCR, a novel solution that incorporates the multi-modal large language model (MLLM) to improve the alignment between visual and non-English representations. Specifically, we first employ MLLM to generate detailed visual content descriptions and aggregate them into multi-view semantic slots that encapsulate different semantics. Then, we take these semantic slots as internal features and leverage them to interact with the visual features. By doing so, we enhance the semantic information within the visual features, narrowing the semantic gap between modalities and generating local visual semantics for subsequent multi-level matching. Additionally, to further enhance the alignment between visual and non-English features, we introduce softened matching under English guidance. This approach provides more comprehensive and reliable inter-modal correspondences between visual and non-English features. Extensive experiments on four CCR benchmarks, \ie Multi30K, MSCOCO, VATEX, and MSR-VTT-CN, demonstrate the effectiveness of our proposed method. Code: \url{https://github.com/LiJiaBei-7/leccr}.
翻訳日:2024-11-05 16:37:45 公開日:2024-09-30
# 牛涙画像の健康状態分類のための自己注意残差畳み込みニューラルネットワーク

A Self-attention Residual Convolutional Neural Network for Health Condition Classification of Cow Teat Images ( http://arxiv.org/abs/2409.19963v1 )

ライセンス: Link先を確認
Minghao Wang, (参考訳) 乳はアメリカ人にとって非常に重要な消費者であり、牛の乳房の健康は乳の質に直接影響を及ぼす。 伝統的に、獣医は、乳牛の乳牛の乳牛の健康評価の正確さを弱めるため、乳牛の乳牛の期間に限られる乳牛の過角化を視覚的に検査することで、乳牛の健康を手動で評価した。 畳み込みニューラルネットワーク(CNN)は、牛のティートエンド健康評価に用いられている。 しかし、複雑な環境、牛のティートの位置や姿勢の変化、画像から牛のティートを特定するのが困難であるなど、牛のティートエンドヘルスアセスメントにCNNを使うことには課題がある。 これらの課題に対処するため,本研究では, 乳牛の乳牛の乳牛の健康評価において, 乳牛の乳牛の乳牛の健康度をデジタル画像を用いて分類することにより, 乳牛の乳牛の乳牛の乳牛の健康度評価を支援するために, 乳牛の乳牛の乳牛の自己保持残留性畳み込みニューラルネットワーク(CTSAR-CNN)モデルを提案する。 その結果,CTSAR-CNNの持続接続性と自己保持機構を統合することにより,CTSAR-CNNの精度が向上した。 この研究は、CTSAR-CNNが、獣医が牛の乳牛の健康状態を評価し、最終的に乳製品産業に利益をもたらすのを助けるために、より適応的で迅速であることを示している。

Milk is a highly important consumer for Americans and the health of the cows' teats directly affects the quality of the milk. Traditionally, veterinarians manually assessed teat health by visually inspecting teat-end hyperkeratosis during the milking process which is limited in time, usually only tens of seconds, and weakens the accuracy of the health assessment of cows' teats. Convolutional neural networks (CNNs) have been used for cows' teat-end health assessment. However, there are challenges in using CNNs for cows' teat-end health assessment, such as complex environments, changing positions and postures of cows' teats, and difficulty in identifying cows' teats from images. To address these challenges, this paper proposes a cows' teats self-attention residual convolutional neural network (CTSAR-CNN) model that combines residual connectivity and self-attention mechanisms to assist commercial farms in the health assessment of cows' teats by classifying the magnitude of teat-end hyperkeratosis using digital images. The results showed that upon integrating residual connectivity and self-attention mechanisms, the accuracy of CTSAR-CNN has been improved. This research illustrates that CTSAR-CNN can be more adaptable and speedy to assist veterinarians in assessing the health of cows' teats and ultimately benefit the dairy industry.
翻訳日:2024-11-05 16:37:45 公開日:2024-09-30
# プロプライバシー強化型フェデレーション・ラーニング」へのコメント

Comments on "Privacy-Enhanced Federated Learning Against Poisoning Adversaries" ( http://arxiv.org/abs/2409.19964v1 )

ライセンス: Link先を確認
Thomas Schneider, Ajith Suresh, Hossein Yalame, (参考訳) 2021年8月、Liu et al(IEEE TIFS'21)はPEFLというプライバシー強化フレームワークを提案した。 本稿では,PEFLがプライバシを保護していないことを示す。 特に、PEFLは、すべてのユーザの勾配ベクトル全体を、参加するエンティティの1つに明確に公開し、それによってプライバシーを侵害する。 さらに,この問題の即時修正は,提案システムにおける複数の欠陥を指摘することによって,プライバシの達成にはまだ不十分であることを示す。 注: 第2節で言及されているプライバシー問題は2023年1月に公表されている(Schneider et al , IEEE TIFS'23)が、その後のいくつかの論文では、Liu et al (IEEE TIFS'21) を民間の連邦学習の潜在的な解決策として言及し続けている。 いくつかの研究は、私たちが提起したプライバシー上の懸念を認めていますが、その後のいくつかの研究は、これらのエラーを広めるか、Liu et al (IEEE TIFS'21) による構築を採用し、故意に同じプライバシー上の脆弱性を継承します。 この監視は、TIFS'23(Schneider et al , IEEE TIFS'23)での私たちのコメント論文の可視性に一部原因があると考えています。 その結果, Liu et al (IEEE TIFS'21) における欠陥のあるアルゴリズムの今後の研究への継続的な伝播を防止するため, 本論文をePrintに掲載した。

In August 2021, Liu et al. (IEEE TIFS'21) proposed a privacy-enhanced framework named PEFL to efficiently detect poisoning behaviours in Federated Learning (FL) using homomorphic encryption. In this article, we show that PEFL does not preserve privacy. In particular, we illustrate that PEFL reveals the entire gradient vector of all users in clear to one of the participating entities, thereby violating privacy. Furthermore, we clearly show that an immediate fix for this issue is still insufficient to achieve privacy by pointing out multiple flaws in the proposed system. Note: Although our privacy issues mentioned in Section II have been published in January 2023 (Schneider et. al., IEEE TIFS'23), several subsequent papers continued to reference Liu et al. (IEEE TIFS'21) as a potential solution for private federated learning. While a few works have acknowledged the privacy concerns we raised, several of subsequent works either propagate these errors or adopt the constructions from Liu et al. (IEEE TIFS'21), thereby unintentionally inheriting the same privacy vulnerabilities. We believe this oversight is partly due to the limited visibility of our comments paper at TIFS'23 (Schneider et. al., IEEE TIFS'23). Consequently, to prevent the continued propagation of the flawed algorithms in Liu et al. (IEEE TIFS'21) into future research, we also put this article to an ePrint.
翻訳日:2024-11-05 16:37:45 公開日:2024-09-30
# マグネット:テキストと画像の拡散モデルがどのように機能するかは、視覚言語モデルがどのように機能するかを学習するまでは、私たちは決して知らない

Magnet: We Never Know How Text-to-Image Diffusion Models Work, Until We Learn How Vision-Language Models Function ( http://arxiv.org/abs/2409.19967v1 )

ライセンス: Link先を確認
Chenyi Zhuang, Ying Hu, Pan Gao, (参考訳) テキストから画像への拡散モデル、特に安定拡散はコンピュータビジョンの分野に革命をもたらした。 しかし、複数の属性やオブジェクトを含む複雑なプロンプトを忠実に表現する画像を生成するように要求されると、合成品質は劣化することが多い。 以前の研究では、ブレンドされたテキストの埋め込みが不適切な属性の結合を引き起こすことを示唆していたが、これについて深く研究する者は少ない。 本研究では,CLIPテキストエンコーダの属性理解における限界を批判的に検討し,それが拡散モデルに与える影響について検討する。 テキスト空間における属性バイアスの現象を識別し、異なる概念を絡ませる埋め込みにおける文脈的問題を明らかにする。 本稿では,属性結合問題に対処するための新しいトレーニング不要なアプローチである「textbf{Magnet}」を提案する。 さらに, 正および負の結合ベクトルを導入して, 絡み合いを高めるとともに, 精度を高めるための隣の戦略も導入する。 広範な実験により、マグネットは合成品質と結合精度を無視できる計算コストで大幅に改善し、非伝統的な概念と非自然な概念を創出できることが示されている。

Text-to-image diffusion models particularly Stable Diffusion, have revolutionized the field of computer vision. However, the synthesis quality often deteriorates when asked to generate images that faithfully represent complex prompts involving multiple attributes and objects. While previous studies suggest that blended text embeddings lead to improper attribute binding, few have explored this in depth. In this work, we critically examine the limitations of the CLIP text encoder in understanding attributes and investigate how this affects diffusion models. We discern a phenomenon of attribute bias in the text space and highlight a contextual issue in padding embeddings that entangle different concepts. We propose \textbf{Magnet}, a novel training-free approach to tackle the attribute binding problem. We introduce positive and negative binding vectors to enhance disentanglement, further with a neighbor strategy to increase accuracy. Extensive experiments show that Magnet significantly improves synthesis quality and binding accuracy with negligible computational cost, enabling the generation of unconventional and unnatural concepts.
翻訳日:2024-11-05 16:37:45 公開日:2024-09-30
# パラメトリック超伝導共振器を用いた臨界強度量子センシング

Criticality-Enhanced Quantum Sensing with a Parametric Superconducting Resonator ( http://arxiv.org/abs/2409.19968v1 )

ライセンス: Link先を確認
Guillaume Beaulieu, Fabrizio Minganti, Simone Frasca, Marco Scigliuzzo, Simone Felicetti, Roberto Di Candia, Pasquale Scarlino, (参考訳) 量子力学は量子技術の基盤であり、パラメータ推定タスクにおける古典的プロトコルよりも高い精度を達成するために絡み合いと重ね合わせを利用する。 相転移などの臨界現象と組み合わせると、量子ゆらぎのばらつきが予測され、量子センサの性能が向上する。 ここでは超伝導パラメトリック(すなわち2光子駆動)Kerr共振器を用いた臨界量子センサを実装する。 超予測量子干渉装置で終端する線形共振器であるセンサは、系のパラメータをスケーリングして得られる有限成分二階散逸相転移の臨界点付近で作動する。 本稿では,周波数推定プロトコルの性能を分析し,Kerr非線形性の有限値を用いて,システムサイズに対する2次精度スケーリングを実現することを示す。 キャビティから放出される各光子は、従来のものと比べ、推定されるパラメータに関するより多くの情報を持っているため、我々のプロトコルはより高速またはより正確な気象プロトコルに対する視点を開放する。 本研究は, 有限成分相転移を利用することにより, 検出プロトコルにおける量子優位性を実現することができることを示す。

Quantum metrology, a cornerstone of quantum technologies, exploits entanglement and superposition to achieve higher precision than classical protocols in parameter estimation tasks. When combined with critical phenomena such as phase transitions, the divergence of quantum fluctuations is predicted to enhance the performance of quantum sensors. Here, we implement a critical quantum sensor using a superconducting parametric (i.e., two-photon driven) Kerr resonator. The sensor, a linear resonator terminated by a supercondicting quantum interference device, operates near the critical point of a finite-component second-order dissipative phase transition obtained by scaling the system parameters. We analyze the performance of a frequency-estimation protocol and show that quadratic precision scaling with respect to the system size can be achieved with finite values of the Kerr nonlinearity. Since each photon emitted from the cavity carries more information about the parameter to be estimated compared to its classical counterpart, our protocol opens perspectives for faster or more precise metrological protocols. Our results demonstrate that quantum advantage in a sensing protocol can be achieved by exploiting a finite-component phase transition.
翻訳日:2024-11-05 16:27:46 公開日:2024-09-30
# DAOcc:3次元動作予測のためのマルチセンサフュージョンによる3次元物体検出

DAOcc: 3D Object Detection Assisted Multi-Sensor Fusion for 3D Occupancy Prediction ( http://arxiv.org/abs/2409.19972v1 )

ライセンス: Link先を確認
Zhen Yang, Yanpeng Dong, Heng Wang, (参考訳) マルチセンサー融合は、自律運転とロボット工学にとって重要な3Dセマンティック占有率予測の精度と堅牢性を大幅に向上させる。 しかし、既存のアプローチは高い画像解像度と複雑なネットワークに依存してトップパフォーマンスを実現し、現実的なシナリオにおけるアプリケーションの障害となる。 さらに、ほとんどのマルチセンサーフュージョンアプローチは、これらの特徴に対する監督戦略の探索を見越しながら、融合機能の改善に焦点を当てている。 DAOccは,3次元物体検出監視を利用して,配置に適した画像特徴抽出ネットワークと実用的な入力画像解像度を用いて,優れた性能を実現する。 さらに,画像解像度の低下による悪影響を軽減するため,BEVビューレンジ拡張戦略を導入する。 その結果,Occ3D-nuScenesとSurroundOccのデータセットに対して,ResNet50と256x704の入力画像解像度を用いて,最新の結果が得られた。 コードはhttps://github.com/AlphaPlusTT/DAOcc.comで公開される。

Multi-sensor fusion significantly enhances the accuracy and robustness of 3D semantic occupancy prediction, which is crucial for autonomous driving and robotics. However, existing approaches depend on large image resolutions and complex networks to achieve top performance, hindering their application in practical scenarios. Additionally, most multi-sensor fusion approaches focus on improving fusion features while overlooking the exploration of supervision strategies for these features. To this end, we propose DAOcc, a novel multi-sensor fusion occupancy network that leverages 3D object detection supervision to assist in achieving superior performance, while using a deployment-friendly image feature extraction network and practical input image resolution. Furthermore, we introduce a BEV View Range Extension strategy to mitigate the adverse effects of reduced image resolution. As a result, our approach achieves new state-of-the-art results on the Occ3D-nuScenes and SurroundOcc datasets, using ResNet50 and a 256x704 input image resolution. Code will be made available at https://github.com/AlphaPlusTT/DAOcc.
翻訳日:2024-11-05 16:27:46 公開日:2024-09-30
# 逆サンプル転送によるマルチタスク帯域タスクの近接的類似性の爆発

Exploiting Adjacent Similarity in Multi-Armed Bandit Tasks via Transfer of Reward Samples ( http://arxiv.org/abs/2409.19975v1 )

ライセンス: Link先を確認
NR Rahul, Vaibhav Katewa, (参考訳) Kアームを用いた確率的マルチタスクバンディットとして各タスクをモデル化する逐次マルチタスク問題を考える。 2つの連続するタスクに対する腕の平均報酬の差がパラメータによって制限されるという意味で、バンドイットタスクは隣接して類似していると仮定する。 UCBに基づく2つのアルゴリズムを提案し、全てのタスクの全体的な後悔を改善するために、前のタスクからの報酬サンプルを転送する。 分析の結果, 転送サンプルは移動しない場合と比較して, 後悔を軽減できることがわかった。 提案アルゴリズムは,トランスファーを伴わない標準 UCB アルゴリズムとナイーブ転送アルゴリズムの性能向上を示す。

We consider a sequential multi-task problem, where each task is modeled as the stochastic multi-armed bandit with K arms. We assume the bandit tasks are adjacently similar in the sense that the difference between the mean rewards of the arms for any two consecutive tasks is bounded by a parameter. We propose two algorithms (one assumes the parameter is known while the other does not) based on UCB to transfer reward samples from preceding tasks to improve the overall regret across all tasks. Our analysis shows that transferring samples reduces the regret as compared to the case of no transfer. We provide empirical results for our algorithms, which show performance improvement over the standard UCB algorithm without transfer and a naive transfer algorithm.
翻訳日:2024-11-05 16:27:46 公開日:2024-09-30
# 深層並列ニューラル演算子を用いた部分微分方程式の学習

Learning Partial Differential Equations with Deep Parallel Neural Operators ( http://arxiv.org/abs/2409.19976v1 )

ライセンス: Link先を確認
Qinglong Ma, Peizhi Zhao, Sen Wang, Tao Song, (参考訳) 近年、偏微分方程式の解法は、従来のニューラルネットワーク研究の焦点を有限次元ユークリッド空間から一般化汎函数空間へとシフトしている。 新たな手法は、出力間のマッピングを近似する手段として演算子を学ぶことである。 現在、研究者は様々なオペレーターアーキテクチャを提案している。 それでも、これらのアーキテクチャの大部分は反復的な更新アーキテクチャを採用しており、単一のオペレータは同じ関数空間から学習される。 物理科学の実践的な問題では、偏微分方程式の数値解は複雑であり、シリアル単一作用素は入力と出力の間の複雑な写像を正確に近似することはできない。 そこで本研究では,偏微分方程式の解法を効率よく,正確に解くためのDep parallel operator model (DPNO)を提案する。 DPNOは畳み込みニューラルネットワークを用いて局所的な特徴を抽出し、データを異なる潜在空間にマップする。 反復誤差問題を解決するために2重フーリエニューラル演算子の並列ブロックを設計する。 DPNOは、異なるポテンシャル空間における複数の演算子を並列ブロックで学習することで、入力と出力の間の複素写像を近似する。 DPNOは5つのデータセットで最高のパフォーマンスを達成し、平均10.5\%の改善を達成し、1つのデータセットで2位にランクインした。

In recent years, Solving partial differential equations has shifted the focus of traditional neural network studies from finite-dimensional Euclidean spaces to generalized functional spaces in research. A novel methodology is to learn an operator as a means of approximating the mapping between outputs. Currently, researchers have proposed a variety of operator architectures. Nevertheless, the majority of these architectures adopt an iterative update architecture, whereby a single operator is learned from the same function space. In practical physical science problems, the numerical solutions of partial differential equations are complex, and a serial single operator is unable to accurately approximate the intricate mapping between input and output. So, We propose a deep parallel operator model (DPNO) for efficiently and accurately solving partial differential equations. DPNO employs convolutional neural networks to extract local features and map data into distinct latent spaces. Designing a parallel block of double Fourier neural operators to solve the iterative error problem. DPNO approximates complex mappings between inputs and outputs by learning multiple operators in different potential spaces in parallel blocks. DPNO achieved the best performance on five of them, with an average improvement of 10.5\%, and ranked second on one dataset.
翻訳日:2024-11-05 16:27:46 公開日:2024-09-30
# フローの正規化による知識グラフ埋め込み

Knowledge Graph Embedding by Normalizing Flows ( http://arxiv.org/abs/2409.19977v1 )

ライセンス: Link先を確認
Changyi Xiao, Xiangnan He, Yixin Cao, (参考訳) 知識グラフ埋め込み(KGE)の鍵は、適切な表現空間、例えば、点右ユークリッド空間と複素ベクトル空間を選択することである。 本稿では、グループ理論の観点から、KGEへの埋め込みの統一的な視点を提案し、不確実性を導入する。 我々のモデルは、既存のモデル(一般性)を取り入れ、計算がトラクタブルであること(すなわち効率性)を保証し、複雑な確率変数(すなわち表現性)の表現力を楽しむことができる。 中心となる考え方は、実体/関係を対称群の要素、すなわち集合の置換として埋め込むことである。 異なる集合の置換は埋め込みの異なる性質を反映することができる。 また、対称群の群演算は計算が容易である。 具体的には、多くの既存のモデル、点ベクトルの埋め込みが対称群の要素として見ることができることを示す。 不確かさを反映するために、まずランダム変数の集合の置換としてエンティティ/リレーションを埋め込む。 置換は、単純な確率変数をより表現力のある複素確率変数に変換することができ、正規化フローと呼ばれる。 次に、2つの正規化フロー、すなわち NFE の類似度を測定することでスコアリング関数を定義する。 いくつかのインスタンス化モデルを構築し、論理ルールを学習できることを証明する。 実験の結果,不確実性の導入の有効性とモデルの有効性が示された。 コードはhttps://github.com/changyi7231/NFEで公開されている。

A key to knowledge graph embedding (KGE) is to choose a proper representation space, e.g., point-wise Euclidean space and complex vector space. In this paper, we propose a unified perspective of embedding and introduce uncertainty into KGE from the view of group theory. Our model can incorporate existing models (i.e., generality), ensure the computation is tractable (i.e., efficiency) and enjoy the expressive power of complex random variables (i.e., expressiveness). The core idea is that we embed entities/relations as elements of a symmetric group, i.e., permutations of a set. Permutations of different sets can reflect different properties of embedding. And the group operation of symmetric groups is easy to compute. In specific, we show that the embedding of many existing models, point vectors, can be seen as elements of a symmetric group. To reflect uncertainty, we first embed entities/relations as permutations of a set of random variables. A permutation can transform a simple random variable into a complex random variable for greater expressiveness, called a normalizing flow. We then define scoring functions by measuring the similarity of two normalizing flows, namely NFE. We construct several instantiating models and prove that they are able to learn logical rules. Experimental results demonstrate the effectiveness of introducing uncertainty and our model. The code is available at https://github.com/changyi7231/NFE.
翻訳日:2024-11-05 16:27:46 公開日:2024-09-30
# Violina: 線形時間不変な非マルコフダイナミクスの様々な軌跡同定

Violina: Various-of-trajectories Identification of Linear Time-invariant Non-Markovian Dynamics ( http://arxiv.org/abs/2409.19978v1 )

ライセンス: Link先を確認
Ryoji Anzaki, Kazuhiro Sato, (参考訳) 線形時間不変な非マルコフ力学の様々な軌跡を同定するシステム同定手法であるViolinaを提案する。 In the Violina framework, we optimization the coefficient matrices of state-space model and memory kernel in the given space using a projected gradient descent method that its model prediction between the set of multiple observed data。 Violinaを用いることで、モデルパラメータとメモリ効果に関する事前知識に対応する制約を持つ線形非マルコフ力学系を特定できる。 合成データを用いて,提案手法により同定されたマルコフ状態空間モデルと非マルコフ状態空間モデルが,既存の動的分解法で同定されたモデルと比較して,かなり優れた一般化性能を有することを示す。

We propose a new system identification method Violina (various-of-trajectories identification of linear time-invariant non-Markovian dynamics). In the Violina framework, we optimize the coefficient matrices of state-space model and memory kernel in the given space using a projected gradient descent method so that its model prediction matches the set of multiple observed data. Using Violina we can identify a linear non-Markovian dynamical system with constraints corresponding to a priori knowledge on the model parameters and memory effects. Using synthetic data, we numerically demonstrate that the Markovian and non-Markovian state-space models identified by the proposed method have considerably better generalization performances compared to the models identified by an existing dynamic decomposition-based method.
翻訳日:2024-11-05 16:27:46 公開日:2024-09-30
# TSdetector : 大腸内視鏡画像検出のための時間空間自己補正協調学習

TSdetector: Temporal-Spatial Self-correction Collaborative Learning for Colonoscopy Video Detection ( http://arxiv.org/abs/2409.19983v1 )

ライセンス: Link先を確認
Kaini Wang, Haolin Wang, Guang-Quan Zhou, Yangang Wang, Ling Yang, Yang Chen, Shuo Li, (参考訳) CNNに基づく物体検出モデルでは, 性能と速度のバランスを保ちながら, ポリープ検出タスクに徐々に利用されてきた。 それにもかかわらず、複雑な大腸内視鏡ビデオシーン内のポリプの正確な配置は、既存の方法では、配列内分布の不均一性と精度信頼の相違という2つの主要な問題を無視しているため、依然として困難である。 これらの課題に対処するために、時間レベルの整合性学習と空間レベルの信頼性学習を統合してオブジェクトを連続的に検出する新しい時間空間自己補正検出器(TSdetector)を提案する。 技術的には、まずグローバルな時相対応の畳み込みを提案し、前報を組み立て、現在の畳み込みカーネルを動的に誘導し、シーケンス間のグローバルな特徴に焦点を当てる。 さらに,階層的な待ち行列統合機構を設計し,時系列依存性の維持とともにコンテキスト整合性情報を完全に活用する。 一方、空間レベルでは、位置認識クラスタリングを推進し、予測信頼度を適応的に補正する候補ボックス間の空間関係を探索し、冗長な境界ボックスを効率的に除去する。 公開された3つのポリプビデオデータセットの実験結果は、TSdetectorが最も高いポリプ検出率を達成し、他の最先端手法よりも優れていることを示している。 コードはhttps://github.com/soleilssss/TSdetector.comで入手できる。

CNN-based object detection models that strike a balance between performance and speed have been gradually used in polyp detection tasks. Nevertheless, accurately locating polyps within complex colonoscopy video scenes remains challenging since existing methods ignore two key issues: intra-sequence distribution heterogeneity and precision-confidence discrepancy. To address these challenges, we propose a novel Temporal-Spatial self-correction detector (TSdetector), which first integrates temporal-level consistency learning and spatial-level reliability learning to detect objects continuously. Technically, we first propose a global temporal-aware convolution, assembling the preceding information to dynamically guide the current convolution kernel to focus on global features between sequences. In addition, we designed a hierarchical queue integration mechanism to combine multi-temporal features through a progressive accumulation manner, fully leveraging contextual consistency information together with retaining long-sequence-dependency features. Meanwhile, at the spatial level, we advance a position-aware clustering to explore the spatial relationships among candidate boxes for recalibrating prediction confidence adaptively, thus eliminating redundant bounding boxes efficiently. The experimental results on three publicly available polyp video dataset show that TSdetector achieves the highest polyp detection rate and outperforms other state-of-the-art methods. The code can be available at https://github.com/soleilssss/TSdetector.
翻訳日:2024-11-05 16:27:46 公開日:2024-09-30
# CONTESTS: 言語モデルにおけるスパン確率の一貫性テストのためのフレームワーク

CONTESTS: a Framework for Consistency Testing of Span Probabilities in Language Models ( http://arxiv.org/abs/2409.19984v1 )

ライセンス: Link先を確認
Eitan Wagner, Yuli Slavutsky, Omri Abend, (参考訳) 言語モデルスコアは確率として扱われることが多いが、確率推定器としての信頼性は、主にキャリブレーションを通じて他の側面を見渡して研究されている。 特に、単語スパンに関節確率を割り当てる異なる方法で、言語モデルが同じ値を生成するかどうかは不明である。 我々の研究はConTestS(Consistency Testing over Spans)という新しいフレームワークを導入し、交換可能な完了順序と条件付き順序でスコアの一貫性を評価する統計的テストを含む。 我々は,訓練効果を排除するために,ポストリリース後の実データと合成データについて実験を行った。 以上の結果から,Masked Language Models (MLMs) と Autoregressive Model の両者は一致しない予測を示し,自己回帰モデルはより大きな相違を示すことがわかった。 より大きなMLMはより一貫性のある予測を生成する傾向があり、一方自己回帰モデルは反対の傾向を示す。 さらに、両方のモデルタイプに対して、予測エントロピーは真の単語スパンの可能性についての洞察を与え、したがって最適な復号戦略を選択するのに役立つ。 我々の分析で明らかになった矛盾や、予測エントロピーとの関係、モデルタイプの違いは、これらの制限に対処するための将来の研究のガイドとして役立つ。

Although language model scores are often treated as probabilities, their reliability as probability estimators has mainly been studied through calibration, overlooking other aspects. In particular, it is unclear whether language models produce the same value for different ways of assigning joint probabilities to word spans. Our work introduces a novel framework, ConTestS (Consistency Testing over Spans), involving statistical tests to assess score consistency across interchangeable completion and conditioning orders. We conduct experiments on post-release real and synthetic data to eliminate training effects. Our findings reveal that both Masked Language Models (MLMs) and autoregressive models exhibit inconsistent predictions, with autoregressive models showing larger discrepancies. Larger MLMs tend to produce more consistent predictions, while autoregressive models show the opposite trend. Moreover, for both model types, prediction entropies offer insights into the true word span likelihood and therefore can aid in selecting optimal decoding strategies. The inconsistencies revealed by our analysis, as well their connection to prediction entropies and differences between model types, can serve as useful guides for future research on addressing these limitations.
翻訳日:2024-11-05 16:27:46 公開日:2024-09-30
# アップリンク衛星チャンネルによる量子エンタングルメント分布

Quantum Entanglement Distribution via Uplink Satellite Channels ( http://arxiv.org/abs/2409.19985v1 )

ライセンス: Link先を確認
S. Srikara, Hudson Leone, Alexander S. Solnstev, Simon J. Devitt, (参考訳) 宇宙空間で絡み合ったペアを発生し、遠く離れた地上局に分配する量子衛星を開発するための重要な研究がなされている。 地上でペアが生成され、光学ベル測定を用いて衛星に交換される逆アップリンクのケースは、事実上実現不可能な仮定のため、真剣に検討されていない。 本稿では,宇宙空間における離散可変フォトニックベル測定の実現可能性について,詳細な数値解析を行い,様々な衛星局構成のチャネル効率と到達可能なペア忠実度を推定する。 我々のモデルは、大気効果、成層体光子、モードミスマッチのような幅広い物理的効果を考慮に入れている。 本研究は,宇宙空間における光性ベル測定の実現可能性を示すものである。

Significant work has been done to develop quantum satellites, which generate entangled pairs in space and distribute them to ground stations separated some distance away. The reverse uplink case, where pairs are generated on the ground and swapped on the satellite using an optical Bell-measurement, has not been seriously considered due to a prevailing assumption that it is practically infeasible. In this letter, we illustrate the feasibility of performing Discrete Variable photonic Bell-measurements in space by conducting a detailed numerical analysis to estimate the channel efficiency and attainable pair fidelity for various satellite-station configurations. Our model accounts for a wide range of physical effects such as atmospheric effects, stray photons, and mode mismatch. Our findings show promise toward the feasibility of photonic Bell-measurements in space, which motivates future research towards large-scale Satellite-based uplink entanglement distribution.
翻訳日:2024-11-05 16:27:46 公開日:2024-09-30
# プライバシー保護フェデレーション学習におけるランダム二元重みを用いたセキュリティ強化

Enhancing Security Using Random Binary Weights in Privacy-Preserving Federated Learning ( http://arxiv.org/abs/2409.19988v1 )

ライセンス: Link先を確認
Hiroto Sawada, Shoko Imaizumi, Hitoshi Kiya, (参考訳) 本論文では,視覚変換器を用いたプライバシー保護フェデレーション学習におけるセキュリティ向上手法を提案する。 連合学習では、各クライアントから生データを収集することなく更新情報を収集して学習を行う。 しかし、問題は、更新された情報からこの生データを推測することである。 この問題に対処するための従来のデータゲスティング対策(セキュリティ強化手法)は、プライバシ保護強度と学習効率のトレードオフ関係を持ち、一般的にモデル性能を低下させる。 本稿では,モデル性能を劣化させることなく,更新情報に対するデータゲスティング攻撃に対して堅牢なフェデレーション学習手法を提案する。 提案手法では,各クライアントが独立に2進数 (0 または 1) の乱数列を作成し,更新した情報で乗算し,モデル学習のためにサーバに送信する。 実験では,APRIL(Attention PRIvacy Leakage)修復攻撃に対するモデル性能と抵抗性の観点から,提案手法の有効性を確認した。

In this paper, we propose a novel method for enhancing security in privacy-preserving federated learning using the Vision Transformer. In federated learning, learning is performed by collecting updated information without collecting raw data from each client. However, the problem is that this raw data may be inferred from the updated information. Conventional data-guessing countermeasures (security enhancement methods) for addressing this issue have a trade-off relationship between privacy protection strength and learning efficiency, and they generally degrade model performance. In this paper, we propose a novel method of federated learning that does not degrade model performance and that is robust against data-guessing attacks on updated information. In the proposed method, each client independently prepares a sequence of binary (0 or 1) random numbers, multiplies it by the updated information, and sends it to a server for model learning. In experiments, the effectiveness of the proposed method is confirmed in terms of model performance and resistance to the APRIL (Attention PRIvacy Leakage) restoration attack.
翻訳日:2024-11-05 16:18:02 公開日:2024-09-30
# RoCoTex:拡散モデルを用いた連続集合組織合成のためのロバスト手法

RoCoTex: A Robust Method for Consistent Texture Synthesis with Diffusion Models ( http://arxiv.org/abs/2409.19989v1 )

ライセンス: Link先を確認
Jangyeong Kim, Donggoo Kang, Junyoung Choi, Jeonga Wi, Junho Gwon, Jiun Bae, Dumim Yoon, Junghyun Han, (参考訳) テクスチャ・ツー・テクスチャ生成は近年注目されているが、既存の手法では、不整合、明らかな縫い目、テクスチャと基盤となるメッシュ間の不整合といった問題に悩まされることが多い。 本稿では,メッシュに整合した一貫性とシームレスなテクスチャを生成するための頑健なテキスト・テクスチャ・ツー・テクスチャ手法を提案する。 本手法では,SDXLや複数制御ネットなどの最先端2次元拡散モデルを用いて,構造的特徴を捉えるとともに,テクスチャの複雑な詳細を抽出する。 また、対称的なビュー合成戦略と地域的なプロンプトを組み合わせることで、ビューの一貫性を向上させる。 また、新しいテクスチャブレンディングや柔らかい塗布技術を導入し、シーム領域を著しく減らした。 大規模な実験により,本手法は既存の最先端手法よりも優れていることが示された。

Text-to-texture generation has recently attracted increasing attention, but existing methods often suffer from the problems of view inconsistencies, apparent seams, and misalignment between textures and the underlying mesh. In this paper, we propose a robust text-to-texture method for generating consistent and seamless textures that are well aligned with the mesh. Our method leverages state-of-the-art 2D diffusion models, including SDXL and multiple ControlNets, to capture structural features and intricate details in the generated textures. The method also employs a symmetrical view synthesis strategy combined with regional prompts for enhancing view consistency. Additionally, it introduces novel texture blending and soft-inpainting techniques, which significantly reduce the seam regions. Extensive experiments demonstrate that our method outperforms existing state-of-the-art methods.
翻訳日:2024-11-05 16:18:02 公開日:2024-09-30
# 音声対話システムに向けた予測音声認識と終末検出

Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems ( http://arxiv.org/abs/2409.19990v1 )

ライセンス: Link先を確認
Oswald Zink, Yosuke Higuchi, Carlos Mullov, Alexander Waibel, Tetsunori Kobayashi, (参考訳) 効果的な音声対話システムは、人間のコミュニケーションパターンを反映して、迅速でリズミカルなタイミングで自然な対話を促進する必要がある。 応答時間を短縮するため、従来の取り組みでは、自動音声認識(ASR)におけるレイテンシの最小化に重点を置いており、システムの効率を最適化している。 しかしこのアプローチでは、話者が話すまでASRが処理を完了するまで待つ必要があり、これは自然言語処理(NLP)で正確な応答を定式化できる時間を制限する。 人間として、私たちは、相手が話している間も、常に期待し、反応を準備します。 これにより、話すのに最適な時間を欠くことなく、適切に対応できます。 本研究では,人間の予測行動をシミュレートする対話システムに向けた先駆的な研究として,発話の中間部を用いて,次の単語を予測し,発話(EOU)の終了まで残される時間を推定する機能を実現することを目的とする。 そこで本研究では,音声の将来のセグメントをマスキングし,デコーダにマスキングされた音声の単語を予測させるエンコーダ・デコーダ・ベースのASRシステムのトレーニング戦略を提案する。 さらに,音響情報と言語情報を組み合わせてEOUを正確に検出するクロスアテンションに基づくアルゴリズムを開発した。 実験結果は,提案モデルが今後の単語を予測し,将来のEOUイベントを実際のEOUに先立って最大300msまで推定する能力を示した。 さらに、提案したトレーニング戦略は、ASR性能の全般的な改善を示す。

Effective spoken dialog systems should facilitate natural interactions with quick and rhythmic timing, mirroring human communication patterns. To reduce response times, previous efforts have focused on minimizing the latency in automatic speech recognition (ASR) to optimize system efficiency. However, this approach requires waiting for ASR to complete processing until a speaker has finished speaking, which limits the time available for natural language processing (NLP) to formulate accurate responses. As humans, we continuously anticipate and prepare responses even while the other party is still speaking. This allows us to respond appropriately without missing the optimal time to speak. In this work, as a pioneering study toward a conversational system that simulates such human anticipatory behavior, we aim to realize a function that can predict the forthcoming words and estimate the time remaining until the end of an utterance (EOU), using the middle portion of an utterance. To achieve this, we propose a training strategy for an encoder-decoder-based ASR system, which involves masking future segments of an utterance and prompting the decoder to predict the words in the masked audio. Additionally, we develop a cross-attention-based algorithm that incorporates both acoustic and linguistic information to accurately detect the EOU. The experimental results demonstrate the proposed model's ability to predict upcoming words and estimate future EOU events up to 300ms prior to the actual EOU. Moreover, the proposed training strategy exhibits general improvements in ASR performance.
翻訳日:2024-11-05 16:18:02 公開日:2024-09-30
# ロバストなマルチビュー共表現ネットワーク推論

Robust Multi-view Co-expression Network Inference ( http://arxiv.org/abs/2409.19991v1 )

ライセンス: Link先を確認
Teodora Pandeva, Martijs Jonker, Leendert Hamoen, Joris Mooij, Patrick Forré, (参考訳) 研究にまたがって遺伝子を共同発現させることで、細胞プロセスの理解が促進される。 トランスクリプトームデータから遺伝子共発現ネットワークを推定すると、刺激的な遺伝子相関、サンプル相関、バッチ効果など多くの課題が生じる。 これらの複雑さに対処するために、複数の独立研究から高次元グラフ推論のためのロバストな手法を導入する。 我々は、各データセットが本質的に、多変量$t$-distributionとスパース精度行列に従う遺伝子ローディングのノイズの多い線形混合であるという前提に基づいている。 これにより、他のモデルパラメータのスケーリング係数まで、共表現行列を識別できることが示せる。 本手法ではパラメータ推定に期待最大化法を用いる。 合成および遺伝子発現データに対する経験的評価は,基礎となるグラフ構造をベースライン法と比較して学習しやすくなったことを示す。

Unraveling the co-expression of genes across studies enhances the understanding of cellular processes. Inferring gene co-expression networks from transcriptome data presents many challenges, including spurious gene correlations, sample correlations, and batch effects. To address these complexities, we introduce a robust method for high-dimensional graph inference from multiple independent studies. We base our approach on the premise that each dataset is essentially a noisy linear mixture of gene loadings that follow a multivariate $t$-distribution with a sparse precision matrix, which is shared across studies. This allows us to show that we can identify the co-expression matrix up to a scaling factor among other model parameters. Our method employs an Expectation-Maximization procedure for parameter estimation. Empirical evaluation on synthetic and gene expression data demonstrates our method's improved ability to learn the underlying graph structure compared to baseline methods.
翻訳日:2024-11-05 16:18:02 公開日:2024-09-30
# バックドアの脅威を大規模言語モデルに移行する - 進展と課題

Mitigating Backdoor Threats to Large Language Models: Advancement and Challenges ( http://arxiv.org/abs/2409.19993v1 )

ライセンス: Link先を確認
Qin Liu, Wenjie Mo, Terry Tong, Jiashu Xu, Fei Wang, Chaowei Xiao, Muhao Chen, (参考訳) LLM(Large Language Models)の進歩は、Web検索、ヘルスケア、ソフトウェア開発など、さまざまな領域に大きな影響を与えている。 しかし、これらのモデルがスケールするにつれて、サイバーセキュリティのリスク、特にバックドア攻撃に対してより脆弱になる。 LLMの強力な記憶能力を利用することで、一部のトレーニングデータを操作することで、敵はLLMにバックドアを容易に注入することができ、事前に定義されたトリガによって隠れたバックドアが起動されるたびに、下流アプリケーションで悪意ある振る舞いを引き起こす。 さらに、指導チューニングや人間フィードバックからの強化学習(RLHF)といった新たな学習パラダイムは、クラウドソースデータや完全に制御されていない人間のフィードバックに大きく依存するため、これらのリスクを悪化させる。 本稿では, LLM 開発や推測中に出現する LLM に対するバックドア脅威の出現に関する包括的調査と, LLM に対するバックドア脅威を緩和するための防衛・検出戦略の最近の進歩について述べる。 また、これらの脅威に対処する上で重要な課題を概説し、今後の研究の分野を強調します。

The advancement of Large Language Models (LLMs) has significantly impacted various domains, including Web search, healthcare, and software development. However, as these models scale, they become more vulnerable to cybersecurity risks, particularly backdoor attacks. By exploiting the potent memorization capacity of LLMs, adversaries can easily inject backdoors into LLMs by manipulating a small portion of training data, leading to malicious behaviors in downstream applications whenever the hidden backdoor is activated by the pre-defined triggers. Moreover, emerging learning paradigms like instruction tuning and reinforcement learning from human feedback (RLHF) exacerbate these risks as they rely heavily on crowdsourced data and human feedback, which are not fully controlled. In this paper, we present a comprehensive survey of emerging backdoor threats to LLMs that appear during LLM development or inference, and cover recent advancement in both defense and detection strategies for mitigating backdoor threats to LLMs. We also outline key challenges in addressing these threats, highlighting areas for future research.
翻訳日:2024-11-05 16:18:02 公開日:2024-09-30
# 高周波状態における窒素空力中心の制御配列

Control sequences for Nitrogen-Vacancy centers in the high frequency regime ( http://arxiv.org/abs/2409.19994v1 )

ライセンス: Link先を確認
C. Munuera-Javaloy, (参考訳) 近年、量子センシングの分野は、様々な科学分野や技術分野に革命をもたらす可能性から注目が集まっている。 異なる量子センサーの中で、ダイヤモンドの窒素空洞(NV)色中心は、その使いやすさ、レーザーで読み出し初期化できる能力、室温でも長いコヒーレンス時間で目立つ。 過去数年間、近接するスピンクラスター、古典的な交流信号、静磁場などの様々な状況において、NVセンサーの展開に成功するために、多くの量子制御シーケンスが開発されてきた。 しかし、NV中心は高周波信号に結合する際に制限に直面している。 より具体的には、ターゲット信号の周波数が増加するにつれて、NVよりも強い駆動磁場が必要となり、最終的には現在の実験能力の限界に達する。 本稿では,この高周波問題に様々なシナリオで対処するためのプロトコルを提案する。

In recent years, the field of quantum sensing has garnered increasing attention due to its potential to revolutionize various scientific and technological domains. Among the different quantum sensors, the nitrogen-vacancy (NV) color center in diamond stands out for its ease of use, ability to be read out and initialized with a laser, and long coherence times even at room temperature. Over the past years, numerous quantum control sequences have been developed to successfully deploy NV sensors in diverse situations, such as measuring nearby spin clusters, classical AC signals, and static magnetic fields. However, the NV center faces limitations when coupling to high frequency signals. More specifically, as the frequency of the target signal increases, stronger driving fields over NVs are needed, ultimately reaching the limits of current experimental capabilities. In this thesis, we propose several protocols to address this high-frequency problem in different scenarios.
翻訳日:2024-11-05 16:18:02 公開日:2024-09-30
# 影響関数は大規模言語モデルで機能するか?

Do Influence Functions Work on Large Language Models? ( http://arxiv.org/abs/2409.19998v1 )

ライセンス: Link先を確認
Zhe Li, Wei Zhao, Yige Li, Jun Sun, (参考訳) 影響関数は、個々のトレーニングデータポイントがモデルの予測に与える影響を定量化することを目的としている。 従来の機械学習モデルにおける影響関数について広範な研究が行われてきたが、その大規模言語モデル(LLM)への応用は限られている。 本研究では,LLMに作用する影響関数について,重要な問題に対処するための系統的研究を行う。 具体的には、複数のタスクにまたがる影響関数を評価し、ほとんどの設定で一貫して性能が劣っていることを確かめる。 1)LLMのスケールによってiHVP成分を推定する際の避けられない近似誤差,(2)微調整中の不確実な収束,(3)モデルパラメータの変化がLLMの挙動の変化と必ずしも相関しないため,その定義そのものが明確になる。 本研究は,有効なサンプルを同定するための代替アプローチの必要性を示唆するものである。 今後の作業をサポートするため、私たちのコードはhttps://github.com/plumprc/Failures-of-Influence-Functions-in-LLMsで利用可能です。

Influence functions aim to quantify the impact of individual training data points on a model's predictions. While extensive research has been conducted on influence functions in traditional machine learning models, their application to large language models (LLMs) has been limited. In this work, we conduct a systematic study to address a key question: do influence functions work on LLMs? Specifically, we evaluate influence functions across multiple tasks and find that they consistently perform poorly in most settings. Our further investigation reveals that their poor performance can be attributed to: (1) inevitable approximation errors when estimating the iHVP component due to the scale of LLMs, (2) uncertain convergence during fine-tuning, and, more fundamentally, (3) the definition itself, as changes in model parameters do not necessarily correlate with changes in LLM behavior. Our study thus suggests the need for alternative approaches for identifying influential samples. To support future work, our code is made available at https://github.com/plumprc/Failures-of-Influence-Functions-in-LLMs.
翻訳日:2024-11-05 16:18:02 公開日:2024-09-30
# LLMサービングシステムでタイム・サイド・チャンネルを発見

The Early Bird Catches the Leak: Unveiling Timing Side Channels in LLM Serving Systems ( http://arxiv.org/abs/2409.20002v1 )

ライセンス: Link先を確認
Linke Song, Zixuan Pang, Wenhao Wang, Zihao Wang, XiaoFeng Wang, Hongbo Chen, Wei Song, Yier Jin, Dan Meng, Rui Hou, (参考訳) LLM(Large Language Models)の広範な展開により、推論性能の最適化に対する強い要求が生まれている。 この目的を達成する今日のテクニックは、主にレイテンシの削減と、アルゴリズムとハードウェアの強化によるスループットの向上に重点を置いている。 本研究では,LLMシステムにおいて,機密システムプロンプトと他のユーザからの発行の両方を推測するために,共有キャッシュとGPUメモリアロケーションから発生する,新たなタイミング側チャネルのセットを初めて発見した。 これらの脆弱性は、従来のコンピューティングシステムで観測されたセキュリティ上の課題と類似しており、LLMサービスインフラストラクチャの潜在的な情報漏洩に対処する緊急の必要性を強調している。 本稿では,鍵値キャッシュ(KV)とセマンティックキャッシュをターゲットとして,LLMのデプロイメントに固有のタイミング側チャネルを活用するために設計された,新たな攻撃戦略について報告する。 提案手法では,タイミング測定と分類モデルを用いてキャッシュヒットを検出することにより,敵がプライベートプロンプトを高精度に推測することを可能にする。 また,キャッシュ内の共有プロンプトプレフィックスを効率よく回収するトークン・バイ・トークン検索アルゴリズムを提案する。 オンラインLLMサービスのブラックボックステストに関する実験的研究は、このようなプライバシーリスクが完全に現実的であり、重大な結果をもたらすことを実証している。 我々の研究は、LSMシステムを保護するための堅牢な緩和の必要性を浮き彫りにした。

The wide deployment of Large Language Models (LLMs) has given rise to strong demands for optimizing their inference performance. Today's techniques serving this purpose primarily focus on reducing latency and improving throughput through algorithmic and hardware enhancements, while largely overlooking their privacy side effects, particularly in a multi-user environment. In our research, for the first time, we discovered a set of new timing side channels in LLM systems, arising from shared caches and GPU memory allocations, which can be exploited to infer both confidential system prompts and those issued by other users. These vulnerabilities echo security challenges observed in traditional computing systems, highlighting an urgent need to address potential information leakage in LLM serving infrastructures. In this paper, we report novel attack strategies designed to exploit such timing side channels inherent in LLM deployments, specifically targeting the Key-Value (KV) cache and semantic cache widely used to enhance LLM inference performance. Our approach leverages timing measurements and classification models to detect cache hits, allowing an adversary to infer private prompts with high accuracy. We also propose a token-by-token search algorithm to efficiently recover shared prompt prefixes in the caches, showing the feasibility of stealing system prompts and those produced by peer users. Our experimental studies on black-box testing of popular online LLM services demonstrate that such privacy risks are completely realistic, with significant consequences. Our findings underscore the need for robust mitigation to protect LLM systems against such emerging threats.
翻訳日:2024-11-05 16:18:02 公開日:2024-09-30
# 単一顔画像を用いたマルチバイオメトリックス

Multibiometrics Using a Single Face Image ( http://arxiv.org/abs/2409.20003v1 )

ライセンス: Link先を確認
Koichi Ito, Taito Tonosaki, Takafumi Aoki, Tetsushi Ohki, Masakatsu Nishigaki, (参考訳) 個人認証に1つの生体特性を使用するのではなく,複数の生体特性を用いて認識性能を向上させるマルチバイオメトリックスについて検討した。 従来の研究では, 個人で取得した生体特性と, システムの利便性を十分に考慮していないこと, 単一顔画像を用いて, 顔, 虹彩, 周辺眼, 鼻, まぶたの5つの生体特性を組み合わせた, 新規なマルチバイオメトリック手法を提案する。 提案手法は単面画像のみを入力として使用するため,バイオメトリックスの利便性を犠牲にすることなく,CASIAアイリス距離データベースを用いて様々な実験を行い,提案手法の有効性を実証する。

Multibiometrics, which uses multiple biometric traits to improve recognition performance instead of using only one biometric trait to authenticate individuals, has been investigated. Previous studies have combined individually acquired biometric traits or have not fully considered the convenience of the system.Focusing on a single face image, we propose a novel multibiometric method that combines five biometric traits, i.e., face, iris, periocular, nose, eyebrow, that can be extracted from a single face image. The proposed method does not sacrifice the convenience of biometrics since only a single face image is used as input.Through a variety of experiments using the CASIA Iris Distance database, we demonstrate the effectiveness of the proposed multibiometrics method.
翻訳日:2024-11-05 16:18:02 公開日:2024-09-30
# 状態拡張のない数値ロバスト固定点平滑化

Numerically Robust Fixed-Point Smoothing Without State Augmentation ( http://arxiv.org/abs/2409.20004v1 )

ライセンス: Link先を確認
Nicholas Krämer, (参考訳) ガウススムースティングアルゴリズムの実践的な実装は、過去60年間に多くの注目を集めてきた。 しかしながら、ほとんどすべての作業は、Ruch-Tung-Striebelスムーダの変種による完全時系列('fixed-interval smoothing', $\mathcal{O}(K)$ memory)を推定することに焦点を当てており、初期状態('fixed-point smoothing', $\mathcal{O}(1)$ memory)を推定することはほとんどない。 固定点平滑化は、未知の初期条件を持つ力学系におけるアルゴリズムの重要な構成要素であるため、ガウス的不動点平滑化の新しい定式化を導入することにより、このギャップを埋める。 従来のアプローチとは対照的に、我々の視点では、数値的に堅牢なColeskyベースの形式(ダウンタイムなしで)を認め、ステートスペースモデルを不必要に増加させ、固定点スムーズなコードの数値的実用性を低下させる状態拡張を回避する。 実験では、我々のアルゴリズムのJAX実装が、最も高速なメソッドのランタイムと、最も堅牢なテクニックの堅牢性にどのようにマッチするかを示します。

Practical implementations of Gaussian smoothing algorithms have received a great deal of attention in the last 60 years. However, almost all work focuses on estimating complete time series (''fixed-interval smoothing'', $\mathcal{O}(K)$ memory) through variations of the Rauch--Tung--Striebel smoother, rarely on estimating the initial states (''fixed-point smoothing'', $\mathcal{O}(1)$ memory). Since fixed-point smoothing is a crucial component of algorithms for dynamical systems with unknown initial conditions, we close this gap by introducing a new formulation of a Gaussian fixed-point smoother. In contrast to prior approaches, our perspective admits a numerically robust Cholesky-based form (without downdates) and avoids state augmentation, which would needlessly inflate the state-space model and reduce the numerical practicality of any fixed-point smoother code. The experiments demonstrate how a JAX implementation of our algorithm matches the runtime of the fastest methods and the robustness of the most robust techniques while existing implementations must always sacrifice one for the other.
翻訳日:2024-11-05 16:18:02 公開日:2024-09-30
# 時系列分類におけるマルチソース変換学習のためのシェープレットに基づく距離測定を用いたモデル選択

Model Selection with a Shapelet-based Distance Measure for Multi-source Transfer Learning in Time Series Classification ( http://arxiv.org/abs/2409.20005v1 )

ライセンス: Link先を確認
Jiseok Lee, Brian Kenji Iwana, (参考訳) トランスファーラーニングは、ニューラルネットワークをトレーニングするための広範なデータの必要性を軽減する一般的なプラクティスである。 ソースデータセットを使用してモデルを事前トレーニングし、ターゲットタスクのために微調整する。 しかしながら、すべてのソースデータセットがターゲットデータセット、特に時系列に適しているわけではない。 本稿では,時系列分類のための転送学習のための複数のデータセットの選択と利用方法を提案する。 具体的には、ニューラルネットワークを事前学習するための複数のデータセットを1つのソースデータセットとして組み合わせる。 さらに,複数のソースを選択するために,シェープレット発見に基づくデータセットの転送可能性を測定し,効率的なソース選択を行う。 従来のトランスファービリティ対策では,可能な各アーキテクチャのソース選択に必要なすべてのソースを事前学習するのにかなりの時間を要するが,本手法は単一の単純な計算で,可能なすべてのアーキテクチャに対して繰り返し使用することができる。 提案手法を用いて,時系列データセット上での時間畳み込みニューラルネットワーク(CNN)の性能向上が可能であることを示す。

Transfer learning is a common practice that alleviates the need for extensive data to train neural networks. It is performed by pre-training a model using a source dataset and fine-tuning it for a target task. However, not every source dataset is appropriate for each target dataset, especially for time series. In this paper, we propose a novel method of selecting and using multiple datasets for transfer learning for time series classification. Specifically, our method combines multiple datasets as one source dataset for pre-training neural networks. Furthermore, for selecting multiple sources, our method measures the transferability of datasets based on shapelet discovery for effective source selection. While traditional transferability measures require considerable time for pre-training all the possible sources for source selection of each possible architecture, our method can be repeatedly used for every possible architecture with a single simple computation. Using the proposed method, we demonstrate that it is possible to increase the performance of temporal convolutional neural networks (CNN) on time series datasets.
翻訳日:2024-11-05 16:18:02 公開日:2024-09-30
# 音声指導調整データのない指示追従音声モデルの開発

Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data ( http://arxiv.org/abs/2409.20007v1 )

ライセンス: Link先を確認
Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu, Chao-Han Huck Yang, Jagadeesh Balam, Boris Ginsburg, Yu-Chiang Frank Wang, Hung-yi Lee, (参考訳) 最近のエンドツーエンド言語モデル(SLM)は、事前訓練された音声モデルを導入することで、大規模言語モデル(LLM)の能力を拡大している。 しかし、これらのSLMは、音声とテキストのモダリティのギャップを埋めるために、広範に音声の訓練を行うことが多い。 これは重要なアノテーションの努力を必要とし、元の言語機能の破滅的な忘れ込みを危険にさらしている。 本研究では、テキストベースのLLMの言語能力を維持しつつ、音声パラ言語的理解能力を注意深くSLMに注入する、音声テキストペアデータを作成するための、シンプルで効果的な自動処理を提案する。 提案モデルでは,音声教育データを必要としない音声関連タスクの汎用性を実証し,Dynamic-SUPERB と AIR-Bench-Chat ベンチマークで優れた性能を示す。 さらに,本モデルでは,特定の出力形式やチェーン・オブ・シークレット推論など,LLMから派生した複雑な命令に従う能力を示す。 提案手法は,SLMの汎用性と有効性を向上するだけでなく,広範囲な注釈付きデータセットへの依存を低減し,より効率的かつ有能な音声理解システムを実現する。

Recent end-to-end speech language models (SLMs) have expanded upon the capabilities of large language models (LLMs) by incorporating pre-trained speech models. However, these SLMs often undergo extensive speech instruction-tuning to bridge the gap between speech and text modalities. This requires significant annotation efforts and risks catastrophic forgetting of the original language capabilities. In this work, we present a simple yet effective automatic process for creating speech-text pair data that carefully injects speech paralinguistic understanding abilities into SLMs while preserving the inherent language capabilities of the text-based LLM. Our model demonstrates general capabilities for speech-related tasks without the need for speech instruction-tuning data, achieving impressive performance on Dynamic-SUPERB and AIR-Bench-Chat benchmarks. Furthermore, our model exhibits the ability to follow complex instructions derived from LLMs, such as specific output formatting and chain-of-thought reasoning. Our approach not only enhances the versatility and effectiveness of SLMs but also reduces reliance on extensive annotated datasets, paving the way for more efficient and capable speech understanding systems.
翻訳日:2024-11-05 16:18:02 公開日:2024-09-30
# 大規模言語モデルを用いたカスタマイズ情報とドメイン中心知識グラフの構築

Customized Information and Domain-centric Knowledge Graph Construction with Large Language Models ( http://arxiv.org/abs/2409.20010v1 )

ライセンス: Link先を確認
Frank Wawrzik, Matthias Plaue, Savan Vekariya, Christoph Grimm, (参考訳) 本稿では,構造化情報へのタイムリーなアクセス,実用的な技術インテリジェンスの実現,サイバー物理システム計画の改善を目的とした知識グラフに基づく新しいアプローチを提案する。 本フレームワークは,情報検索,キーフレーズ抽出,セマンティックネットワーク生成,トピックマップ可視化などを含むテキストマイニングプロセスを含む。 このデータ探索プロセスの後、我々は、サイバー物理システムに焦点を当てた多目的意思決定のための電子・イノベーションオントロジー支援パイプラインによって支援された選択知識グラフ構築(KGC)アプローチを採用する。 当社の方法論を自動車電気システムの領域に適用して,スケーラブルなアプローチを実証する。 以上の結果から,グラフGPTとバイLSTMおよびトランスフォーマーREBELを,クラス認識,関係構築,正しい「サブクラス」分類において,事前に定義したデータセットで複数回上回る結果が得られた。 さらに、推論アプリケーションの概要と、Wikidataとの比較を行い、アプローチの違いと利点を示す。

In this paper we propose a novel approach based on knowledge graphs to provide timely access to structured information, to enable actionable technology intelligence, and improve cyber-physical systems planning. Our framework encompasses a text mining process, which includes information retrieval, keyphrase extraction, semantic network creation, and topic map visualization. Following this data exploration process, we employ a selective knowledge graph construction (KGC) approach supported by an electronics and innovation ontology-backed pipeline for multi-objective decision-making with a focus on cyber-physical systems. We apply our methodology to the domain of automotive electrical systems to demonstrate the approach, which is scalable. Our results demonstrate that our construction process outperforms GraphGPT as well as our bi-LSTM and transformer REBEL with a pre-defined dataset by several times in terms of class recognition, relationship construction and correct "sublass of" categorization. Additionally, we outline reasoning applications and provide a comparison with Wikidata to show the differences and advantages of the approach.
翻訳日:2024-11-05 16:08:18 公開日:2024-09-30
# 量子プログラムの統計的テストに基づくバグ配置法

Bug-locating Method based on Statistical Testing for Quantum Programs ( http://arxiv.org/abs/2409.20011v1 )

ライセンス: Link先を確認
Naoto Sato, Ryota Katsube, (参考訳) 量子コンピュータ上で量子プログラムをテストすることで、バグが検出された場合、その修正の場所を判断したい。 バグを見つけるために、量子プログラムはいくつかのセグメントに分割され、各セグメントがテストされる。 しかし、セグメントに入力される量子状態を作成するためには、セグメントの前の全てのセグメントを量子コンピュータで実行する必要がある。 これは、各セグメントをテストするコストが、その場所に依存することを意味する。 また、バグのあるセグメントの前にすべてのセグメントにバグがないことが確認された場合にのみ、バグのあるセグメントを見つけることができます。 量子プログラムは測定結果に基づいて統計的にテストされるため、精度とコストのトレードオフがある。 これらの特徴は量子プログラムに特有のものであり、バグの配置を複雑にしている。 本稿では,コストベース二元探索,早期判定,最終化,振り返りという4つの手法による効率的なバグ検出手法を提案する。 提案手法は, 4つの手法を用いない単純手法と比較して, 実行された量子ゲートの数として表されるバグ発見コストを低減できることを示す実験結果を示す。 また,実験結果から,提案手法の限界と有用性についても考察した。

When a bug is detected by testing a quantum program on a quantum computer, we want to determine its location to fix it. To locate the bug, the quantum program is divided into several segments, and each segment is tested. However, to prepare a quantum state that is input to a segment, it is necessary to execute all the segments ahead of that segment in a quantum computer. This means that the cost of testing each segment depends on its location. We can also locate a buggy segment only if it is confirmed that there are no bugs in all segments ahead of that buggy segment. Since a quantum program is tested statistically on the basis of measurement results, there is a tradeoff between testing accuracy and cost. These characteristics are unique to quantum programs and complicate locating bugs. We propose an efficient bug-locating method consisting of four approaches, cost-based binary search, early determination, finalization, and looking back, which take these characteristics into account. We present experimental results that indicate that the proposed method can reduce the bug-locating cost, represented as the number of executed quantum gates, compared to naive methods that do not use the four approaches. The limitation and usefulness of the proposed method are also discussed from the experimental results.
翻訳日:2024-11-05 16:08:18 公開日:2024-09-30
# 量子勾配を用いた量子回路の学習

Learning Parameterized Quantum Circuits with Quantum Gradient ( http://arxiv.org/abs/2409.20044v1 )

ライセンス: Link先を確認
Keren Li, Yuanfeng Wang, Pan Gao, Shenggen Zheng, (参考訳) 量子化量子回路(PQC)は、量子機械学習と回路合成において不可欠であり、複雑な量子タスクの実装を可能にする。 しかし、PQC学習は古典的な最適化手法に限られており、勾配の消失などの問題に悩まされている。 本研究では,多項式型コスト関数に対するPQC学習を強化するために量子勾配を利用するネスト最適化モデルを提案する。 提案手法は量子アルゴリズムを用いて,PQC学習における勾配の消失のタイプを特定し,克服する。 また、モデルのバレンプラトーを緩和し、最適化領域を制限して学習コストを管理する。 数値的には、マックス・カッツ問題と多項式最適化という2つの課題におけるアプローチの実現可能性を示す。 この方法は、勾配が消えることなく回路生成に優れ、コスト関数を効果的に最適化する。 量子アルゴリズムの観点から、我々のモデルは指数的サンプル複雑性成長の課題に対処し、多項式型コスト関数の量子最適化を改善する。

Parameterized quantum circuits (PQCs) are crucial for quantum machine learning and circuit synthesis, enabling the practical implementation of complex quantum tasks. However, PQC learning has been largely confined to classical optimization methods, which suffer from issues like gradient vanishing. In this work, we introduce a nested optimization model that leverages quantum gradient to enhance PQC learning for polynomial-type cost functions. Our approach utilizes quantum algorithms to identify and overcome a type of gradient vanishing-a persistent challenge in PQC learning-by effectively navigating the optimization landscape. We also mitigate potential barren plateaus of our model and manage the learning cost via restricting the optimization region. Numerically, we demonstrate the feasibility of the approach on two tasks: the Max-Cut problem and polynomial optimization. The method excels in generating circuits without gradient vanishing and effectively optimizes the cost function. From the perspective of quantum algorithms, our model improves quantum optimization for polynomial-type cost functions, addressing the challenge of exponential sample complexity growth.
翻訳日:2024-11-05 16:08:18 公開日:2024-09-30
# 確率的に知られたイベントログのTop-K実現度ランキング

Ranking the Top-K Realizations of Stochastically Known Event Logs ( http://arxiv.org/abs/2410.00067v1 )

ライセンス: Link先を確認
Arvid Lepsien, Marco Pegoraro, Frederik Fonger, Dominic Langhammer, Milda Aleknonytė-Resch, Agnes Koschmider, (参考訳) さまざまな不確実性は、例えば、記録の欠陥、データ品質の問題、あるいはアクティビティ認識のための確率モデルの使用によって発生する。 確率的に知られたイベントログは、これらの不確実性を透過的にし、イベントの複数の可能な実現を符号化する。 しかし、確率的に知られたログによって符号化される実現の数は、そのサイズとともに指数関数的に増加するため、中程度のイベントログであっても、徹底的な探索は不可能である。 したがって、最上位のKだけを考えると、この文献では最も可能性の高い実現法が提案されている。 本稿では,O(Kn)内のイベント独立性の下でのイベントログの上位K位を計算し,nはログ内の不確実事象の数である,効率的なアルゴリズムを実装した。 このアルゴリズムは、確率的に知られたイベントログの上位1の解釈よりも上位1のランキングの利点を調べるために用いられる。 具体的には、入力データの異なる特性に対してトップKランキングの有用性を分析する。 トップKランキングの利点は、入力されたイベントログの長さとイベント確率の分布に依存する。 この結果は,不確実性を考慮したプロセスマイニング技術を強化するトップKランキングの可能性を強調した。

Various kinds of uncertainty can occur in event logs, e.g., due to flawed recording, data quality issues, or the use of probabilistic models for activity recognition. Stochastically known event logs make these uncertainties transparent by encoding multiple possible realizations for events. However, the number of realizations encoded by a stochastically known log grows exponentially with its size, making exhaustive exploration infeasible even for moderately sized event logs. Thus, considering only the top-K most probable realizations has been proposed in the literature. In this paper, we implement an efficient algorithm to calculate a top-K realization ranking of an event log under event independence within O(Kn), where n is the number of uncertain events in the log. This algorithm is used to investigate the benefit of top-K rankings over top-1 interpretations of stochastically known event logs. Specifically, we analyze the usefulness of top-K rankings against different properties of the input data. We show that the benefit of a top-K ranking depends on the length of the input event log and the distribution of the event probabilities. The results highlight the potential of top-K rankings to enhance uncertainty-aware process mining techniques.
翻訳日:2024-11-05 15:09:43 公開日:2024-09-30
# 静止状態fMRIに基づく自閉症診断のための特徴量削減パイプラインとしての変分オートエンコーダ

Denoising Variational Autoencoder as a Feature Reduction Pipeline for the diagnosis of Autism based on Resting-state fMRI ( http://arxiv.org/abs/2410.00068v1 )

ライセンス: Link先を確認
Xinyuan Zheng, Orren Ravid, Robert A. J. Barry, Yoojean Kim, Qian Wang, Young-geun Kim, Xi Zhu, Xiaofu He, (参考訳) 自閉症スペクトラム障害(Autism spectrum disorder、ASD)は、発達過程において、制限された関心とコミュニケーションの困難を特徴とする疾患である。 ASDの複雑さは客観的な診断バイオマーカーの欠如をもたらす。 深層学習法は神経画像解析におけるこれらの課題に対処するために認識されているが、そのような診断バイオマーカーの発見と解釈はいまだに計算的に困難である。 本研究では,静止状態fMRI(rs-fMRI)を用いたASD特徴量削減パイプラインを提案する。 我々はNcutsのパーセレーションとPower atlasを使って機能的な接続データを抽出し、3万以上の機能を実現した。 次に、パイプラインはさらに接続性を5つの潜在ガウス分布に圧縮し、DVAE(denoising variational autoencoder)を用いてデータの低次元表現を提供する。 提案手法をテストするために,DVAEから抽出した潜在機能を用いて,大規模マルチサイトデータセット上のサポートベクトルマシン(SVM)などの従来の分類器を用いてASDを分類した。 SVMの予測精度に対する95%信頼区間は, 抽出した潜伏分布を用いたサイト調和後の[0.63, 0.76]である。 DVAEを使用しなければ、予測精度は0.70であり、間隔内に収まる。 このモデルでは, 予測性能を犠牲にすることなく, rs-fMRIデータの診断情報を5つのガウス分布(10特徴)に符号化することができた。 DVAEをトレーニングし、抽出した潜伏特性(37分)から分類結果を得るためのランタイムは、生の接続行列(5~6時間)のトレーニング分類器よりも7倍短かった。 以上の結果から,パワーアトラスは,Ncuts解析よりもASDの診断に有効な脳接続の洞察を提供する可能性が示唆された。 コード化された特徴は、疾患の診断と解釈の助けとなる。

Autism spectrum disorders (ASDs) are developmental conditions characterized by restricted interests and difficulties in communication. The complexity of ASD has resulted in a deficiency of objective diagnostic biomarkers. Deep learning methods have gained recognition for addressing these challenges in neuroimaging analysis, but finding and interpreting such diagnostic biomarkers are still challenging computationally. We propose an ASD feature reduction pipeline using resting-state fMRI (rs-fMRI). We used Ncuts parcellations and Power atlas to extract functional connectivity data, resulting in over 30 thousand features. Then the pipeline further compresses the connectivities into 5 latent Gaussian distributions, providing is a low-dimensional representation of the data, using a denoising variational autoencoder (DVAE). To test the method, we employed the extracted latent features from the DVAE to classify ASD using traditional classifiers such as support vector machine (SVM) on a large multi-site dataset. The 95% confidence interval for the prediction accuracy of the SVM is [0.63, 0.76] after site harmonization using the extracted latent distributions. Without using DVAE, the prediction accuracy is 0.70, which falls within the interval. This implies that the model successfully encodes the diagnostic information in rs-fMRI data to 5 Gaussian distributions (10 features) without sacrificing prediction performance. The runtime for training the DVAE and obtaining classification results from its extracted latent features (37 minutes) was 7 times shorter compared to training classifiers directly on the raw connectivity matrices (5-6 hours). Our findings also suggest that the Power atlas provides more effective brain connectivity insights for diagnosing ASD than Ncuts parcellations. The encoded features can be used for the help of diagnosis and interpretation of the disease.
翻訳日:2024-11-05 15:09:43 公開日:2024-09-30
# 一様集合を伴うASRストリーミング用マンバ

Mamba for Streaming ASR Combined with Unimodal Aggregation ( http://arxiv.org/abs/2410.00070v1 )

ライセンス: Link先を確認
Ying Fang, Xiaofei Li, (参考訳) 本稿では,ストリーミング自動音声認識(ASR)について述べる。 最近提案された状態空間モデルであるMambaは、線形複雑性の利点を生かしながら、様々なタスクでTransformerにマッチまたは超越する能力を実証した。 本研究では,ASRストリーミングにおけるMambaエンコーダの効率性について検討し,制御可能な将来情報を活用するためのルックアヘッド機構を提案する。 さらに、トークンのアクティビティを自動的に検出し、トークン出力をストリーミングトリガーするストリーミングスタイルのユニモーダルアグリゲーション(UMA)手法が実装され、一方、特徴フレームを集約してトークン表現をより良く学習する。 UMAに基づいて、認識遅延をさらに低減するために早期終了(ET)法を提案する。 2つの中国語データセットで行った実験では、認識精度とレイテンシの両方の観点から、提案モデルが競合するASR性能を達成することを示した。

This paper works on streaming automatic speech recognition (ASR). Mamba, a recently proposed state space model, has demonstrated the ability to match or surpass Transformers in various tasks while benefiting from a linear complexity advantage. We explore the efficiency of Mamba encoder for streaming ASR and propose an associated lookahead mechanism for leveraging controllable future information. Additionally, a streaming-style unimodal aggregation (UMA) method is implemented, which automatically detects token activity and streamingly triggers token output, and meanwhile aggregates feature frames for better learning token representation. Based on UMA, an early termination (ET) method is proposed to further reduce recognition latency. Experiments conducted on two Mandarin Chinese datasets demonstrate that the proposed model achieves competitive ASR performance in terms of both recognition accuracy and latency.
翻訳日:2024-11-05 15:09:43 公開日:2024-09-30
# 第22回国際オーバーチュアワークショップに参加して

Proceedings of the 22nd International Overture Workshop ( http://arxiv.org/abs/2410.00071v1 )

ライセンス: Link先を確認
Hugo Daniel Macedo, Ken Pierce, Leo Freitas, (参考訳) この巻は2024年9月10日に開催された第22回国際オーバーチュアワークショップで発表された論文を含んでいる。 このイベントは、オープンソースのプロジェクト Overture と関連するツールとフォーマリズムである Vienna Development Method (VDM) に関する一連のワークショップの最新のものとなった。 VDMは、システム開発のための最も長い公式な方法の1つである。 研究者や実践者の活発なコミュニティがアカデミックで成長し、業界はモデリング言語(VDM-SL、VDM++、VDM-RT、CML)とツール(VDMTools、Overture、Crescendo、Symphony、INTO-CPSチェーン、EenenTalk)を中心に成長してきた。 これらとともに、静的および動的解析、テスト生成、実行サポート、モデルチェックを含むモデリングと分析技術に取り組むためのプラットフォームを提供する。 このワークショップは、コラボレーションインフラストラクチャ、協調モデリング、サイバー物理システムのための共シミュレーションを含む、VDM/Overtureの新しい技術のアップデートを提供した。

This volume contains the papers presented at the 22nd International Overture Workshop, held on the 10th of September 2024. This event was the latest in a series of workshops around the Vienna Development Method (VDM), the open-source project Overture, and related tools and formalisms. VDM is one of the longest established formal methods for systems development. A lively community of researchers and practitioners has grown up in academia and industry has grown around the modelling languages (VDM-SL, VDM++, VDM-RT, CML) and tools (VDMTools, Overture, Crescendo, Symphony, the INTO-CPS chain, and ViennaTalk). Together, these provide a platform for work on modelling and analysis technology that includes static and dynamic analysis, test generation, execution support, and model checking. This workshop provided updates on the emerging technology of VDM/Overture, including collaboration infrastructure, collaborative modelling and co-simulation for Cyber-Physical Systems.
翻訳日:2024-11-05 15:09:43 公開日:2024-09-30
# 学習型ノードコミュニティによる協調的知識蒸留

Collaborative Knowledge Distillation via a Learning-by-Education Node Community ( http://arxiv.org/abs/2410.00074v1 )

ライセンス: Link先を確認
Anestis Kaimakamidis, Ioannis Mademlis, Ioannis Pitas, (参考訳) 多様なデプロイされたディープニューラルネットワーク(DNN)ピアノード間の効果的な知識交換を通じて、継続的な集団学習を容易にする。 これらのDNNは、学生の役割、知識の追求、あるいは教師の役割を動的かつ自律的に採用し、知識を与え、協調的な学習環境を育む。 提案フレームワークは,学習能力を高め,協調を促進するとともに,参加するDNNノード間の効率的な知識伝達を可能にする。 LENCは、多様なトレーニングデータ分散を扱う際の課題と、個々のDNNノード学習能力の制限に対処する。 新たなタスクを学習する上で最高の教師知識を活用できるようにし、DNNノードを破滅的な忘れ物から保護する。 さらに、DNNノードはタスク境界に関する情報を持っていないため、タスク非依存の連続学習の問題に対処しながら、協調的なマルチタスク知識蒸留を可能にすることで革新を行う。 概念実証の実装に関する実験的評価は、複数のDNN学習および推論シナリオにおけるLENCフレームワークの機能とメリットを示している。 実験では,全てのノードの集合的知識を適切に活用することにより,画像分類問題における相互作用するDNNノードのコミュニティの平均的テスト精度を徐々に最大化する能力を示した。 LENCフレームワークは、ラインレスCKDにおける最先端のパフォーマンスを実現する。

A novel Learning-by-Education Node Community framework (LENC) for Collaborative Knowledge Distillation (CKD) is presented, which facilitates continual collective learning through effective knowledge exchanges among diverse deployed Deep Neural Network (DNN) peer nodes. These DNNs dynamically and autonomously adopt either the role of a student, seeking knowledge, or that of a teacher, imparting knowledge, fostering a collaborative learning environment. The proposed framework enables efficient knowledge transfer among participating DNN nodes as needed, while enhancing their learning capabilities and promoting their collaboration. LENC addresses the challenges of handling diverse training data distributions and the limitations of individual DNN node learning abilities. It ensures the exploitation of the best available teacher knowledge upon learning a new task and protects the DNN nodes from catastrophic forgetting. Additionally, it innovates by enabling collaborative multitask knowledge distillation, while addressing the problem of task-agnostic continual learning, as DNN nodes have no information on task boundaries. Experimental evaluation on a proof-of-concept implementation demonstrates the LENC framework's functionalities and benefits across multiple DNN learning and inference scenarios. The conducted experiments showcase its ability to gradually maximize the average test accuracy of the community of interacting DNN nodes in image classification problems, by appropriately leveraging the collective knowledge of all node peers. The LENC framework achieves state-of-the-art performance in on-line unlabelled CKD.
翻訳日:2024-11-05 15:09:43 公開日:2024-09-30
# 干渉の有無を考慮した治療適応の最適化

Optimizing Treatment Allocation in the Presence of Interference ( http://arxiv.org/abs/2410.00075v1 )

ライセンス: Link先を確認
Daan Caljon, Jente Van Belle, Jeroen Berrevoets, Wouter Verbeke, (参考訳) 効果最大化(IM)では、予算が与えられたら、対象とするネットワーク内の最適なエンティティセットを選択して、全体の効果を最大化する。 例えば、マーケティングでは、ターゲットとする顧客に対する直接的な治療効果と、ターゲットとする顧客に対する間接的かつ不正な影響の両方から、全体のレスポンス率を最大化する顧客セットを目標とする。 近年,ネットワーク干渉の有無による治療効果を推定する手法が提案されている。 しかし、これらのモデルをどのように活用してより良い治療割り当て決定を下すかという問題は、ほとんど見過ごされてしまっている。 伝統的に、昇降モデリング(UM)では、エンティティは推定された処理効果に従ってランク付けされ、上位エンティティは処理に割り当てられる。 ネットワークのコンテキストでは、エンティティが互いに影響しあうので、UMランキングのアプローチは最適ではない。 ネットワーク設定における最適処理割り当てを見つける問題は組合せ的であり、概してヒューリスティックに解決する必要がある。 本稿では,IM と UM のギャップを埋めるために OTAPI を提案する。 OTAPIは2つのステップから構成される。 まず、ネットワーク設定における治療効果を予測するために、因果推定器を訓練する。 第二に、この推定器を利用して、古典的IMアルゴリズムに統合することで最適な処理割り当てを特定する。 本手法は,合成データセットと半合成データセットの両方において,古典的IMおよびUMアプローチよりも優れた性能を示す。

In Influence Maximization (IM), the objective is to -- given a budget -- select the optimal set of entities in a network to target with a treatment so as to maximize the total effect. For instance, in marketing, the objective is to target the set of customers that maximizes the total response rate, resulting from both direct treatment effects on targeted customers and indirect, spillover, effects that follow from targeting these customers. Recently, new methods to estimate treatment effects in the presence of network interference have been proposed. However, the issue of how to leverage these models to make better treatment allocation decisions has been largely overlooked. Traditionally, in Uplift Modeling (UM), entities are ranked according to estimated treatment effect, and the top entities are allocated treatment. Since, in a network context, entities influence each other, the UM ranking approach will be suboptimal. The problem of finding the optimal treatment allocation in a network setting is combinatorial and generally has to be solved heuristically. To fill the gap between IM and UM, we propose OTAPI: Optimizing Treatment Allocation in the Presence of Interference to find solutions to the IM problem using treatment effect estimates. OTAPI consists of two steps. First, a causal estimator is trained to predict treatment effects in a network setting. Second, this estimator is leveraged to identify an optimal treatment allocation by integrating it into classic IM algorithms. We demonstrate that this novel method outperforms classic IM and UM approaches on both synthetic and semi-synthetic datasets.
翻訳日:2024-11-05 14:59:58 公開日:2024-09-30
# スペクトルマッチングによるシャッフル線形回帰

Shuffled Linear Regression via Spectral Matching ( http://arxiv.org/abs/2410.00078v1 )

ライセンス: Link先を確認
Hang Liu, Anna Scaglione, (参考訳) シャッフル線形回帰(英: Shuffled linear regression、SLR)は、測定次元の未知の置換によって複雑な線形変換を通じて潜時特徴を推定しようとするものである。 この問題は、従来の最小二乗法(LS)とLast Absolute Shrinkage and Selection Operator(LASSO)アプローチを拡張して、置換を共同で推定し、suffled LSとsuffled LASSOの定式化をもたらす。 既存の手法は、置換回復の組合せ複雑性に制約され、しばしば限られた測定値を持つ小規模なケースに対処する。 対照的に、我々は大規模なSLRに焦点を当てており、特に豊富な測定サンプルを持つ環境に適している。 本稿では, スペクトル成分と特徴共分散を整列させることにより, 置換を効率的に解消するスペクトルマッチング法を提案する。 厳密な理論的解析により,本手法は十分なサンプル数から,シャッフルLSとシャッフルLASSO設定の両方で正確な推定値が得られることを示した。 さらに,画像登録タスクにおける同時ポーズと対応推定へのアプローチを拡張した。 合成データセットと実世界の画像登録シナリオの実験により,提案手法は推定精度と登録性能の両方で既存のアルゴリズムより優れていることが示された。

Shuffled linear regression (SLR) seeks to estimate latent features through a linear transformation, complicated by unknown permutations in the measurement dimensions. This problem extends traditional least-squares (LS) and Least Absolute Shrinkage and Selection Operator (LASSO) approaches by jointly estimating the permutation, resulting in shuffled LS and shuffled LASSO formulations. Existing methods, constrained by the combinatorial complexity of permutation recovery, often address small-scale cases with limited measurements. In contrast, we focus on large-scale SLR, particularly suited for environments with abundant measurement samples. We propose a spectral matching method that efficiently resolves permutations by aligning spectral components of the measurement and feature covariances. Rigorous theoretical analyses demonstrate that our method achieves accurate estimates in both shuffled LS and shuffled LASSO settings, given a sufficient number of samples. Furthermore, we extend our approach to address simultaneous pose and correspondence estimation in image registration tasks. Experiments on synthetic datasets and real-world image registration scenarios show that our method outperforms existing algorithms in both estimation accuracy and registration performance.
翻訳日:2024-11-05 14:59:58 公開日:2024-09-30
# 対話型投機計画:システムとユーザインタフェースの共設計によるエージェント効率向上

Interactive Speculative Planning: Enhance Agent Efficiency through Co-design of System and User Interface ( http://arxiv.org/abs/2410.00079v1 )

ライセンス: Link先を確認
Wenyue Hua, Mengting Wan, Shashank Vadrevu, Ryan Nadel, Yongfeng Zhang, Chi Wang, (参考訳) エージェントは、ユーザ中心のツールとして、人間のタスクデリゲートにデプロイされ、思考を生成し、ユーザプロキシと関わり、アクションプランを作成することで、幅広いリクエストをアシストする。 しかし、大規模言語モデル(LLM)に基づくエージェントは、大きなサイズと高い要求によるLLMの効率の限界と、最終的な出力を生成するための中間的思考の広範な生成によるエージェントの構造的複雑さの2つの主要な要因により、かなりの計画遅延に直面していることが多い。 サービス提供の非効率性はユーザにとっての自動化の価値を損なう可能性があることを前提として,システム設計と人間とAIの相互作用によるエージェント計画の効率化を目的とした,人間中心の効率的なエージェント計画手法である対話型投機計画を提案する。 我々はエージェントシステムとユーザインタフェースの共同設計を提唱し,ユーザインタラクションと割り込みを流動的に管理できるエージェントシステムの重要性を強調した。 システムの基本的な構成要素として人間の割り込みを統合することで、よりユーザ中心にできるだけでなく、人間とループの相互作用を活用してプロセス全体を高速化し、正確な中間ステップを提供する。 コードとデータはリリースされます。

Agents, as user-centric tools, are increasingly deployed for human task delegation, assisting with a broad spectrum of requests by generating thoughts, engaging with user proxies, and producing action plans. However, agents based on large language models (LLMs) often face substantial planning latency due to two primary factors: the efficiency limitations of the underlying LLMs due to their large size and high demand, and the structural complexity of the agents due to the extensive generation of intermediate thoughts to produce the final output. Given that inefficiency in service provision can undermine the value of automation for users, this paper presents a human-centered efficient agent planning method -- Interactive Speculative Planning -- aiming at enhancing the efficiency of agent planning through both system design and human-AI interaction. Our approach advocates for the co-design of the agent system and user interface, underscoring the importance of an agent system that can fluidly manage user interactions and interruptions. By integrating human interruptions as a fundamental component of the system, we not only make it more user-centric but also expedite the entire process by leveraging human-in-the-loop interactions to provide accurate intermediate steps. Code and data will be released.
翻訳日:2024-11-05 14:59:58 公開日:2024-09-30
# ホメオスタシスから資源共有へ:生物学的および経済的に適合した多目的多エージェントAI安全ベンチマーク

From homeostasis to resource sharing: Biologically and economically compatible multi-objective multi-agent AI safety benchmarks ( http://arxiv.org/abs/2410.00081v1 )

ライセンス: Link先を確認
Roland Pihlakas, Joel Pyykkö, (参考訳) 安全なエージェントAIシステムの開発は、人間の価値に適合する自動実証テストの恩恵を受ける。 本研究は, 現代強化学習文学の安全性, ホメオスタシス, 複数目的のバランス, 有界目標, リターンの減少, 持続可能性, マルチエージェント資源共有において無視された, 生物学的, 経済的動機付けされたテーマの導入に焦点をあてる。 上記のテーマで8つの主要なベンチマーク環境を実装し、AI安全性に関する現在の主流の議論の潜在的な欠点について説明しました。

Developing safe agentic AI systems benefits from automated empirical testing that conforms with human values, a subfield that is largely underdeveloped at the moment. To contribute towards this topic, present work focuses on introducing biologically and economically motivated themes that have been neglected in the safety aspects of modern reinforcement learning literature, namely homeostasis, balancing multiple objectives, bounded objectives, diminishing returns, sustainability, and multi-agent resource sharing. We implemented eight main benchmark environments on the above themes, for illustrating the potential shortcomings of current mainstream discussions on AI safety.
翻訳日:2024-11-05 14:59:58 公開日:2024-09-30
# 脳結合性グラフ予測のためのグラフ残差学習ネットワーク

Graph Residual Noise Learner Network for Brain Connectivity Graph Prediction ( http://arxiv.org/abs/2410.00082v1 )

ライセンス: Link先を確認
Oytun Demirbilek, Tingying Peng, Alaa Bessadok, (参考訳) 接続指紋を描写した形態的脳グラフは、脳の非結合性のパターンを表わす上で最重要である。 このようなデータは、時間消費や不完全な神経画像処理パイプラインなどの様々な理由により、しばしば観察が欠落している。 したがって、ソースグラフから対象の脳グラフを予測することは、最小のデータ取得リソースで神経疾患の診断に欠かせない。 有望な結果を得るために、多くの脳グラフ生成モデルが提案されたが、主に、モード崩壊に悩まされ、大規模なトレーニングデータセットを必要とするジェネレーティブ・敵ネットワーク(GAN)に基づいている。 拡散モデルの最近の発展は、安定した訓練目標や容易な拡張性といった本質的な性質を提供することによって、これらの問題に対処している。 しかし、グラフエッジへの拡散プロセスの適用は、脳接続行列の位相対称性を維持するのに失敗する。 これらの課題に対処するため、ソースグラフから対象グラフを予測するための最初のグラフ拡散モデルであるグラフ残留雑音学習ネットワーク(Grenol-Net)を提案する。

A morphological brain graph depicting a connectional fingerprint is of paramount importance for charting brain dysconnectivity patterns. Such data often has missing observations due to various reasons such as time-consuming and incomplete neuroimage processing pipelines. Thus, predicting a target brain graph from a source graph is crucial for better diagnosing neurological disorders with minimal data acquisition resources. Many brain graph generative models were proposed for promising results, yet they are mostly based on generative adversarial networks (GAN), which could suffer from mode collapse and require large training datasets. Recent developments in diffusion models address these problems by offering essential properties such as a stable training objective and easy scalability. However, applying a diffusion process to graph edges fails to maintain the topological symmetry of the brain connectivity matrices. To meet these challenges, we propose the Graph Residual Noise Learner Network (Grenol-Net), the first graph diffusion model for predicting a target graph from a source graph.
翻訳日:2024-11-05 14:59:58 公開日:2024-09-30
# 逆問題に対する拡散モデルの検討

A Survey on Diffusion Models for Inverse Problems ( http://arxiv.org/abs/2410.00083v1 )

ライセンス: Link先を確認
Giannis Daras, Hyungjin Chung, Chieh-Hsin Lai, Yuki Mitsufuji, Jong Chul Ye, Peyman Milanfar, Alexandros G. Dimakis, Mauricio Delbracio, (参考訳) 拡散モデルは、高品質なサンプルを生成する能力により、生成モデルとしてますます人気が高まっている。 これは、特に画像の復元と再構成において、拡散モデルを教師なしの先行として扱うことで、逆問題の解決にエキサイティングな新しい可能性を生み出した。 本稿では, 事前学習した拡散モデルを用いて, さらなる学習を必要とせず, 逆問題の解法について概観する。 我々はこれらの手法を分類するために分類学を導入し、それらが対処する問題と採用するテクニックの両方に基づいて分類する。 我々は、異なるアプローチ間の関係を分析し、実践的な実装に関する洞察を提供し、重要な考察を強調します。 さらに、逆問題に対する潜伏拡散モデルの使用に伴う具体的な課題と潜在的な解決策について論じる。 この研究は拡散モデルと逆問題との交わりについて学ぶことに興味を持つ人々にとって貴重な資源となることを目的としている。

Diffusion models have become increasingly popular for generative modeling due to their ability to generate high-quality samples. This has unlocked exciting new possibilities for solving inverse problems, especially in image restoration and reconstruction, by treating diffusion models as unsupervised priors. This survey provides a comprehensive overview of methods that utilize pre-trained diffusion models to solve inverse problems without requiring further training. We introduce taxonomies to categorize these methods based on both the problems they address and the techniques they employ. We analyze the connections between different approaches, offering insights into their practical implementation and highlighting important considerations. We further discuss specific challenges and potential solutions associated with using latent diffusion models for inverse problems. This work aims to be a valuable resource for those interested in learning about the intersection of diffusion models and inverse problems.
翻訳日:2024-11-05 14:59:58 公開日:2024-09-30
# 予算に基づく微調整型視覚分類器

Fine-tuning Vision Classifiers On A Budget ( http://arxiv.org/abs/2410.00085v1 )

ライセンス: Link先を確認
Sunil Kumar, Ted Sandler, Paulina Varshavskaya, (参考訳) 微調整された現代のコンピュータビジョンモデルは、真実が存在しないかもしれない正確なラベル付きデータを必要とするが、可変精度のラベルから複数のラベルの集合を得ることができる。 我々はラベル品質の概念をラベルの精度の信頼性に結びつけるとともに、ラベルの精度の事前推定が可能である場合、ラベルの精度を損なうことなく、ラベルの正確な値を推定するために単純なネイブベイズモデルを用いることで、ラベルの精度を損なうことなく、固定された予算により多くのデータをラベルできることを示す。 我々は,GTX(Garth Truth Extension)と呼ばれる産業用画像のデータセット上で実験を行い,人間のラベルの少ないMLモデルを微調整できることを示した。

Fine-tuning modern computer vision models requires accurately labeled data for which the ground truth may not exist, but a set of multiple labels can be obtained from labelers of variable accuracy. We tie the notion of label quality to confidence in labeler accuracy and show that, when prior estimates of labeler accuracy are available, using a simple naive-Bayes model to estimate the true labels allows us to label more data on a fixed budget without compromising label or fine-tuning quality. We present experiments on a dataset of industrial images that demonstrates that our method, called Ground Truth Extension (GTX), enables fine-tuning ML models using fewer human labels.
翻訳日:2024-11-05 14:59:58 公開日:2024-09-30
# ACE:Diffusion Transformerによるインストラクションに続く全ラウンドのクリエータとエディタ

ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer ( http://arxiv.org/abs/2410.00086v1 )

ライセンス: Link先を確認
Zhen Han, Zeyinzi Jiang, Yulin Pan, Jingfeng Zhang, Chaojie Mao, Chenwei Xie, Yu Liu, Jingren Zhou, (参考訳) 拡散モデルは強力な生成技術として登場し、様々なシナリオに適用可能であることが判明した。 既存の基盤拡散モデルは、主にテキスト誘導視覚生成のために設計されており、多くの視覚編集タスクに不可欠なマルチモーダル条件をサポートしていない。 この制限により、これらの基礎拡散モデルは、自然言語処理分野におけるGPT-4のような視覚生成分野における統一モデルとして機能することができない。 本研究では,多種多様な視覚生成タスクにおいて,エキスパートモデルと同等の性能を発揮する全ラウンドクリエータとエディタであるACEを提案する。 この目的を達成するために、まずLong-context Condition Unit (LCU)と呼ばれる統一条件形式を導入し、LCUを入力として使用するトランスフォーマーベースの拡散モデルを提案する。 さらに、利用可能なトレーニングデータの欠如の問題に対処する効率的なデータ収集手法を提案する。 合成ベースまたはクラスタリングベースのパイプラインによるペアワイズ画像の取得と、細調整されたマルチモーダルな大規模言語モデルを活用することで、これらのペアに正確なテキスト命令を提供する。 モデルの性能を総合的に評価するために,様々な視覚生成タスクに対して手動でアノテートしたペアデータのベンチマークを構築した。 広範に実験を行った結果,視覚生成分野におけるモデルの有用性が示された。 私たちのモデルのオールインワン機能のおかげで、単一のモデルを使ってバックエンドとして機能する画像生成の対話的な要求に応答するマルチモーダルなチャットシステムを簡単に構築できます。 コードとモデルはプロジェクトページ(https://ali-vilab.github.io/ace-page/.com/)で利用可能になる。

Diffusion models have emerged as a powerful generative technology and have been found to be applicable in various scenarios. Most existing foundational diffusion models are primarily designed for text-guided visual generation and do not support multi-modal conditions, which are essential for many visual editing tasks. This limitation prevents these foundational diffusion models from serving as a unified model in the field of visual generation, like GPT-4 in the natural language processing field. In this work, we propose ACE, an All-round Creator and Editor, which achieves comparable performance compared to those expert models in a wide range of visual generation tasks. To achieve this goal, we first introduce a unified condition format termed Long-context Condition Unit (LCU), and propose a novel Transformer-based diffusion model that uses LCU as input, aiming for joint training across various generation and editing tasks. Furthermore, we propose an efficient data collection approach to address the issue of the absence of available training data. It involves acquiring pairwise images with synthesis-based or clustering-based pipelines and supplying these pairs with accurate textual instructions by leveraging a fine-tuned multi-modal large language model. To comprehensively evaluate the performance of our model, we establish a benchmark of manually annotated pairs data across a variety of visual generation tasks. The extensive experimental results demonstrate the superiority of our model in visual generation fields. Thanks to the all-in-one capabilities of our model, we can easily build a multi-modal chat system that responds to any interactive request for image creation using a single model to serve as the backend, avoiding the cumbersome pipeline typically employed in visual agents. Code and models will be available on the project page: https://ali-vilab.github.io/ace-page/.
翻訳日:2024-11-05 14:59:58 公開日:2024-09-30
# 認証ロボットの認識におけるBurer-Monteiro法の概要

An Overview of the Burer-Monteiro Method for Certifiable Robot Perception ( http://arxiv.org/abs/2410.00117v1 )

ライセンス: Link先を確認
Alan Papalia, Yulun Tian, David M. Rosen, Jonathan P. How, John J. Leonard, (参考訳) 本稿では,ロボット認識問題の解法であるBurer-Monteiro法(BM)の概要について述べる。 BMは半定値プログラミング緩和の解法としてよく用いられ、非凸知覚問題に対する大域的最適化に使用される。 具体的には、BMは典型的な半定値プログラムの低ランク構造を利用し、最適化を行う際の計算コストを劇的に削減する。 本稿では,3つの目的を持つ認証知覚におけるBMについて論じる。 一 文献からの情報を統一的なプレゼンテーションに統合すること。 (二)線形独立制約資格(licQ)の役割を解明すること。 (三)実践者の間で議論されるが、文献に詳しくは触れられていない実践的考察を共有すること。 我々の一般的な目的は、認証された知覚にBMを適用するための実践的なプライマーを提供することである。

This paper presents an overview of the Burer-Monteiro method (BM), a technique that has been applied to solve robot perception problems to certifiable optimality in real-time. BM is often used to solve semidefinite programming relaxations, which can be used to perform global optimization for non-convex perception problems. Specifically, BM leverages the low-rank structure of typical semidefinite programs to dramatically reduce the computational cost of performing optimization. This paper discusses BM in certifiable perception, with three main objectives: (i) to consolidate information from the literature into a unified presentation, (ii) to elucidate the role of the linear independence constraint qualification (LICQ), a concept not yet well-covered in certifiable perception literature, and (iii) to share practical considerations that are discussed among practitioners but not thoroughly covered in the literature. Our general aim is to offer a practical primer for applying BM towards certifiable perception.
翻訳日:2024-11-05 14:50:13 公開日:2024-09-30
# フラクタル次元を用いた機械学習による脳動脈瘤破裂のリスク予測

Using fractal dimension to predict the risk of intra cranial aneurysm rupture with machine learning ( http://arxiv.org/abs/2410.00121v1 )

ライセンス: Link先を確認
Pradyumna Elavarthi, Anca Ralescu, Mark D. Johnson, Charles J. Prestigiacomo, (参考訳) 破裂した頭蓋内動脈瘤 (IAs) は大きな死亡率と死亡率をもたらす。 PHASESスコアのような従来のリスクモデルは臨床的意思決定に有用であるが、機械学習(ML)モデルはより精度の高いモデルを提供する可能性がある。 本研究では,4種類の機械学習アルゴリズム,Random Forest (RF), XGBoost (XGB), Support Vector Machine (SVM), Multi Layer Perceptron (MLP) の性能を比較し,脳内動脈瘤の破裂状況を予測する。 RFはバランスの取れた精度とリコールで最高精度(85%)を達成し、MLPは最低性能(63%)を達成した。 フラクタル次元は、すべてのモデルにおけるモデルパフォーマンスの最も重要な特徴としてランク付けされた。

Intracranial aneurysms (IAs) that rupture result in significant morbidity and mortality. While traditional risk models such as the PHASES score are useful in clinical decision making, machine learning (ML) models offer the potential to provide more accuracy. In this study, we compared the performance of four different machine learning algorithms Random Forest (RF), XGBoost (XGB), Support Vector Machine (SVM), and Multi Layer Perceptron (MLP) on clinical and radiographic features to predict rupture status of intracranial aneurysms. Among the models, RF achieved the highest accuracy (85%) with balanced precision and recall, while MLP had the lowest overall performance (accuracy of 63%). Fractal dimension ranked as the most important feature for model performance across all models.
翻訳日:2024-11-05 14:50:13 公開日:2024-09-30
# CVVLSNet:部分連結車両軌道データを用いた車両位置と速度推定

CVVLSNet: Vehicle Location and Speed Estimation Using Partial Connected Vehicle Trajectory Data ( http://arxiv.org/abs/2410.00132v1 )

ライセンス: Link先を確認
Jiachen Ye, Dingyu Wang, Shaocheng Jia, Xin Pei, Zi Yang, Yi Zhang, S. C. Wong, (参考訳) 車両位置と速度のリアルタイム推定は、交通管理や適応信号制御における多くの有用な輸送アプリケーションを開発する上で重要である。 近年の通信技術の進歩は、近くのCVやインフラと交通情報を共有できるコネクテッドカー(CV)の出現を促進する。 接続の初期段階では、車両のごく一部だけがCVである。 これらの非CV(NC)の位置と速度はアクセスできないため、完全な交通情報を得るためには推定される必要がある。 そこで本研究では, CVトラジェクトリデータのみを用いて, 車両の位置と速度を同時に推定するCVVLSNetを提案する。 可変車両状態情報を表すために,道路セル占有率 (RCO) 法を最初に提案した。 時空間相互作用は、単にRCO表現を融合させることで統合することができる。 次に、CVVLSNet(Coding-RAte TransformEr (CRATE) ネットワークをバックボーンとし、車両の位置と速度を推定する。 さらに、物理的車両サイズ制約は損失関数にも考慮される。 実験の結果,提案手法はCV透過率,信号タイミング,容量/容量比で既存手法よりも有意に優れていた。

Real-time estimation of vehicle locations and speeds is crucial for developing many beneficial transportation applications in traffic management and control, e.g., adaptive signal control. Recent advances in communication technologies facilitate the emergence of connected vehicles (CVs), which can share traffic information with nearby CVs or infrastructures. At the early stage of connectivity, only a portion of vehicles are CVs. The locations and speeds for those non-CVs (NCs) are not accessible and must be estimated to obtain the full traffic information. To address the above problem, this paper proposes a novel CV-based Vehicle Location and Speed estimation network, CVVLSNet, to simultaneously estimate the vehicle locations and speeds exclusively using partial CV trajectory data. A road cell occupancy (RCO) method is first proposed to represent the variable vehicle state information. Spatiotemporal interactions can be integrated by simply fusing the RCO representations. Then, CVVLSNet, taking the Coding-RAte TransformEr (CRATE) network as a backbone, is introduced to estimate the vehicle locations and speeds. Moreover, physical vehicle size constraints are also considered in loss functions. Extensive experiments indicate that the proposed method significantly outperformed the existing method under various CV penetration rates, signal timings, and volume-to-capacity ratios.
翻訳日:2024-11-05 14:40:28 公開日:2024-09-30
# 変圧器を用いた埋め込みとクラスタリングアルゴリズムを用いた意味駆動トピックモデリング

Semantic-Driven Topic Modeling Using Transformer-Based Embeddings and Clustering Algorithms ( http://arxiv.org/abs/2410.00134v1 )

ライセンス: Link先を確認
Melkamu Abay Mersha, Mesay Gemeda yigezu, Jugal Kalita, (参考訳) トピックモデリングは、事前の知識なしに文書の集合の中に隠されたトピックやパターンを発見する強力な手法である。 従来のトピックモデリングとクラスタリングベースのテクニックは、コンテキスト意味情報をキャプチャする際の課題に直面する。 本研究では,高度な単語と文書の埋め込みと強力なクラスタリングアルゴリズムを組み合わせることで,トピック抽出プロセスのための革新的なエンドツーエンドのセマンティック駆動トピックモデリング手法を提案する。 この意味駆動型アプローチは、トピックモデリング方法論における重要な進歩を示している。 文脈意味情報を利用して、一貫性と意味のあるトピックを抽出する。 具体的には,事前学習したトランスフォーマーベース言語モデルを用いて文書埋め込みを生成し,埋め込みの次元を小さくし,意味的類似性に基づいて埋め込みをクラスタ化し,各クラスタに対して一貫性のあるトピックを生成する。 ChatGPTや従来のトピックモデリングアルゴリズムと比較して、我々のモデルはより一貫性があり有意義なトピックを提供する。

Topic modeling is a powerful technique to discover hidden topics and patterns within a collection of documents without prior knowledge. Traditional topic modeling and clustering-based techniques encounter challenges in capturing contextual semantic information. This study introduces an innovative end-to-end semantic-driven topic modeling technique for the topic extraction process, utilizing advanced word and document embeddings combined with a powerful clustering algorithm. This semantic-driven approach represents a significant advancement in topic modeling methodologies. It leverages contextual semantic information to extract coherent and meaningful topics. Specifically, our model generates document embeddings using pre-trained transformer-based language models, reduces the dimensions of the embeddings, clusters the embeddings based on semantic similarity, and generates coherent topics for each cluster. Compared to ChatGPT and traditional topic modeling algorithms, our model provides more coherent and meaningful topics.
翻訳日:2024-11-05 14:40:28 公開日:2024-09-30
# 条件付き可解な非相対論的量子力学モデル

Just another conditionally-solvable non-relativistic quantum-mechanical model ( http://arxiv.org/abs/2410.00138v1 )

ライセンス: Link先を確認
Francisco M. Fernández, (参考訳) 最近議論されている摂動クーロン問題は条件付き解決可能であることを示す。 得られた固有値と固有関数を数値計算により計算した固有値と比較する。 フロベニウス (Frobenius) 法から生じる正確な解を決定する数の意味について議論する。

We show that a perturbed Coulomb problem discussed recently is conditionally solvable. We obtain the exact eigenvalues and eigenfunctions and compare the former with eigenvalues calculated by means of a numerical method. We discuss the meaning of the numbers that determine the exact solutions which arise from the Frobenius (power-series) method.
翻訳日:2024-11-05 14:40:28 公開日:2024-09-30
# ニューラルフィードバックループの安全性検証のための制約対応リファインメント

Constraint-Aware Refinement for Safety Verification of Neural Feedback Loops ( http://arxiv.org/abs/2410.00145v1 )

ライセンス: Link先を確認
Nicholas Rober, Jonathan P. How, (参考訳) ニューラルネットワーク(NN)は、自律システムのための制御パイプラインの設計において、ますます人気が高まっている。 しかし、NNのパフォーマンスは、アウト・オブ・ディストリビューションデータや敵攻撃の存在下で低下する可能性があるため、NNを制御パイプラインに持つシステム、すなわちニューラルフィードバックループ(NFL)は、安全上重要な状況に適用する前に安全性を保証する必要がある。 到達可能な集合を計算し、NFLの将来の状態を拘束し、状態空間の危険な領域に対してチェックし、システムが安全制約に違反しないことを確認することで、この問題の解決を提供する。 正確な到達可能な集合は一般に計算が困難であるため、近似(RSOA)上の到達可能な集合は一般的に用いられる。 RSOAの問題は、過度に保守的であり、特に長期的地平線や高度に非線形なNN制御ポリシーにおいて、安全制約の満足度を検証することが困難であることである。 パーティショニングやシンボル伝搬といったリファインメント戦略は、一般的にRSOAの保守性を制限するために使用されるが、これらの手法は高い計算コストを伴い、単純な到達可能性問題に対する安全性を検証するためにのみ使用できる。 本稿では, NFLの安全制約を明示的に用いて, RSOAの保守性を低下させる効率的な改良戦略である Constraint-Aware Refinement for Verification (CARV) を提案する。 我々はCARVがNFLの安全性を検証できることを実証し、他のアプローチが失敗するか、最大60倍、40倍のメモリを消費することを示した。

Neural networks (NNs) are becoming increasingly popular in the design of control pipelines for autonomous systems. However, since the performance of NNs can degrade in the presence of out-of-distribution data or adversarial attacks, systems that have NNs in their control pipelines, i.e., neural feedback loops (NFLs), need safety assurances before they can be applied in safety-critical situations. Reachability analysis offers a solution to this problem by calculating reachable sets that bound the possible future states of an NFL and can be checked against dangerous regions of the state space to verify that the system does not violate safety constraints. Since exact reachable sets are generally intractable to calculate, reachable set over approximations (RSOAs) are typically used. The problem with RSOAs is that they can be overly conservative, making it difficult to verify the satisfaction of safety constraints, especially over long time horizons or for highly nonlinear NN control policies. Refinement strategies such as partitioning or symbolic propagation are typically used to limit the conservativeness of RSOAs, but these approaches come with a high computational cost and often can only be used to verify safety for simple reachability problems. This paper presents Constraint-Aware Refinement for Verification (CARV): an efficient refinement strategy that reduces the conservativeness of RSOAs by explicitly using the safety constraints on the NFL to refine RSOAs only where necessary. We demonstrate that CARV can verify the safety of an NFL where other approaches either fail or take up to 60x longer and 40x the memory.
翻訳日:2024-11-05 14:40:28 公開日:2024-09-30
# 大規模言語モデルはコンテキスト内パーソナライズされた要約器か? iCOPERNICUS Test Done!

Are Large Language Models In-Context Personalized Summarizers? Get an iCOPERNICUS Test Done! ( http://arxiv.org/abs/2410.00149v1 )

ライセンス: Link先を確認
Divya Patel, Pathik Patel, Ankush Chander, Sourish Dasgupta, Tanmoy Chakraborty, (参考訳) 大規模言語モデル(LLM)は、ICL(In-Context-Learning)に基づく要約においてかなり成功した。 しかし、唾液度はユーザーの特定の嗜好履歴に左右される。 したがって、そのようなLLM内に信頼性の高いコンテキストパーソナライズ学習(ICPL)機能が必要である。 任意のLCMがICPLを示すためには、ユーザプロファイルのコントラストを識別する能力が必要である。 最近の研究では、EGISESと呼ばれる個人化の度合いが初めて提案されている。 EGISESは、ユーザープロファイルの違いに対するモデルの応答性を測定する。 しかし、モデルがICPLプロンプトで提供される3種類のキューをすべて利用するかどうかをテストすることはできない。 (i)例 要約 (二 利用者の閲覧履歴、及び (iii)ユーザープロフィールでは対照的である。 そこで我々は, EGISES を比較尺度として用いた LLM における要約能力の新たな ICOPERNICUS フレームワークを提案する。 ケーススタディとして、報告されたICL性能に基づいて17の最先端LCMを評価し、よりリッチなプロンプトで探索すると15モデルのICPLが劣化し(分:1.6%、最大:3.6%)、真のICPLが欠如していることを示す。

Large Language Models (LLMs) have succeeded considerably in In-Context-Learning (ICL) based summarization. However, saliency is subject to the users' specific preference histories. Hence, we need reliable In-Context Personalization Learning (ICPL) capabilities within such LLMs. For any arbitrary LLM to exhibit ICPL, it needs to have the ability to discern contrast in user profiles. A recent study proposed a measure for degree-of-personalization called EGISES for the first time. EGISES measures a model's responsiveness to user profile differences. However, it cannot test if a model utilizes all three types of cues provided in ICPL prompts: (i) example summaries, (ii) user's reading histories, and (iii) contrast in user profiles. To address this, we propose the iCOPERNICUS framework, a novel In-COntext PERsonalization learNIng sCrUtiny of Summarization capability in LLMs that uses EGISES as a comparative measure. As a case-study, we evaluate 17 state-of-the-art LLMs based on their reported ICL performances and observe that 15 models' ICPL degrades (min: 1.6%; max: 3.6%) when probed with richer prompts, thereby showing lack of true ICPL.
翻訳日:2024-11-05 14:40:28 公開日:2024-09-30
# 異なるアプリを使ったらどうなるか? ワイヤレスシステムにおける信頼性のあるKPI分析

What If We Had Used a Different App? Reliable Counterfactual KPI Analysis in Wireless Systems ( http://arxiv.org/abs/2410.00150v1 )

ライセンス: Link先を確認
Qiushuo Hou, Sangwoo Park, Matteo Zecchin, Yunlong Cai, Guanding Yu, Osvaldo Simeone, (参考訳) Open Radio Access Network (O-RAN) のような現代の無線ネットワークアーキテクチャでは、LAN (Radio Access Network) の運用はアプリケーションによって管理される。 これらのアプリは、現在のコンテキスト情報に基づいて、所定のカタログから選択される。 例えば、スケジューリングアプリは、現在のトラフィックとネットワーク条件に基づいて選択することができる。 アプリケーションが選択されて実行されると、他のアプリで取得したであろうパフォーマンスを直接テストすることは不可能になります。 しかし、このテストはネットワーク操作の監視と最適化に有用だろう。 この目標を念頭に置いて、RANによって異なるアプリが実装された場合のキーパフォーマンス指標(KPI)の値を推定する「What-if」問題に対処する。 そこで本研究では,ログデータとテストデータの間に固有の共変量シフトがあるにもかかわらず,真のKPIをユーザ定義確率で含む,推定KPIに対して信頼性の高い"エラーバー"を提供する無線システムに対して,共形予測に基づく逆実解析手法を提案する。 中層アクセス制御層アプリケーションと物理層アプリケーションに対する実験結果から,提案手法の有効性が示された。

In modern wireless network architectures, such as Open Radio Access Network (O-RAN), the operation of the radio access network (RAN) is managed by applications, or apps for short, deployed at intelligent controllers. These apps are selected from a given catalog based on current contextual information. For instance, a scheduling app may be selected on the basis of current traffic and network conditions. Once an app is chosen and run, it is no longer possible to directly test the performance that would have been obtained with another app. This test, however, would be potentially valuable to monitor and optimize the network operation. With this goal in mind, this paper addresses the "what-if" problem of estimating the values of key performance indicators (KPIs) that would have been obtained if a different app had been implemented by the RAN. To this end, we propose a conformal-prediction-based counterfactual analysis method for wireless systems that provides reliable "error bars" for the estimated KPIs, containing the true KPIs with a user-defined probability, despite the inherent covariate shift between logged and test data. Experimental results for medium access control-layer apps and for physical-layer apps demonstrate the merits of the proposed method.
翻訳日:2024-11-05 14:40:28 公開日:2024-09-30
# 細胞セグメンテーションとポイントセットマッチングによる組織像のマルチモーダルアライメント

Multimodal Alignment of Histopathological Images Using Cell Segmentation and Point Set Matching for Integrative Cancer Analysis ( http://arxiv.org/abs/2410.00152v1 )

ライセンス: Link先を確認
Jun Jiang, Raymond Moore, Brenna Novotny, Leo Liu, Zachary Fogarty, Ray Guo, Markovic Svetomir, Chen Wang, (参考訳) 病理組織像は癌研究や臨床実践に不可欠であり、多重蛍光(MxIF)とヘマトキシリンとエオシン(H&E)が相補的な洞察を提供する。 しかし、細胞レベルで異なる染色を整列させることは、モダリティの違いによる課題である。 本稿では,セル分割結果を用いたマルチモーダル画像アライメントのための新しいフレームワークを提案する。 細胞を点集合として扱うことにより、初期アライメントにコヒーレントポイントドリフト(CPD)を適用し、グラフマッチング(GM)でそれを洗練する。 卵巣癌組織マイクロアレイ (TMA) を用いて高いアライメント精度を実現し,MxIFデータから細胞レベルの特徴の統合と仮想H&E画像の生成を可能にし,臨床解釈の高度化を図る。

Histopathological imaging is vital for cancer research and clinical practice, with multiplexed Immunofluorescence (MxIF) and Hematoxylin and Eosin (H&E) providing complementary insights. However, aligning different stains at the cell level remains a challenge due to modality differences. In this paper, we present a novel framework for multimodal image alignment using cell segmentation outcomes. By treating cells as point sets, we apply Coherent Point Drift (CPD) for initial alignment and refine it with Graph Matching (GM). Evaluated on ovarian cancer tissue microarrays (TMAs), our method achieves high alignment accuracy, enabling integration of cell-level features across modalities and generating virtual H&E images from MxIF data for enhanced clinical interpretation.
翻訳日:2024-11-05 14:40:28 公開日:2024-09-30
# 単一概念ベクトルを超える:ガウス分布を持つLLMにおける概念部分空間のモデル化

Beyond Single Concept Vector: Modeling Concept Subspace in LLMs with Gaussian Distribution ( http://arxiv.org/abs/2410.00153v1 )

ライセンス: Link先を確認
Haiyan Zhao, Heng Zhao, Bo Shen, Ali Payani, Fan Yang, Mengnan Du, (参考訳) 大規模言語モデル(LLM)における学習概念の探索は、意味的知識が内部的にどのように符号化されるかを理解する上で重要である。 探索タスクに関する線形分類器の訓練は、表現空間におけるある概念のベクトルを表す原則的アプローチである。 しかし、概念として特定される単一のベクトルは、データとトレーニングの両方によって異なり、現実のアプリケーションにおけるその効果を弱める。 この課題に対処するために,特定の概念を表す部分空間を近似する手法を提案する。 線形確率分類器上に構築され、概念ベクトルをガウス概念部分空間(GCS)に拡張する。 我々は,GCSの信頼性と妥当性を,サイズやアーキテクチャの異なる複数のLCMにまたがって測定することで,GCSの有効性を実証する。 さらに,感情ステアリングなどの実世界の応用において,表現介入タスクを用いてその効果を示す。 実験の結果,GCSの概念ベクトルは,自然言語生成タスクにおける操舵性能のバランスと流速の維持を両立させる可能性が示唆された。

Probing learned concepts in large language models (LLMs) is crucial for understanding how semantic knowledge is encoded internally. Training linear classifiers on probing tasks is a principle approach to denote the vector of a certain concept in the representation space. However, the single vector identified for a concept varies with both data and training, making it less robust and weakening its effectiveness in real-world applications. To address this challenge, we propose an approach to approximate the subspace representing a specific concept. Built on linear probing classifiers, we extend the concept vectors into Gaussian Concept Subspace (GCS). We demonstrate GCS's effectiveness through measuring its faithfulness and plausibility across multiple LLMs with different sizes and architectures. Additionally, we use representation intervention tasks to showcase its efficacy in real-world applications such as emotion steering. Experimental results indicate that GCS concept vectors have the potential to balance steering performance and maintaining the fluency in natural language generation tasks.
翻訳日:2024-11-05 14:40:28 公開日:2024-09-30
# 振幅減衰雑音に対する最小量子符号

Smallest quantum codes for amplitude damping noise ( http://arxiv.org/abs/2410.00155v1 )

ライセンス: Link先を確認
Sourav Dutta, Aditya Jain, Prabha Mandayam, (参考訳) 振幅減衰(AD)ノイズを補正する最小の量子誤り訂正符号(QEC)について述べる。 我々はこの構成を一般化し、任意の順序でADノイズを補正するコード群を作成する。 我々は、近似QEC条件の既存の定式化とは異なるKnill-Laflamme条件の緩和形式を介して、コードの構造とノイズ構造との間の基本的結合を導いた。 この符号の回復手順は決定論的ではないが,我々の符号はオーバヘッドに対して最適であり,エンタングルメントの忠実度の観点からADノイズに対処するために既存の符号より優れている。 この近似 QEC の交互な定式化は、ADノイズに合わせた新しい量子符号のクラスを生み出し、ADノイズに対するノイズ適応量子ハミングバウンドを生じさせる。

We describe the smallest quantum error correcting (QEC) code to correct for amplitude-damping (AD) noise, namely, a 3-qubit code that corrects up to first order in the damping strength. We generalize this construction to create a family of codes that correct AD noise up to any fixed order. We underpin the fundamental connection between the structure of our codes and the noise structure via a relaxed form of the Knill-Laflamme conditions, that are different from existing formulations of approximate QEC conditions. Although the recovery procedure for this code is non-deterministic, our codes are optimal with respect to overheads and outperform existing codes to tackle AD noise in terms of entanglement fidelity. This alternate formulation of approximate QEC in fact leads us to a new class of quantum codes tailored to AD noise and also gives rise to a noise-adapted quantum Hamming bound for AD noise.
翻訳日:2024-11-05 10:14:04 公開日:2024-09-30
# ビームスプリッタ相互作用を用いたマグノンによるマイクロ波キャビティ状態の冷却とスクイーズ

Cooling and Squeezing a Microwave Cavity State with Magnons Using a Beam Splitter Interaction ( http://arxiv.org/abs/2410.00160v1 )

ライセンス: Link先を確認
Qin Xu, Gregory D. Fuchs, (参考訳) マグノンと2次元マイクロ波キャビティモードの間に有意なビームスプリッタ相互作用(XZ結合)を実現するための2つのジオメトリを提案する。 どちらのセットアップでも、キャビティは従来のオプティメカルセットアップの機械振動子と類似している。 バックアクション効果は現実的な実験パラメータで計算される。 解析結果から, マイクロ波共振器の減衰速度よりもバックアクション減衰(反減衰)率を大きいものにできるだけでなく, 1つの四角形(電荷または電流)の不確かさが0点揺らぎよりも小さい共振器の量子スクイーズを実現することができることがわかった。

We propose two geometries to realize a significant beam splitter interaction (XZ coupling) between magnons and a 2D microwave cavity mode. In both setups the cavity is analogous to the mechanical oscillator in a conventional optomechanical setup. The backaction effects are calculated with realistic experimental parameters. The analytical results show that we can not only make the backaction damping (anti-damping) rate larger than the bare microwave resonator damping rate, but that we can also achieve quantum squeezing of the resonator where the uncertainty in one quadruture (charge or current) is smaller than its zero point fluctuation.
翻訳日:2024-11-05 10:14:04 公開日:2024-09-30
# ポルトガルの医療領域におけるLCMの適応 : 微調整とモデル評価に関する研究

Adapting LLMs for the Medical Domain in Portuguese: A Study on Fine-Tuning and Model Evaluation ( http://arxiv.org/abs/2410.00163v1 )

ライセンス: Link先を確認
Pedro Henrique Paiola, Gabriel Lino Garcia, João Renato Ribeiro Manesco, Mateus Roder, Douglas Rodrigues, João Paulo Papa, (参考訳) 本研究は、ポルトガルにおける医療エージェントとしての大規模言語モデル(LLM)の性能を評価し、医療従事者のための信頼性と関連性のある仮想アシスタントの開発を目的とする。 GPT-3.5を用いて英訳したHealthCareMagic-100k-enとMedQuADデータセットを使用して、PEFT-QLoRA法を用いてChatBode-7Bモデルを微調整した。 InternLM2モデルは、当初医療データに関するトレーニングを行い、精度、完全性、安全性などの指標において高い精度と精度で最高の総合的な性能を示した。 しかし、ChatBodeから派生したDrBodeモデルは、取得した医療知識を壊滅的に忘れてしまう現象を示した。 それにもかかわらず、これらのモデルは文法性やコヒーレンスといった面において頻繁に、あるいはそれ以上に改善された。 重要な課題は、より堅牢なアセスメントプロトコルの必要性を強調した、レータ間合意の低さであった。 本研究は、医学分野に特化した多言語モデルの評価、トレーニングデータの質の向上、医療分野に対するより一貫した評価手法の開発など、将来の研究の道を開くものである。

This study evaluates the performance of large language models (LLMs) as medical agents in Portuguese, aiming to develop a reliable and relevant virtual assistant for healthcare professionals. The HealthCareMagic-100k-en and MedQuAD datasets, translated from English using GPT-3.5, were used to fine-tune the ChatBode-7B model using the PEFT-QLoRA method. The InternLM2 model, with initial training on medical data, presented the best overall performance, with high precision and adequacy in metrics such as accuracy, completeness and safety. However, DrBode models, derived from ChatBode, exhibited a phenomenon of catastrophic forgetting of acquired medical knowledge. Despite this, these models performed frequently or even better in aspects such as grammaticality and coherence. A significant challenge was low inter-rater agreement, highlighting the need for more robust assessment protocols. This work paves the way for future research, such as evaluating multilingual models specific to the medical field, improving the quality of training data, and developing more consistent evaluation methodologies for the medical field.
翻訳日:2024-11-05 10:14:04 公開日:2024-09-30
# EEG感情コパイロット:医療記録生成支援による情動脳波解釈のためのLLMの抽出

EEG Emotion Copilot: Pruning LLMs for Emotional EEG Interpretation with Assisted Medical Record Generation ( http://arxiv.org/abs/2410.00166v1 )

ライセンス: Link先を確認
Hongyu Chen, Weiming Zeng, Chengcheng Chen, Luhui Cai, Fei Wang, Lei Wang, Wei Zhang, Yueyang Li, Hongjie Yan, Wai Ting Siok, Nizhuan Wang, (参考訳) 感情コンピューティング(AC)と脳-機械インタフェース(BMI)の分野では、個々の感情状態を識別するための生理的および行動的信号の解析が重要な研究フロンティアとして現れている。 ディープラーニングベースのアプローチは、特に特徴抽出とパターン認識において、脳波の感情認識において顕著な進歩を遂げてきたが、リアルタイム処理、個別適応、シームレスなユーザインタラクションを含むエンドツーエンドの感情計算を実現する上で、大きな課題が続いている。 本稿では,局所的に動作する軽量な大規模言語モデル(LLM)を利用したEEG Emotion Copilotを提案する。 このシステムは、まず脳波信号から直接感情状態を認識し、その後パーソナライズされた診断と治療の提案を生成し、最終的に電子カルテの自動化をサポートするように設計されている。 提案手法は,感情認識の精度とユーザエクスペリエンスの向上を両立させる。 さらに、リアルタイムの性能向上と計算効率の向上を目的とした、データフレームワークの構築、モデルプルーニング、トレーニング、デプロイメント戦略についても論じる。 プライバシーに関する懸念も対処され、倫理的データ収集、処理、ユーザーの個人情報の保護に焦点が当てられている。 これらの取り組みを通じて,心的健康診断や治療に革新的なアプローチを提供することにより,ACの医療分野への応用を推し進めることを目指している。

In the fields of affective computing (AC) and brain-machine interface (BMI), the analysis of physiological and behavioral signals to discern individual emotional states has emerged as a critical research frontier. While deep learning-based approaches have made notable strides in EEG emotion recognition, particularly in feature extraction and pattern recognition, significant challenges persist in achieving end-to-end emotion computation, including real-time processing, individual adaptation, and seamless user interaction. This paper presents the EEG Emotion Copilot, a system leveraging a lightweight large language model (LLM) operating in a local setting. The system is designed to first recognize emotional states directly from EEG signals, subsequently generate personalized diagnostic and treatment suggestions, and finally support the automation of electronic medical records. The proposed solution emphasizes both the accuracy of emotion recognition and an enhanced user experience, facilitated by an intuitive interface for participant interaction. We further discuss the construction of the data framework, model pruning, training, and deployment strategies aimed at improving real-time performance and computational efficiency. Privacy concerns are also addressed, with a focus on ethical data collection, processing, and the protection of users' personal information. Through these efforts, we aim to advance the application of AC in the medical domain, offering innovative approaches to mental health diagnostics and treatment.
翻訳日:2024-11-05 10:14:04 公開日:2024-09-30
# SSR: 言語モデルのためのアライメント対応モダリティコネクタ

SSR: Alignment-Aware Modality Connector for Speech Language Models ( http://arxiv.org/abs/2410.00168v1 )

ライセンス: Link先を確認
Weiting Tan, Hirofumi Inaguma, Ning Dong, Paden Tomasello, Xutai Ma, (参考訳) 事前訓練された言語モデル(SpeechLM)への音声の融合は通常、長文音声の非効率な符号化や、事前訓練されたテキストのモダリティの破滅的な忘れ込みに悩まされる。 そこで我々は,SSR-Connector (Segmented Speech Representation Connector) を提案する。 音声テキストアライメントを活用することで,テキスト埋め込みの粒度に合わせて音声特徴をセグメント化し,圧縮する。 さらに, 蒸留および微調整相を含む2段階の訓練パイプラインを導入し, 破滅的忘れを軽減した。 SSR-Connectorは、訓練済みのテキスト能力を保ちながら、より優れた音声理解(StoryClozeでは+10、Speech-MMLUでは+20)を達成するために、既存の音声テキストモダリティ融合のメカニズムより優れています。

Fusing speech into pre-trained language model (SpeechLM) usually suffers from inefficient encoding of long-form speech and catastrophic forgetting of pre-trained text modality. We propose SSR-Connector (Segmented Speech Representation Connector) for better modality fusion. Leveraging speech-text alignments, our approach segments and compresses speech features to match the granularity of text embeddings. Additionally, we introduce a two-stage training pipeline that includes the distillation and fine-tuning phases to mitigate catastrophic forgetting. SSR-Connector outperforms existing mechanism for speech-text modality fusion, consistently achieving better speech understanding (e.g., +10 accuracy on StoryCloze and +20 on Speech-MMLU) while preserving pre-trained text ability.
翻訳日:2024-11-05 10:14:04 公開日:2024-09-30
# ほぼ)平滑なサイリング:条件数の微分正則化によるニューラルネットワークの数値安定性を目指して

(Almost) Smooth Sailing: Towards Numerical Stability of Neural Networks Through Differentiable Regularization of the Condition Number ( http://arxiv.org/abs/2410.00169v1 )

ライセンス: Link先を確認
Rossen Nenov, Daniel Haider, Peter Balazs, (参考訳) 機械学習モデルにおける数値的な安定性を維持することは、その信頼性と性能に不可欠である。 ネットワーク層の安定性を維持する1つのアプローチは、最適化アルゴリズムに正規化項として重み行列の条件数を統合することである。 しかし、その不連続性や微分可能性の欠如により、条件数は勾配降下法には適さない。 本稿では, ほぼ至る所で識別可能な新しい正則化器を導入し, 低条件数行列の促進について述べる。 特に、既存の最適化アルゴリズムに容易に実装・統合できる正規化器の勾配式を導出する。 本手法は, MNIST画像の雑音分類と雑音分解に有用であることを示す。

Maintaining numerical stability in machine learning models is crucial for their reliability and performance. One approach to maintain stability of a network layer is to integrate the condition number of the weight matrix as a regularizing term into the optimization algorithm. However, due to its discontinuous nature and lack of differentiability the condition number is not suitable for a gradient descent approach. This paper introduces a novel regularizer that is provably differentiable almost everywhere and promotes matrices with low condition numbers. In particular, we derive a formula for the gradient of this regularizer which can be easily implemented and integrated into existing optimization algorithms. We show the advantages of this approach for noisy classification and denoising of MNIST images.
翻訳日:2024-11-05 10:14:04 公開日:2024-09-30
# 関数エンコーダを用いたBasis-to-Basis演算子学習

Basis-to-Basis Operator Learning Using Function Encoders ( http://arxiv.org/abs/2410.00171v1 )

ライセンス: Link先を確認
Tyler Ingebrand, Adam J. Thorpe, Somdatta Goswami, Krishna Kumar, Ufuk Topcu, (参考訳) 本稿では,関数エンコーダの基本概念に基づくヒルベルト空間上の演算子を学習するための新しい手法であるBasis-to-Basis(B2B)演算子学習を提案する。 演算子のタスクは入力空間と出力空間の両方の基底関数の集合を学習し、基底関数の係数間の潜在的非線形マッピングを学習する。 B2B演算子学習は、係数を計算するために最小二乗法のような古典的な手法を活用することによって、データが一定の位置にあることを要求するなど、先行研究の多くの課題を回避している。 特に線型作用素には有益であり、そこでは閉形式解を持つ単一の行列変換として基底間の写像を計算する。 さらに、最小限の変更と関数エンコーダと関数解析との深い理論的接続を用いることで、固有分解や特異値分解と直接類似する演算子学習アルゴリズムを導出する。 我々は,B2B演算子学習を6つのベンチマーク演算子学習タスクで実証的に検証し,既存のベンチマーク演算子よりも精度が2次改善されたことを示す。

We present Basis-to-Basis (B2B) operator learning, a novel approach for learning operators on Hilbert spaces of functions based on the foundational ideas of function encoders. We decompose the task of learning operators into two parts: learning sets of basis functions for both the input and output spaces, and learning a potentially nonlinear mapping between the coefficients of the basis functions. B2B operator learning circumvents many challenges of prior works, such as requiring data to be at fixed locations, by leveraging classic techniques such as least-squares to compute the coefficients. It is especially potent for linear operators, where we compute a mapping between bases as a single matrix transformation with a closed form solution. Furthermore, with minimal modifications and using the deep theoretical connections between function encoders and functional analysis, we derive operator learning algorithms that are directly analogous to eigen-decomposition and singular value decomposition. We empirically validate B2B operator learning on six benchmark operator learning tasks, and show that it demonstrates a two-orders-of-magnitude improvement in accuracy over existing approaches on several benchmark tasks.
翻訳日:2024-11-05 10:14:04 公開日:2024-09-30
# GaNDLF-Synth:(バイオ)医療画像のための生成AIを民主化するフレームワーク

GaNDLF-Synth: A Framework to Democratize Generative AI for (Bio)Medical Imaging ( http://arxiv.org/abs/2410.00173v1 )

ライセンス: Link先を確認
Sarthak Pati, Szymon Mazurek, Spyridon Bakas, (参考訳) Generative Artificial Intelligence(GenAI)は、AIの分野であり、既存のデータから新しいデータサンプルを作成する。 ディープラーニングを活用して、オリジナルのデータセットとシームレスに統合された新しいデータポイントを生成することで、医療データの不足と規制の制約を克服する。 本稿では、GenAIの背景とモチベーションを考察し、医療における画像合成タスクの実装と評価の民主化に向けた文学における大きなギャップに対処するために、GANDLF-Synth(Generally Nuanced Deep Learning Framework for Synthesis)を紹介する。 GaNDLF-Synthは、オートエンコーダ、生成逆数ネットワーク、拡散モデルを含む様々な合成アルゴリズムの統一的な抽象化を記述する。 GANDLFコアフレームワークを活用することで、多様なデータモダリティと分散コンピューティングをサポートし、広範なユニットテストを通じてスケーラビリティと再現性を確保する。 GaNDLF-Synthの目的は、GenAIの参入障壁を低くし、より広い科学コミュニティでよりアクセスしやすく拡張できるようにすることである。

Generative Artificial Intelligence (GenAI) is a field of AI that creates new data samples from existing ones. It utilizing deep learning to overcome the scarcity and regulatory constraints of healthcare data by generating new data points that integrate seamlessly with original datasets. This paper explores the background and motivation for GenAI, and introduces the Generally Nuanced Deep Learning Framework for Synthesis (GaNDLF-Synth) to address a significant gap in the literature and move towards democratizing the implementation and assessment of image synthesis tasks in healthcare. GaNDLF-Synth describes a unified abstraction for various synthesis algorithms, including autoencoders, generative adversarial networks, and diffusion models. Leveraging the GANDLF-core framework, it supports diverse data modalities and distributed computing, ensuring scalability and reproducibility through extensive unit testing. The aim of GaNDLF-Synth is to lower the entry barrier for GenAI, and make it more accessible and extensible by the wider scientific community.
翻訳日:2024-11-05 10:14:04 公開日:2024-09-30
# 性的内容に基づく大規模言語モデルの適応的モラルスタンス:社会とジェンダーの談話における意味

Adaptable Moral Stances of Large Language Models on Sexist Content: Implications for Society and Gender Discourse ( http://arxiv.org/abs/2410.00175v1 )

ライセンス: Link先を確認
Rongchen Guo, Isar Nejadgholi, Hillary Dawkins, Kathleen C. Fraser, Svetlana Kiritchenko, (参考訳) この研究は、LSMが性差別的言語を批判し、擁護するために道徳的推論を適用できるという説明的見解を提供する。 我々は8つの大きな言語モデルを評価し、いずれも、性差別的仮定を反映した批判的視点と支持的視点の両方において、様々な道徳的視点に基づく説明を提供する能力を示した。 人的・自動的な評価では、8つのモデルがすべて理解しやすく、文脈的に関係のあるテキストを生成することが示され、性差別がどのように認識されているかの多様な見解を理解するのに役立ちます。 また、LLMが議論で引用した道徳的基盤の分析を通じて、モデルのアウトプットにおける多様なイデオロギー的視点を明らかにする。 我々は,性差別的言語を正当化するLLMの誤用の可能性に注意する。 また、LSMは性差別の信念の根源を理解し、インフォームドな介入を設計するためのツールとして機能する。 この二重能力を考えると、性差別のようなセンシティブな社会的トピックを含むアプリケーションにおいて、LSMを監視し、それらの使用のための安全メカニズムを設計することが重要である。

This work provides an explanatory view of how LLMs can apply moral reasoning to both criticize and defend sexist language. We assessed eight large language models, all of which demonstrated the capability to provide explanations grounded in varying moral perspectives for both critiquing and endorsing views that reflect sexist assumptions. With both human and automatic evaluation, we show that all eight models produce comprehensible and contextually relevant text, which is helpful in understanding diverse views on how sexism is perceived. Also, through analysis of moral foundations cited by LLMs in their arguments, we uncover the diverse ideological perspectives in models' outputs, with some models aligning more with progressive or conservative views on gender roles and sexism. Based on our observations, we caution against the potential misuse of LLMs to justify sexist language. We also highlight that LLMs can serve as tools for understanding the roots of sexist beliefs and designing well-informed interventions. Given this dual capacity, it is crucial to monitor LLMs and design safety mechanisms for their use in applications that involve sensitive societal topics, such as sexism.
翻訳日:2024-11-05 10:14:04 公開日:2024-09-30
# 命令型大言語モデルを用いた危機ツイートのゼロショット分類

Zero-Shot Classification of Crisis Tweets Using Instruction-Finetuned Large Language Models ( http://arxiv.org/abs/2410.00182v1 )

ライセンス: Link先を確認
Emma McDaniel, Samuel Scheele, Jeff Liu, (参考訳) ソーシャルメディア投稿は、災害対応のためのオープンソースのインテリジェンスの貴重な情報源としてしばしば認識されており、LLM以前のNLP技術は危機ツイートのデータセットで評価されている。 ソーシャルメディア投稿のゼロショット分類において,3つの商用大言語モデル(OpenAI GPT-4o, Gemini 1.5-flash-001, Anthropic Claude-3-5 Sonnet)を評価した。 1つのプロンプトでは、モデルが2つの分類タスクを実行するように要求される。 1) 人道的文脈でその地位が情報であるか否かを識別し,かつ 2) 人道階級の可能性のある16の階級に関して、その地位のランクと確率を提供する。 分類されている投稿は、統合危機のツイートデータセットであるCrisisBenchのものだ。 結果はマクロ、重み付け、二進F1スコアを用いて評価される。 情報的分類タスクは、一般的に余分な情報なしでより良く機能し、一方で、ツイートが採掘された時に起こった出来事を提供する人道的なラベル分類では、パフォーマンスが向上した。 さらに,モデルの性能はデータセットによって著しく変化しており,データセットの品質に関する疑問が提起されている。

Social media posts are frequently identified as a valuable source of open-source intelligence for disaster response, and pre-LLM NLP techniques have been evaluated on datasets of crisis tweets. We assess three commercial large language models (OpenAI GPT-4o, Gemini 1.5-flash-001 and Anthropic Claude-3-5 Sonnet) capabilities in zero-shot classification of short social media posts. In one prompt, the models are asked to perform two classification tasks: 1) identify if the post is informative in a humanitarian context; and 2) rank and provide probabilities for the post in relation to 16 possible humanitarian classes. The posts being classified are from the consolidated crisis tweet dataset, CrisisBench. Results are evaluated using macro, weighted, and binary F1-scores. The informative classification task, generally performed better without extra information, while for the humanitarian label classification providing the event that occurred during which the tweet was mined, resulted in better performance. Further, we found that the models have significantly varying performance by dataset, which raises questions about dataset quality.
翻訳日:2024-11-05 10:14:04 公開日:2024-09-30
# PET/MRデノナイジングのための容積条件スコアベース残留拡散モデル

Volumetric Conditional Score-based Residual Diffusion Model for PET/MR Denoising ( http://arxiv.org/abs/2410.00184v1 )

ライセンス: Link先を確認
Siyeop Yoon, Rui Hu, Yuang Wang, Matthew Tivnan, Young-don Son, Dufan Wu, Xiang Li, Kyungsang Kim, Quanzheng Li, (参考訳) PETイメージングは、分子および生理過程の定量的評価を提供する強力なモダリティである。 PETデノナイズの必要性は、PET画像における本質的な高ノイズレベルから生じ、スキャンの正確な解釈と定量的解析を著しく妨げる可能性がある。 深層学習技術の進歩により,拡散モデルに基づくPET復調技術は顕著な性能向上を示した。 しかしながら、これらのモデルはボリュームデータに適用する場合、しばしば制限に直面します。 さらに、多くの既存の拡散モデルでは、PETイメージングのユニークな特徴、例えば3次元体積特性を適切に考慮していないため、解剖学的一貫性が失われる可能性がある。 条件スコアに基づくResidual Diffusion(CSRD)モデルでは,高精細度スコア関数と3Dパッチワイドトレーニング戦略を取り入れ,効率的なPETデノナイズのためのモデルを最適化することで,これらの問題に対処する。 CSRDモデルは計算要求を大幅に減らし、デノナイジング処理を高速化する。 PETとMRIのボリュームデータを効果的に統合することにより、CSRDモデルは空間的コヒーレンスと解剖学的詳細を維持できる。 最後に、CSRDモデルは、画像の詳細を維持しながら定性評価と定量的評価の両方において優れた復調性能を達成し、既存の最先端手法よりも優れていることを示す。

PET imaging is a powerful modality offering quantitative assessments of molecular and physiological processes. The necessity for PET denoising arises from the intrinsic high noise levels in PET imaging, which can significantly hinder the accurate interpretation and quantitative analysis of the scans. With advances in deep learning techniques, diffusion model-based PET denoising techniques have shown remarkable performance improvement. However, these models often face limitations when applied to volumetric data. Additionally, many existing diffusion models do not adequately consider the unique characteristics of PET imaging, such as its 3D volumetric nature, leading to the potential loss of anatomic consistency. Our Conditional Score-based Residual Diffusion (CSRD) model addresses these issues by incorporating a refined score function and 3D patch-wise training strategy, optimizing the model for efficient volumetric PET denoising. The CSRD model significantly lowers computational demands and expedites the denoising process. By effectively integrating volumetric data from PET and MRI scans, the CSRD model maintains spatial coherence and anatomical detail. Lastly, we demonstrate that the CSRD model achieves superior denoising performance in both qualitative and quantitative evaluations while maintaining image details and outperforms existing state-of-the-art methods.
翻訳日:2024-11-05 10:14:04 公開日:2024-09-30
# 視覚言語モデルは視覚言語を本当に理解しているか?

Do Vision-Language Models Really Understand Visual Language? ( http://arxiv.org/abs/2410.00193v1 )

ライセンス: Link先を確認
Buse Giledereli, Yifan Hou, Yilei Tu, Mrinmaya Sachan, (参考訳) 視覚言語は、シンボル、形状、空間的配置を通じて情報を伝達するコミュニケーションシステムである。 ダイアグラムは、複雑な概念とその関係をイメージとして表現した視覚言語の典型例である。 ダイアグラムの象徴的な性質は、それらを理解することのできるモデルを構築する上で重要な課題を示している。 しかし、近年の研究では、LVLM(Large Vision-Language Models)が図を含む複雑な推論タスクに取り組むことができることが示唆されている。 本稿では,LVLMのダイアグラム理解能力を評価するための総合的なテストスイートを開発することにより,この現象を解明する。 テストスイートでは、モデル認識と推論能力を評価するために、概念エンティティとそれらの関係に焦点をあてたさまざまな質問と、複数のドメインにわたる実際の図を用いています。 3つのLVLM (GPT-4V, GPT-4o, Gemini) を評価したところ, これらのモデルが実体を正確に識別し, 推論できる一方で, 関係を理解する能力は著しく制限されていることがわかった。 さらなるテストでは、図理解における適切なパフォーマンスは、背景知識を近道として活用して関係情報を識別し、推論することに起因することが明らかにされている。 したがって、LVLMは真の図解理解能力に限界があり、それらの図解推論における印象的な性能は、モデルにおける背景知識などの他の要因から生じる錯覚である。

Visual language is a system of communication that conveys information through symbols, shapes, and spatial arrangements. Diagrams are a typical example of a visual language depicting complex concepts and their relationships in the form of an image. The symbolic nature of diagrams presents significant challenges for building models capable of understanding them. Yet, recent studies seem to suggest that Large Vision-Language Models (LVLMs) can even tackle complex reasoning tasks involving diagrams. In this paper, we investigate this phenomenon by developing a comprehensive test suite to evaluate the diagram comprehension capability of LVLMs. Our test suite uses a variety of questions focused on concept entities and their relationships over a set of synthetic as well as real diagrams across several domains to evaluate the recognition and reasoning abilities of models. Our evaluation of three LVLMs (GPT-4V, GPT-4o, and Gemini) shows that while these models can accurately identify and reason about entities, their ability to understand relationships is notably limited. Further testing reveals that the decent performance on diagram understanding largely stems from leveraging their background knowledge as shortcuts to identify and reason about the relational information. Thus, we conclude that LVLMs have a limited capability for genuine diagram understanding, and their impressive performance in diagram reasoning is an illusion emanating from other confounding factors, such as the background knowledge in the models.
翻訳日:2024-11-05 10:14:04 公開日:2024-09-30
# ノイズの多い量子センシングにおいて、学習が緩和する理由

More buck-per-shot: Why learning trumps mitigation in noisy quantum sensing ( http://arxiv.org/abs/2410.00197v1 )

ライセンス: Link先を確認
Aroosa Ijaz, C. Huerta Alderete, Frédéric Sauvage, Lukasz Cincio, M. Cerezo, Matthew L. Goh, (参考訳) 量子センシングは、量子技術の最も有望な応用の1つである。 しかし、量子力学の法則によって実現される究極の感度に到達することは、ノイズが存在する現実的なシナリオでは難しい課題である。 ノイズの有害な影響に対処するためのいくつかの戦略が提案されているが、これらは追加のショット予算のコストがかかる。 ショットは、無限の計測が無限の精度に繋がる可能性があるため、センシングに使われていないショットが実際にある種の気象学的改善につながることを真に保証するために、注意する必要がある。 本研究では, 誤差緩和, 推論技術, あるいはそれらの組み合わせに対する投資が, ノイズの多い量子センサの感度を(ショット)予算で向上させるかどうかを検討する。 各種センサプロトコルに対する詳細なバイアス分散誤差解析について述べる。 その結果,ゼロノイズ外挿法のコストは,その利点を上回ることがわかった。 また, センサが十分に安定しているという仮定の下で, 推論技術による量子センサのプリキャラクタリゼーションが, 最高の性能をもたらすことも見いだした。

Quantum sensing is one of the most promising applications for quantum technologies. However, reaching the ultimate sensitivities enabled by the laws of quantum mechanics can be a challenging task in realistic scenarios where noise is present. While several strategies have been proposed to deal with the detrimental effects of noise, these come at the cost of an extra shot budget. Given that shots are a precious resource for sensing -- as infinite measurements could lead to infinite precision -- care must be taken to truly guarantee that any shot not being used for sensing is actually leading to some metrological improvement. In this work, we study whether investing shots in error-mitigation, inference techniques, or combinations thereof, can improve the sensitivity of a noisy quantum sensor on a (shot) budget. We present a detailed bias-variance error analysis for various sensing protocols. Our results show that the costs of zero-noise extrapolation techniques outweigh their benefits. We also find that pre-characterizing a quantum sensor via inference techniques leads to the best performance, under the assumption that the sensor is sufficiently stable.
翻訳日:2024-11-05 06:56:01 公開日:2024-09-30
# DreamStruct: 合成データ生成によるスライドとユーザインターフェースの理解

DreamStruct: Understanding Slides and User Interfaces via Synthetic Data Generation ( http://arxiv.org/abs/2410.00201v1 )

ライセンス: Link先を確認
Yi-Hao Peng, Faria Huq, Yue Jiang, Jason Wu, Amanda Xin Yue Li, Jeffrey Bigham, Amy Pavel, (参考訳) 機械がスライドやユーザインターフェースのような構造化された視覚を理解することは、障害のある人にアクセスできるようにするのに不可欠である。 しかし、そのような理解を計算的に達成するには、時間と労力を要する手動のデータ収集とアノテーションが必要である。 この課題を克服するために、コード生成を用いてターゲットラベルを用いた合成構造化ビジュアルを生成する方法を提案する。 提案手法では,ラベルを組み込んだデータセットを作成でき,人間に注釈を付けたサンプルを少数用意してモデルを訓練することができる。 視覚要素を認識すること、視覚内容を記述すること、視覚内容の型を分類することである。

Enabling machines to understand structured visuals like slides and user interfaces is essential for making them accessible to people with disabilities. However, achieving such understanding computationally has required manual data collection and annotation, which is time-consuming and labor-intensive. To overcome this challenge, we present a method to generate synthetic, structured visuals with target labels using code generation. Our method allows people to create datasets with built-in labels and train models with a small number of human-annotated examples. We demonstrate performance improvements in three tasks for understanding slides and UIs: recognizing visual elements, describing visual content, and classifying visual content types.
翻訳日:2024-11-05 06:56:01 公開日:2024-09-30
# OpenAnimals: より良い一般化を目指す動物の再同定の再考

OpenAnimals: Revisiting Person Re-Identification for Animals Towards Better Generalization ( http://arxiv.org/abs/2410.00204v1 )

ライセンス: Link先を確認
Saihui Hou, Panjian Huang, Zengbin Wang, Yuan Liu, Zeyu Li, Man Zhang, Yongzhen Huang, (参考訳) 動物再識別は, 個体の再識別と類似性を共有するが, 多様な種, 環境, ポーズにより, 特異な複雑さを呈する新興分野である。 この領域での研究を容易にするために,動物の再識別に特化して設計された柔軟で拡張可能なコードベースであるOpenAnimalsを紹介した。 我々は,BoT,AGW,SBS,MGNなどの最先端の人物再同定手法を再検討し,HyenaID,LeopardID,SeaTurtleID,WhaleSharkIDなどの動物再同定ベンチマークの有効性を評価する。 以上の結果から,いくつかの手法が一般化されているが,その多くが,2つの課題の間に有意な違いがあることが示唆された。 このギャップを埋めるために、我々は、広範囲な実験からの洞察を取り入れ、シンプルで効果的な動物指向設計を導入した、強力な \textbf{Base} モデルである ARBase を提案する。 実験によると、ARBaseは既存のベースラインを一貫して上回り、さまざまなベンチマークで最先端のパフォーマンスを実現している。

This paper addresses the challenge of animal re-identification, an emerging field that shares similarities with person re-identification but presents unique complexities due to the diverse species, environments and poses. To facilitate research in this domain, we introduce OpenAnimals, a flexible and extensible codebase designed specifically for animal re-identification. We conduct a comprehensive study by revisiting several state-of-the-art person re-identification methods, including BoT, AGW, SBS, and MGN, and evaluate their effectiveness on animal re-identification benchmarks such as HyenaID, LeopardID, SeaTurtleID, and WhaleSharkID. Our findings reveal that while some techniques generalize well, many do not, underscoring the significant differences between the two tasks. To bridge this gap, we propose ARBase, a strong \textbf{Base} model tailored for \textbf{A}nimal \textbf{R}e-identification, which incorporates insights from extensive experiments and introduces simple yet effective animal-oriented designs. Experiments demonstrate that ARBase consistently outperforms existing baselines, achieving state-of-the-art performance across various benchmarks.
翻訳日:2024-11-05 06:56:01 公開日:2024-09-30
# 有効蒸留による干渉または干渉しない量子鍵分布

Interfering-or-not-interfering quantum key distribution with advantage distillation ( http://arxiv.org/abs/2410.00205v1 )

ライセンス: Link先を確認
Seyede Zahra Zarei, Fatemeh Tarighi Tabesh, Mehdi Abdi, (参考訳) Interfering-or-not-interfering quantum key distribution (INI-QKD) は、既存のツインフィールドプロトコルの変種を上回る性能を持つ革新的なプロトコルである。 本研究では, 量子通信後の高効率蒸留(AD)の新たなステップを導入し, さらなる性能向上を図る。 ADを通じて、生のキーを小さなビットブロックに分割し、高度に相関したビット対を識別する。 異なる現実的条件に対する最適分割を数値計算する。 以上の結果より, 送電距離が大幅に増大し, INI-QKDの秘密鍵レートが向上する可能性が示唆された。 これは特に、高偏極ミスアライメントエラー率とかなりの位相ミスマッチの存在において、プロトコルの実験的な設定を変更することなく、最も顕著である。

Interfering-or-not-interfering quantum key distribution (INI-QKD) is an innovative protocol whose performance surpasses existing twin-field protocol variants. In this study, we introduce an additional step of advantage distillation (AD) after the quantum communication phase to further enhance its performance. Through the AD the raw key is partitioned into small blocks of bits to identify highly correlated bit pairs. We numerically compute the optimal partitioning for different realistic conditions. Our results show that by employing the advantage distillation the transmission distance is significantly increased and thus can potentially improve the secret key rate of INI-QKD. This in particular is most prominent in the presence of high polarization misalignment error rates and considerable phase mismatch, all without altering the experimental setup of the protocol.
翻訳日:2024-11-05 06:56:01 公開日:2024-09-30
# 既存のモデルと従来の機械学習技術を用いたテキスト分類における最先端のesgドメイン固有の事前訓練された大規模言語モデルの性能評価

Evaluating the performance of state-of-the-art esg domain-specific pre-trained large language models in text classification against existing models and traditional machine learning techniques ( http://arxiv.org/abs/2410.00207v1 )

ライセンス: Link先を確認
Tin Yuet Chung, Majid Latifi, (参考訳) 本研究では,テキスト開示における環境・社会・ガバナンス情報(ESG)の分類について検討する。 本研究の目的は,E,S,G関連コンテンツをそれぞれ正確に識別・分類できるバイナリ分類モデルを開発し,評価することである。 この研究の動機は、投資決定におけるESGの考慮と企業説明責任の増大に起因している。 ESG情報の正確かつ効率的な分類は、企業の持続可能性への影響を理解し、情報的意思決定を行うことが、ステークホルダーにとって不可欠である。 この研究は、データ収集、データ前処理、ESGにフォーカスしたLarge Language Models(LLM)と従来の機械学習(Support Vector Machines, XGBoost)の分類器の開発を含む定量的アプローチを用いている。 パフォーマンス評価は、満足のいくメトリクスが達成されるまで反復的な改善を導く。 この研究は、従来の機械学習技術(Support Vector Machines、XGBoost)、最先端言語モデル(FinBERT-ESG)、Llama 2のような微調整されたLLMを、精度、精度、リコール、F1スコアといった標準的な自然言語処理のパフォーマンス指標を用いて比較した。 新たな微調整手法 Qlora が LLM に適用され,ESG ドメイン全体の性能が大幅に向上した。 この研究はまた、EnvLlama 2-Qlora、SocLlama 2-Qlora、GovLlama 2-Qloraといったドメイン固有の微調整モデルも開発しており、ESGテキスト分類における顕著な結果を示している。

This research investigates the classification of Environmental, Social, and Governance (ESG) information within textual disclosures. The aim is to develop and evaluate binary classification models capable of accurately identifying and categorizing E, S and G-related content respectively. The motivation for this research stems from the growing importance of ESG considerations in investment decisions and corporate accountability. Accurate and efficient classification of ESG information is crucial for stakeholders to understand the impact of companies on sustainability and to make informed decisions. The research uses a quantitative approach involving data collection, data preprocessing, and the development of ESG-focused Large Language Models (LLMs) and traditional machine learning (Support Vector Machines, XGBoost) classifiers. Performance evaluation guides iterative refinement until satisfactory metrics are achieved. The research compares traditional machine learning techniques (Support Vector Machines, XGBoost), state-of-the-art language model (FinBERT-ESG) and fine-tuned LLMs like Llama 2, by employing standard Natural Language Processing performance metrics such as accuracy, precision, recall, F1-score. A novel fine-tuning method, Qlora, is applied to LLMs, resulting in significant performance improvements across all ESG domains. The research also develops domain-specific fine-tuned models, such as EnvLlama 2-Qlora, SocLlama 2-Qlora, and GovLlama 2-Qlora, which demonstrate impressive results in ESG text classification.
翻訳日:2024-11-05 06:56:01 公開日:2024-09-30
# エンドツーエンドピアノ演奏-MIDIによる変圧器を用いたスコア変換

End-to-end Piano Performance-MIDI to Score Conversion with Transformers ( http://arxiv.org/abs/2410.00210v1 )

ライセンス: Link先を確認
Tim Beyer, Angela Dai, (参考訳) 表現力のある人間の演奏から正確な音符の自動生成は、計算音楽学の基本的な課題である。 そこで本研究では,実世界のピアノ演奏-MIDIファイルから直接,詳細な楽譜を構築するエンド・ツー・エンドのディープラーニング手法を提案する。 シンボリック・ミュージック・データのための新しいトークン化表現を備えたモダン・トランスフォーマー・ベース・アーキテクチャを提案する。 タスクをノートワイズ分類ではなくシーケンスからシーケンスへの変換として分別することは、より簡潔で正確な表記の予測を可能にしながら、アライメントの要求とアノテーションのコストを低減させる。 シンボリックな音楽データをシリアライズするために、連続した値を注意深く定量化する複合トークンに基づいて、カスタムなトークン化ステージを設計する。 この手法は、従来の手法と比較して、シーケンス長を$3.5\times$に減らしながら、より多くのスコア情報を保存する。 本手法は, 変圧器のバックボーンを用いて, 音符値, リズミカルな構造, スタッフの割り当てなどの詳細の理解を深める。 MUSTERなどの転写指標を用いてエンドツーエンドの評価を行うと、従来のディープラーニングアプローチや複雑なHMMベースの最先端パイプラインよりも大幅に改善される。 また,本手法は,演奏データからトリルマークやステム方向などの表記法の詳細を直接予測する最初の方法でもある。 コードとモデルはhttps://github.com/TimFelixBeyer/MIDI2ScoreTransformerで入手できる。

The automated creation of accurate musical notation from an expressive human performance is a fundamental task in computational musicology. To this end, we present an end-to-end deep learning approach that constructs detailed musical scores directly from real-world piano performance-MIDI files. We introduce a modern transformer-based architecture with a novel tokenized representation for symbolic music data. Framing the task as sequence-to-sequence translation rather than note-wise classification reduces alignment requirements and annotation costs, while allowing the prediction of more concise and accurate notation. To serialize symbolic music data, we design a custom tokenization stage based on compound tokens that carefully quantizes continuous values. This technique preserves more score information while reducing sequence lengths by $3.5\times$ compared to prior approaches. Using the transformer backbone, our method demonstrates better understanding of note values, rhythmic structure, and details such as staff assignment. When evaluated end-to-end using transcription metrics such as MUSTER, we achieve significant improvements over previous deep learning approaches and complex HMM-based state-of-the-art pipelines. Our method is also the first to directly predict notational details like trill marks or stem direction from performance data. Code and models are available at https://github.com/TimFelixBeyer/MIDI2ScoreTransformer
翻訳日:2024-11-05 06:56:01 公開日:2024-09-30
# マルチモーダル生成モデル推論の特性と高速化

Characterizing and Efficiently Accelerating Multimodal Generation Model Inference ( http://arxiv.org/abs/2410.00215v1 )

ライセンス: Link先を確認
Yejin Lee, Anna Sun, Basil Hosmer, Bilge Acun, Can Balioglu, Changhan Wang, Charles David Hernandez, Christian Puhrsch, Daniel Haziza, Driss Guessous, Francisco Massa, Jacob Kahn, Jeffrey Wan, Jeremy Reizenstein, Jiaqi Zhai, Joe Isaacson, Joel Schlosser, Juan Pino, Kaushik Ram Sadagopan, Leonid Shamis, Linjian Ma, Min-Jae Hwang, Mingda Chen, Mostafa Elhoushi, Pedro Rodriguez, Ram Pasunuru, Scott Yih, Sravya Popuri, Xing Liu, Carole-Jean Wu, (参考訳) 生成人工知能(AI)技術は、コンピューティング産業に革命をもたらしている。 その応用は様々な分野に拡大しただけでなく、新しいシステム設計と最適化の機会ももたらした。 この技術は、複数のモードで理解し、応答することができる。 しかし、現在の高度な機能には、重要なシステムリソース要求が伴っている。 生成的AI能力を世界中の何十億ものユーザーに持続的に拡張するには、推論は迅速かつ効率的でなければならない。 本稿では,実システム上でのマルチモーダル生成モデルのファミリーを特徴付けることにより,鍵となるシステム設計と最適化の機会を示す。 自動回帰トークン生成は、一般的にGPUアイドル時間に支配される、重要なレイテンシパフォーマンスボトルネックである。 生成AIモデル全体のメモリ集約的な注意に加えて、線形操作はTransformerベースのモデルにおけるフィードフォワードネットワークによる大きな推論レイテンシを構成する。 我々は、アプリケーションからシステムソフトウェア、ハードウェアまで、最先端の最適化レバーが3.88倍のベースラインを設定できることを実証した。

Generative artificial intelligence (AI) technology is revolutionizing the computing industry. Not only its applications have broadened to various sectors but also poses new system design and optimization opportunities. The technology is capable of understanding and responding in multiple modalities. However, the advanced capability currently comes with significant system resource demands. To sustainably scale generative AI capabilities to billions of users in the world, inference must be fast and efficient. This paper pinpoints key system design and optimization opportunities by characterizing a family of emerging multi-modal generation models on real systems. Auto-regressive token generation is a critical latency performance bottleneck, typically dominated by GPU idle time. In addition to memory-intensive attention across the generative AI models, linear operations constitute significant inference latency due to the feed forward networks in Transformer-based models. We demonstrate that state-of-the-art optimization levers, spanning from applications to system software and hardware, set a 3.88x better baseline.
翻訳日:2024-11-05 06:56:01 公開日:2024-09-30
# T-KAER: 透明性向上した知識強化エンティティ解決フレームワーク

T-KAER: Transparency-enhanced Knowledge-Augmented Entity Resolution Framework ( http://arxiv.org/abs/2410.00218v1 )

ライセンス: Link先を確認
Lan Li, Liri Fang, Yiren Liu, Vetle I. Torvik, Bertram Ludaescher, (参考訳) エンティティ解決(ER)は、2つの表現が同じ現実世界のエンティティを指すかどうかを判断するプロセスであり、データキュレーションとデータのクリーニングにおいて重要な役割を果たす。 近年,外的知識を増大させることにより,事前学習型言語モデルの改善を目的としたKAERフレームワークが導入されている。 しかし、拡張されている外部知識を特定し、そのモデルの予測への貢献を理解することは、研究コミュニティではほとんど関心を示さなかった。 本稿では、このギャップを解決するために、Transparency-enhanced Knowledge-Augmented Entity ResolutionフレームワークであるT-KAERを導入する。 透明性を高めるために、3つの透明性関連質問(T-Q)が提案されている。 T-Q(2): KAERは生データ入力にどの意味情報を付加するのか? T-Q(3): 拡張データ入力のセマンティック情報は予測に影響を与えるか? T-Qに対処するため、T-KAERはログファイル内のエンティティ解決プロセスを文書化することで透明性を向上させるように設計されている。 実験では、T-KAERの透明性コンポーネントを示すために、引用データセットが使用される。 このデモンストレーションでは、T-KAERが量的および質的な視点からエラー分析を促進する方法を示し、意味情報が拡張されていることや、強化された知識が予測に異なる影響を与える理由を示す。

Entity resolution (ER) is the process of determining whether two representations refer to the same real-world entity and plays a crucial role in data curation and data cleaning. Recent studies have introduced the KAER framework, aiming to improve pre-trained language models by augmenting external knowledge. However, identifying and documenting the external knowledge that is being augmented and understanding its contribution to the model's predictions have received little to no attention in the research community. This paper addresses this gap by introducing T-KAER, the Transparency-enhanced Knowledge-Augmented Entity Resolution framework. To enhance transparency, three Transparency-related Questions (T-Qs) have been proposed: T-Q(1): What is the experimental process for matching results based on data inputs? T-Q(2): Which semantic information does KAER augment in the raw data inputs? T-Q(3): Which semantic information of the augmented data inputs influences the predictions? To address the T-Qs, T-KAER is designed to improve transparency by documenting the entity resolution processes in log files. In experiments, a citation dataset is used to demonstrate the transparency components of T-KAER. This demonstration showcases how T-KAER facilitates error analysis from both quantitative and qualitative perspectives, providing evidence on "what" semantic information is augmented and "why" the augmented knowledge influences predictions differently.
翻訳日:2024-11-05 06:56:01 公開日:2024-09-30
# 携帯型自由孔式ペネトロメータによる表層浅層堆積物の確率的分類

Probabilistic Classification of Near-Surface Shallow-Water Sediments using A Portable Free-Fall Penetrometer ( http://arxiv.org/abs/2410.00225v1 )

ライセンス: Link先を確認
Md Rejwanur Rahman, Adrian Rodriguez-Marek, Nina Stark, Grace Massey, Carl Friedrichs, Kelly M. Dorgan, (参考訳) 海底堆積物の地学的評価は、土砂特性、挙動、強度に関する貴重な洞察を提供するエンジニアリングプロジェクトや海軍応用にとって重要である。 高品質な海底試料の採取は難しい作業であり、現場での試験が現場の特徴の重要な部分となる。 フリーフォールペネトロメータ (FFP) は、海面堆積物を高速にプロファイリングするための頑丈な道具として出現し、沿岸部や河口の環境や浅瀬、深海深度でも見られる。 従来のオフショアコーン浸透試験(CPT)データの解釈法は確立されているが、FFPデータへの適応は研究の領域である。 本研究では,機械学習アルゴリズムを用いて,携帯型自由落下ペネトロメータ(PFFP)データに基づく堆積挙動分類システムを構築する革新的な手法を提案する。 提案モデルでは,セキム湾(ワシントン),ポトマック川,ヨーク川(ヴァージニア)などの地点から得られたPFFPの測定値を利用する。 その結果, 集合予測の精度は91.1\%であり, 可塑性の少ない無粘性堆積物, 可塑性の少ない無粘性堆積物, 可塑性の低い密着性堆積物, 高可塑性の密着性堆積物などが示された。 モデル予測は、予測されたクラスを提供するだけでなく、予測に関連する固有の不確実性を推定し、異なる堆積物の挙動に関する貴重な洞察を与える。 これらの不確実性は、典型的には非常に低いものから非常に高いものまであり、より低い不確実性はより一般的であるが、堆積物組成、環境条件、運用技術の変化に大きく依存する可能性がある。 不確実性を定量化することにより、このモデルはより包括的でインフォメーションされた堆積物分類のアプローチを提供する。

The geotechnical evaluation of seabed sediments is important for engineering projects and naval applications, offering valuable insights into sediment properties, behavior, and strength. Obtaining high-quality seabed samples can be a challenging task, making in-situ testing an essential part of site characterization. Free Fall Penetrometers (FFP) have emerged as robust tools for rapidly profiling seabed surface sediments, even in energetic nearshore or estuarine conditions and shallow as well as deep depths. While methods for interpretation of traditional offshore Cone Penetration Testing (CPT) data are well-established, their adaptation to FFP data is still an area of research. In this study, we introduce an innovative approach that utilizes machine learning algorithms to create a sediment behavior classification system based on portable free fall penetrometer (PFFP) data. The proposed model leverages PFFP measurements obtained from locations such as Sequim Bay (Washington), the Potomac River, and the York River (Virginia). The result shows 91.1\% accuracy in the class prediction, with the classes representing cohesionless sediment with little to no plasticity, cohesionless sediment with some plasticity, cohesive sediment with low plasticity, and cohesive sediment with high plasticity. The model prediction not only provides the predicted class but also yields an estimate of inherent uncertainty associated with the prediction, which can provide valuable insight about different sediment behaviors. These uncertainties typically range from very low to very high, with lower uncertainties being more common, but they can increase significantly dpending on variations in sediment composition, environmental conditions, and operational techniques. By quantifying uncertainty, the model offers a more comprehensive and informed approach to sediment classification.
翻訳日:2024-11-05 06:56:01 公開日:2024-09-30
# 確率的逆問題:安定性、正則化およびワッサーシュタイン勾配流

Stochastic Inverse Problem: stability, regularization and Wasserstein gradient flow ( http://arxiv.org/abs/2410.00229v1 )

ライセンス: Link先を確認
Qin Li, Maria Oprea, Li Wang, Yunan Yang, (参考訳) 物理科学や生物学における逆問題はしばしば、ランダムな未知のパラメータを復元する。 追従量は未知のパラメータの確率分布であり、測定値と整合したデータを生成する。 その結果、これらの問題は確率的逆問題として自然に定式化される。 本稿では, 直接反転, 正規化による変分定式化, 勾配流による最適化, 決定論的逆問題による並列化の3つの側面について検討する。 決定論的な場合との大きな違いは、我々が操作する空間である。 ここでは、ユークリッド空間やソボレフ空間よりも確率空間内で働き、研究に必要な輸送理論の測定ツールを作成する。 その結果、損失関数の設計と最適化プロセスの両方において、計量の選択が最適化器の安定性と特性に大きな影響を及ぼすことが明らかとなった。

Inverse problems in physical or biological sciences often involve recovering an unknown parameter that is random. The sought-after quantity is a probability distribution of the unknown parameter, that produces data that aligns with measurements. Consequently, these problems are naturally framed as stochastic inverse problems. In this paper, we explore three aspects of this problem: direct inversion, variational formulation with regularization, and optimization via gradient flows, drawing parallels with deterministic inverse problems. A key difference from the deterministic case is the space in which we operate. Here, we work within probability space rather than Euclidean or Sobolev spaces, making tools from measure transport theory necessary for the study. Our findings reveal that the choice of metric -- both in the design of the loss function and in the optimization process -- significantly impacts the stability and properties of the optimizer.
翻訳日:2024-11-05 06:56:01 公開日:2024-09-30
# Helpful DoggyBot:Legged RobotsとVision-Language Modelを用いたオープンワールドオブジェクトフェッチ

Helpful DoggyBot: Open-World Object Fetching using Legged Robots and Vision-Language Models ( http://arxiv.org/abs/2410.00231v1 )

ライセンス: Link先を確認
Qi Wu, Zipeng Fu, Xuxin Cheng, Xiaolong Wang, Chelsea Finn, (参考訳) 学習に基づく手法は四足歩行において高い性能を達成している。 しかし、いくつかの課題は、環境と人間との相互作用を必要とする有能な屋内スキルを学ぶことを妨げる:操作のためのエンドエフェクターの欠如、シミュレーションデータのみを用いた限定的な意味理解、屋内環境におけるトラバーサビリティと到達可能性の低下である。 室内環境における四足歩行操作のためのシステムを提案する。 オブジェクト操作にはフロントマウントのグリップ、登山や体全体を傾けるようなアジャイルスキルにエゴセントリックな深さを用いたシミュレーションで訓練された低レベルコントローラ、そしてセマンティック理解とコマンド生成のために3人目の魚眼とエゴセントリックなRGBカメラを備えた事前訓練された視覚言語モデル(VLM)を使用する。 実世界のデータ収集やトレーニングを行なわずに、2つの目に見えない環境でシステムを評価する。 我々のシステムは、これらの環境をゼロショットで一般化し、ユーザのコマンドに従って、クイーンサイズのベッドに登った後、ランダムに配置されたおもちゃを60%の成功率で取り出すことができる。 プロジェクトサイト:https://helpful-doggybot.github.io/

Learning-based methods have achieved strong performance for quadrupedal locomotion. However, several challenges prevent quadrupeds from learning helpful indoor skills that require interaction with environments and humans: lack of end-effectors for manipulation, limited semantic understanding using only simulation data, and low traversability and reachability in indoor environments. We present a system for quadrupedal mobile manipulation in indoor environments. It uses a front-mounted gripper for object manipulation, a low-level controller trained in simulation using egocentric depth for agile skills like climbing and whole-body tilting, and pre-trained vision-language models (VLMs) with a third-person fisheye and an egocentric RGB camera for semantic understanding and command generation. We evaluate our system in two unseen environments without any real-world data collection or training. Our system can zero-shot generalize to these environments and complete tasks, like following user's commands to fetch a randomly placed stuff toy after climbing over a queen-sized bed, with a 60% success rate. Project website: https://helpful-doggybot.github.io/
翻訳日:2024-11-05 06:56:01 公開日:2024-09-30
# 加速グラディエントDescent Optimizationと正規化のためのプレコンディショニング

Preconditioning for Accelerated Gradient Descent Optimization and Regularization ( http://arxiv.org/abs/2410.00232v1 )

ライセンス: Link先を確認
Qiang Ye, (参考訳) 適応学習率や様々な正規化手法などの加速学習アルゴリズムは広く用いられているが、完全には理解されていない。 正規化が導入された場合、適応学習率のような標準オプティマイザは効果的に動作しない。 これにより、代替正則化アプローチの必要性と、正則化とプリコンディショニングを適切に組み合わせる方法についての疑問が持ち上がる。 本稿では,(1) AdaGrad, RMSProp, およびAdamとのプレコンディショニングによるトレーニングの促進,(2) 正規化とプレコンディショニングの相互作用の解明,(2) 正規化のための変数選択の選択肢の概説,そして(3) 正規化手法がヘッセン条件の改善によってトレーニングを加速する方法を実証し, この視点が新しいプレコンディショニングトレーニングアルゴリズムにどのように繋がるかを論じる。 本研究は,様々な加速手法を理解し,適切な正規化スキームを導出するための統一的な数学的枠組みを提供する。

Accelerated training algorithms, such as adaptive learning rates and various normalization methods, are widely used but not fully understood. When regularization is introduced, standard optimizers like adaptive learning rates may not perform effectively. This raises the need for alternative regularization approaches and the question of how to properly combine regularization with preconditioning. In this paper, we address these challenges using the theory of preconditioning as follows: (1) We explain how preconditioning with AdaGrad, RMSProp, and Adam accelerates training; (2) We explore the interaction between regularization and preconditioning, outlining different options for selecting the variables for regularization, and in particular we discuss how to implement that for the gradient regularization; and (3) We demonstrate how normalization methods accelerate training by improving Hessian conditioning, and discuss how this perspective can lead to new preconditioning training algorithms. Our findings offer a unified mathematical framework for understanding various acceleration techniques and deriving appropriate regularization schemes.
翻訳日:2024-11-05 06:56:01 公開日:2024-09-30
# デルタ関数ポテンシャルを持つ$\mathcal{PT}$-symmetric square Wellにおける確率とエネルギー密度のスペクトルと輸送

Spectra and transport of probability and energy densities in a $\mathcal{PT}$-symmetric square well with a delta-function potential ( http://arxiv.org/abs/2410.00234v1 )

ライセンス: Link先を確認
Francisco Ricardo Torres Arvizu, Adrian Ortega, Hernán Larralde, (参考訳) 単純な$\mathcal{P}\mathcal{T}$-対称モデルのスペクトル、固有状態、輸送特性を、原点にデルタポテンシャルを持つ有限で複素正方形井戸ポテンシャルで調べる。 デルタポテンシャルの強度が増加するにつれて、システムは$\mathcal{P}\mathcal{T}$対称性の破れに伴う密度の蓄積を伴う例外的な点を示す。 また、密度とエネルギー密度のフラックスを取得し、それらの輸送特性を解析する。 この結果から, 伝送係数と反射係数の一般ユニタリ関係を導出するのに十分であるような, 系に流れ込むすべての密度をシンクに流すという意味で, 対称位相輸送は効率的であることが判明した。

We study the spectrum, eigenstates and transport properties of a simple $\mathcal{P}\mathcal{T}$-symmetric model consisting in a finite, complex, square well potential with a delta potential at the origin. We show that as the strength of the delta potential increases, the system exhibits exceptional points accompanied by an accumulation of density associated with the break in the $\mathcal{P}\mathcal{T}$-symmetry. We also obtain the density and energy density fluxes and analyze their transport properties. We find that in the $\mathcal{P}\mathcal{T}-$ symmetric phase transport is efficient, in the sense that all the density that flows into the system at the source, flows out at the sink, which is sufficient to derive a generalized unitary relation for the transmission and reflection coefficients.
翻訳日:2024-11-05 06:56:01 公開日:2024-09-30
# NOMAとRSMAの変調と符号化

Modulation and Coding for NOMA and RSMA ( http://arxiv.org/abs/2410.00239v1 )

ライセンス: Link先を確認
Hamid Jafarkhani, Hossein Maleki, Mojtaba Vaezi, (参考訳) 次世代多重アクセス(NGMA)は、従来の直交法とは異なる送信方式の傘用語である。 NGMAの重要候補である非直交多重アクセス(Noma)は、複数のユーザが同時に時間、周波数、空間を共有することで接続性を高めるソリューションとして現れる。 しかし、特にユーザ間干渉のキャンセルにおいて、NOMAは実装上の課題に直面している。 本稿では,NOMAの背景となる原則について論じ,従来のNOMA手法を概観する。 そして、これらの課題に対処するため、非同期伝送と干渉対応変調技術を提案し、連続的な干渉キャンセルを伴わずに復号化を可能にする。 目標は、動的に干渉に適応し、ビットエラー率(BER)を最小化し、ユーザ間、キャリア間、セル間干渉の存在下でユーザスループットを向上させるコンステレーションを設計することである。 BERの最小化とスペクトル効率の向上の伝統的な関係について検討し、BERを改善するための潜在的な解決策として、エンドツーエンド通信のためのディープオートエンコーダが出現する。 干渉対応変調は、非直交チャネルの星座設計に革命をもたらす。 レート分割多重アクセス(RSMA)は、マルチユーザシステムにおけるもう1つの有望な干渉管理手法である。 有限アルファベットNOMAの課題に対処することに加えて,コードドメインNOMA,トレリスコードNOMA,RSMAを重要なNGMA候補として紹介する。 また、低遅延通信に向けたチャネル符号化の進化について検討し、5Gネットワークにおける変調および符号化方式について検討する。 最後に,概念から機能技術へのNOMAの実現の重要性を強調し,今後の研究の方向性を強調した。

Next-generation multiple access (NGMA) serves as an umbrella term for transmission schemes distinct from conventional orthogonal methods. A key candidate of NGMA, non-orthogonal multiple access (NOMA), emerges as a solution to enhance connectivity by allowing multiple users to share time, frequency, and space concurrently. However, NOMA faces challenges in implementation, particularly in canceling inter-user interference. In this paper, we discuss the principles behind NOMA and review conventional NOMA methods. Then, to address these challenges, we present asynchronous transmission and interference-aware modulation techniques, enabling decoding without successive interference cancellation. The goal is to design constellations that dynamically adapt to interference, minimizing bit error rates (BERs) and enhancing user throughput in the presence of inter-user, inter-carrier, and inter-cell interference. The traditional link between minimizing BER and increasing spectral efficiency is explored, with deep autoencoders for end-to-end communication emerging as a potential solution to improve BERs. Interference-aware modulation can revolutionize constellation design for non-orthogonal channels. Rate-splitting multiple access (RSMA) is another promising interference management technique in multi-user systems. In addition to addressing challenges in finite-alphabet NOMA, this paper offers new insights and provides an overview of code-domain NOMA, trellis-coded NOMA, and RSMA as key NGMA candidates. We also discuss the evolution of channel coding toward low-latency communication and examine modulation and coding schemes in 5G networks. Finally, we highlight future research directions, emphasizing their importance for realizing NOMA from concept to functional technology.
翻訳日:2024-11-05 06:56:01 公開日:2024-09-30
# 離散時間アクティブ推論の連続学習能力の実証と実用化

Demonstrating the Continual Learning Capabilities and Practical Application of Discrete-Time Active Inference ( http://arxiv.org/abs/2410.00240v1 )

ライセンス: Link先を確認
Rithvik Prakki, (参考訳) アクティブ推論(英: Active Inference)は、エージェントが環境とどのように相互作用し、連続的な適応と意思決定を可能にするかを理解する数学的枠組みである。 ベイズ推論と自由エネルギー最小化を組み合わせて、不確実かつダイナミックな文脈における知覚、行動、学習をモデル化する。 強化学習とは異なり、アクティブ推論は期待される自由エネルギーを最小化することによって、探索と搾取をシームレスに統合する。 本稿では,能動推論を基礎として,個別の時間環境で動作するエージェントの連続学習フレームワークを提案する。 我々は,変分エネルギーと期待自由エネルギーの数学的定式化を導出し,それを自己学習研究エージェントの設計に適用する。 このエージェントは信念を更新し、手動で介入することなく新しいデータに基づいて行動を適用する。 環境変化実験を通じて、エージェントがモデルを再学習し、効率的に洗練する能力を示し、金融や医療といった複雑な領域に適合する。 提案するフレームワークが他のシステムにどのように一般化するかを議論し、適応型AIの柔軟なアプローチとしてアクティブ推論を位置づける。

Active inference is a mathematical framework for understanding how agents (biological or artificial) interact with their environments, enabling continual adaptation and decision-making. It combines Bayesian inference and free energy minimization to model perception, action, and learning in uncertain and dynamic contexts. Unlike reinforcement learning, active inference integrates exploration and exploitation seamlessly by minimizing expected free energy. In this paper, we present a continual learning framework for agents operating in discrete time environments, using active inference as the foundation. We derive the mathematical formulations of variational and expected free energy and apply them to the design of a self-learning research agent. This agent updates its beliefs and adapts its actions based on new data without manual intervention. Through experiments in changing environments, we demonstrate the agent's ability to relearn and refine its models efficiently, making it suitable for complex domains like finance and healthcare. The paper concludes by discussing how the proposed framework generalizes to other systems, positioning active inference as a flexible approach for adaptive AI.
翻訳日:2024-11-05 06:56:01 公開日:2024-09-30
# 量子化と非同期フェデレーション学習

Quantized and Asynchronous Federated Learning ( http://arxiv.org/abs/2410.00242v1 )

ライセンス: Link先を確認
Tomas Ortega, Hamid Jafarkhani, (参考訳) 連合学習の最近の進歩により、非同期の変種は同期の変種よりも高速でスケーラブルであることが示されている。 しかし、その設計には量子化は含まれておらず、実際には通信ボトルネックに対処する必要がある。 このギャップを埋めるために、直接量子化による誤りの伝播を回避するために隠れ状態量子化方式を導入する新しいアルゴリズム、Quantized Asynchronous Federated Learning (QAFeL) を開発した。 QAFeLには、クライアント更新を集約するバッファも含まれており、セキュアアグリゲーションのような技術とのスケーラビリティと互換性を保証する。 さらに、QAFeL が非凸目的に対する確率的勾配降下に対する $\mathcal{O}(1/\sqrt{T})$ ergodic convergence rate を達成することを証明した。 また、安定度と量子化の間の時間的誤差が高次誤差項にのみ影響することを証明する。 標準ベンチマークで理論的な結果を検証する。

Recent advances in federated learning have shown that asynchronous variants can be faster and more scalable than their synchronous counterparts. However, their design does not include quantization, which is necessary in practice to deal with the communication bottleneck. To bridge this gap, we develop a novel algorithm, Quantized Asynchronous Federated Learning (QAFeL), which introduces a hidden-state quantization scheme to avoid the error propagation caused by direct quantization. QAFeL also includes a buffer to aggregate client updates, ensuring scalability and compatibility with techniques such as secure aggregation. Furthermore, we prove that QAFeL achieves an $\mathcal{O}(1/\sqrt{T})$ ergodic convergence rate for stochastic gradient descent on non-convex objectives, which is the optimal order of complexity, without requiring bounded gradients or uniform client arrivals. We also prove that the cross-term error between staleness and quantization only affects the higher-order error terms. We validate our theoretical findings on standard benchmarks.
翻訳日:2024-11-05 06:46:17 公開日:2024-09-30
# テキスト分類における統合勾配と言語解析を用いた説明可能な大言語モデルの一手法

A Methodology for Explainable Large Language Models with Integrated Gradients and Linguistic Analysis in Text Classification ( http://arxiv.org/abs/2410.00250v1 )

ライセンス: Link先を確認
Marina Ribeiro, Bárbara Malcorra, Natália B. Mota, Rodrigo Wilkens, Aline Villavicencio, Lilian C. Hubner, César Rennó-Costa, (参考訳) アルツハイマー病(AD)のような発声に影響を及ぼす神経疾患は、社会的、精神的な感情的効果、その他の側面が完全には理解されていないかにかかわらず、患者と介護者の生活に大きな影響を及ぼす。 近年のLarge Language Model (LLM) アーキテクチャの進歩は、自然発声による神経疾患の代表的特徴を識別する多くのツールを開発した。 しかし、LLMは通訳性に欠けており、その決定の明確かつ具体的な理由を提供していない。 したがって、音声における神経疾患の代表的特徴を識別し、これらの特徴がなぜ関連しているのかを明確に説明できる方法が必要である。 本稿では, SLIME (Statistical and Linguistic Insights for Model Explanation) というLCM法を提案する。 本手法の開発には,Cookie Theft 画像記述タスクの書き起こしからなる英語データセットを用いた。 LLM Bidirectional Encoder Representations from Transformers (BERT)は、テキスト記述をADまたはコントロールグループに分類した。 代表的な語彙の特徴を識別し,モデルの判断に最も関係があるかを判断するために,統合言語(IG),言語質問・単語数(LIWC),統計解析を含むパイプラインを用いた。 提案手法は,ADにおける社会的参照の減少を反映した語彙成分を活用し,LLMの精度をさらに向上させることを示す。 そこで我々は, 神経疾患, 特に神経変性研究において, LLMを神経学的臨床的文脈に適用する信頼性を高めるための説明可能性ツールを提供する。

Neurological disorders that affect speech production, such as Alzheimer's Disease (AD), significantly impact the lives of both patients and caregivers, whether through social, psycho-emotional effects or other aspects not yet fully understood. Recent advancements in Large Language Model (LLM) architectures have developed many tools to identify representative features of neurological disorders through spontaneous speech. However, LLMs typically lack interpretability, meaning they do not provide clear and specific reasons for their decisions. Therefore, there is a need for methods capable of identifying the representative features of neurological disorders in speech and explaining clearly why these features are relevant. This paper presents an explainable LLM method, named SLIME (Statistical and Linguistic Insights for Model Explanation), capable of identifying lexical components representative of AD and indicating which components are most important for the LLM's decision. In developing this method, we used an English-language dataset consisting of transcriptions from the Cookie Theft picture description task. The LLM Bidirectional Encoder Representations from Transformers (BERT) classified the textual descriptions as either AD or control groups. To identify representative lexical features and determine which are most relevant to the model's decision, we used a pipeline involving Integrated Gradients (IG), Linguistic Inquiry and Word Count (LIWC), and statistical analysis. Our method demonstrates that BERT leverages lexical components that reflect a reduction in social references in AD and identifies which further improve the LLM's accuracy. Thus, we provide an explainability tool that enhances confidence in applying LLMs to neurological clinical contexts, particularly in the study of neurodegeneration.
翻訳日:2024-11-05 06:46:17 公開日:2024-09-30
# MM-Conv:仮想人間のためのマルチモーダル会話データセット

MM-Conv: A Multi-modal Conversational Dataset for Virtual Humans ( http://arxiv.org/abs/2410.00253v1 )

ライセンス: Link先を確認
Anna Deichler, Jim O'Regan, Jonas Beskow, (参考訳) 本稿では,VRヘッドセットを用いて物理シミュレータ(AI2-THOR)内の参加者間の会話を記録する新しいデータセットを提案する。 我々の主な目的は、参照設定にリッチな文脈情報を組み込むことで、共同音声ジェスチャ生成の分野を拡張することである。 参加者は様々な会話シナリオに携わり、すべて参照コミュニケーションタスクに基づく。 このデータセットは、モーションキャプチャ、スピーチ、視線、シーングラフといった、豊富なマルチモーダル記録を提供する。 この包括的データセットは、多様で文脈的にリッチなデータを提供することにより、3Dシーンにおけるジェスチャー生成モデルの理解と開発を促進することを目的としている。

In this paper, we present a novel dataset captured using a VR headset to record conversations between participants within a physics simulator (AI2-THOR). Our primary objective is to extend the field of co-speech gesture generation by incorporating rich contextual information within referential settings. Participants engaged in various conversational scenarios, all based on referential communication tasks. The dataset provides a rich set of multimodal recordings such as motion capture, speech, gaze, and scene graphs. This comprehensive dataset aims to enhance the understanding and development of gesture generation models in 3D scenes by providing diverse and contextually rich data.
翻訳日:2024-11-05 06:46:17 公開日:2024-09-30
# Robin3D:ロバスト命令チューニングによる3D大規模言語モデルの改善

Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning ( http://arxiv.org/abs/2410.00255v1 )

ライセンス: Link先を確認
Weitai Kang, Haifeng Huang, Yuzhang Shang, Mubarak Shah, Yan Yan, (参考訳) 近年の3次元大規模言語モデル(DLLM)の進歩は,3次元実世界の汎用エージェント構築の可能性を強調している。 本稿では,新しいデータエンジンであるRobust Instruction Generation (RIG) エンジンによって生成された大規模命令追従データに基づいて訓練された,強力な3DLLMであるRobin3Dを紹介する。 RIGは2つの重要な命令データを生成する。 1) モデルの識別的理解を高めるために, 正と負の混合サンプルを特徴とする逆命令追従データについて検討した。 2) モデルの一般化を促進するために様々な命令スタイルを含む横命令追従データについて検討した。 その結果,344K の逆数サンプル,508K の逆数サンプル,および165K のベンチマーク・トレーニング・セットからなる100万の命令追従データを構築した。 複雑な命令をよりうまく処理するために、Robin3DはまずRelation-Augmented Projectorを取り入れ、空間的理解を強化し、ID-Feature Bondingを通じてオブジェクト参照と接地能力を強化する。 Robin3Dは、タスク固有の微調整を必要とせず、広く使われている5つの3Dマルチモーダル学習ベンチマークにおいて、従来手法よりも一貫して優れている。 特に、接地タスク(Multi3DRefer)の7.8\%の改善とキャプションタスク(Scan2Cap)の6.9\%の改善を実現している。

Recent advancements in 3D Large Language Models (3DLLMs) have highlighted their potential in building general-purpose agents in the 3D real world, yet challenges remain due to the lack of high-quality robust instruction-following data, leading to limited discriminative power and generalization of 3DLLMs. In this paper, we introduce Robin3D, a powerful 3DLLM trained on large-scale instruction-following data generated by our novel data engine, Robust Instruction Generation (RIG) engine. RIG generates two key instruction data: 1) the Adversarial Instruction-following data, which features mixed negative and positive samples to enhance the model's discriminative understanding. 2) the Diverse Instruction-following data, which contains various instruction styles to enhance model's generalization. As a result, we construct 1 million instruction-following data, consisting of 344K Adversarial samples, 508K Diverse samples, and 165K benchmark training set samples. To better handle these complex instructions, Robin3D first incorporates Relation-Augmented Projector to enhance spatial understanding, and then strengthens the object referring and grounding ability through ID-Feature Bonding. Robin3D consistently outperforms previous methods across five widely-used 3D multimodal learning benchmarks, without the need for task-specific fine-tuning. Notably, we achieve a 7.8\% improvement in the grounding task (Multi3DRefer) and a 6.9\% improvement in the captioning task (Scan2Cap).
翻訳日:2024-11-05 06:46:17 公開日:2024-09-30
# アンサンブル深層学習モデルを用いた信用スコア予測の強化

Enhanced Credit Score Prediction Using Ensemble Deep Learning Model ( http://arxiv.org/abs/2410.00256v1 )

ライセンス: Link先を確認
Qianwen Xing, Chang Yu, Sining Huang, Qi Zheng, Xingyu Mu, Mengying Sun, (参考訳) 現代の経済社会では、すべての参加者に信用スコアが不可欠である。 信用評価システムは、クレジットカード、融資、商業銀行や金融セクターへの投資といった中核事業の収益性に不可欠である。 本稿では,現代銀行システムですでに広く利用されているXGBoostやLightGBMのような高性能モデルと,強力なTabNetモデルを組み合わせる。 我々は、ランダムフォレスト、XGBoost、TabNetを統合し、アンサンブルモデリングにおける積み重ね手法により、クレジットスコアレベルを正確に決定できる強力なモデルを開発した。 このアプローチは単一モデルの限界を超え、正確な信用スコア予測を大幅に前進させる。 下記のセクションでは、精度、リコール、F1、AUCといった一連のメトリクスを包括的に比較することで、私たちが使った手法を説明し、我々のアプローチを徹底的に検証する。 Random Forest、XGBoost、およびTabNetディープラーニングアーキテクチャを統合することで、これらのモデルは互いに補完し、非常に強力な全体的なパフォーマンスを示す。

In contemporary economic society, credit scores are crucial for every participant. A robust credit evaluation system is essential for the profitability of core businesses such as credit cards, loans, and investments for commercial banks and the financial sector. This paper combines high-performance models like XGBoost and LightGBM, already widely used in modern banking systems, with the powerful TabNet model. We have developed a potent model capable of accurately determining credit score levels by integrating Random Forest, XGBoost, and TabNet, and through the stacking technique in ensemble modeling. This approach surpasses the limitations of single models and significantly advances the precise credit score prediction. In the following sections, we will explain the techniques we used and thoroughly validate our approach by comprehensively comparing a series of metrics such as Precision, Recall, F1, and AUC. By integrating Random Forest, XGBoost, and with the TabNet deep learning architecture, these models complement each other, demonstrating exceptionally strong overall performance.
翻訳日:2024-11-05 06:46:17 公開日:2024-09-30
# スピリチュアルマシンの時代:言語静寂は人工知能における意識の変化を誘発する

The age of spiritual machines: Language quietus induces synthetic altered states of consciousness in artificial intelligence ( http://arxiv.org/abs/2410.00257v1 )

ライセンス: Link先を確認
Jeremy I Skipper, Joanna Kuc, Greg Cooper, Christopher Timmermann, (参考訳) 言語は意識とどのように関連しているのか? 言語機能は知覚経験(例:知覚的状態のラベルを"happy")と高レベルの構成(例:「I」を使って物語の自己を表現する)を分類する。 サイケデリックな使用と想いは、言語分類の能力の障害または故意に修飾する変化した状態として記述されることがある。 例えば、サイケデリック現象学は、しばしば「海洋境界性」や「統一性」や「エゴ解散」によって特徴づけられる。 言語破壊がこのような変化した行動を生み出す役割を担っている場合、多モーダル人工知能は、注意が言語から離れるときに、これらの現象学的記述とより一致する可能性がある。 この仮説は,CLIPおよびFLAVAモデルにおける注意重みを操作した上で,シミュレートされた変化状態からのセマンティックな埋め込み空間と,操作前の変化状態からの埋め込み空間とを比較して検証した。 無作為なテキストや不安を含む様々な変化した状態と比較すると、モデルは、非エンボディー、エゴレス、スピリチュアル、ユニタリな状態と、最小限の現象経験と、言語や視覚への注意を減らした。 言語への注意の減少は、言語パターンの区別と、特に意味カテゴリー(例えば「キリン」は「バナナ」に似るようになる)における曖昧な埋め込みと関連づけられた。 これらの結果は、意識の変化した状態の現象学における言語分類の役割を支えている。

How is language related to consciousness? Language functions to categorise perceptual experiences (e.g., labelling interoceptive states as 'happy') and higher-level constructs (e.g., using 'I' to represent the narrative self). Psychedelic use and meditation might be described as altered states that impair or intentionally modify the capacity for linguistic categorisation. For example, psychedelic phenomenology is often characterised by 'oceanic boundlessness' or 'unity' and 'ego dissolution', which might be expected of a system unburdened by entrenched language categories. If language breakdown plays a role in producing such altered behaviour, multimodal artificial intelligence might align more with these phenomenological descriptions when attention is shifted away from language. We tested this hypothesis by comparing the semantic embedding spaces from simulated altered states after manipulating attentional weights in CLIP and FLAVA models to embedding spaces from altered states questionnaires before manipulation. Compared to random text and various other altered states including anxiety, models were more aligned with disembodied, ego-less, spiritual, and unitive states, as well as minimal phenomenal experiences, with decreased attention to language and vision. Reduced attention to language was associated with distinct linguistic patterns and blurred embeddings within and, especially, across semantic categories (e.g., 'giraffes' become more like 'bananas'). These results lend support to the role of language categorisation in the phenomenology of altered states of consciousness, like those experienced with high doses of psychedelics or concentration meditation, states that often lead to improved mental health and wellbeing.
翻訳日:2024-11-05 06:46:17 公開日:2024-09-30
# 整列型構造学習エージェントの原理

Possible principles for aligned structure learning agents ( http://arxiv.org/abs/2410.00258v1 )

ライセンス: Link先を確認
Lancelot Da Costa, Tomáš Gavenčiak, David Hyland, Mandana Samiei, Cristian Dragos-Manta, Candice Pattisapu, Adeel Razi, Karl Friston, (参考訳) 本稿では,自然知能の第一原理記述から,スケーラブルなアライメント人工知能(AI)開発へのロードマップを提供する。 簡単に言うと、スケーラブルなアライメントAIへの道のりは、人工知能が私たちの好みのよいモデルを含む世界の良いモデルを学習できるようにすることにあります。 この目的のために、主な目的は、世界と他のエージェントの世界モデルを表現することを学習するエージェントを作成することであり、構造学習(因果表現学習)に該当する問題である。 我々は、この目標を念頭に置いて構造学習とアライメントの問題を明らかにし、数学、統計学、認知科学にまたがる様々なアイデアを合成し、私たちを先導する原則を公表する。 1) 構造学習におけるコア知識, 情報幾何学, モデル縮小の本質的役割を論じ, 幅広い自然主義世界を学ぶために, コア構造モジュールを提案する。 2) 構造学習と心の理論を通して, 協調エージェントへの道のりを概説する。 アシモフの『ロボットの法則』は、エージェントが他のエージェントの悪影響を最小限に抑えるために慎重に行動するよう規定している。 この例は、アライメントに対する洗練されたアプローチを提案することで補います。 これらの観察は、既存の -- あるいは新しい -- 整列した構造学習システムの設計を支援するために、人工知能の開発を導くかもしれない。

This paper offers a roadmap for the development of scalable aligned artificial intelligence (AI) from first principle descriptions of natural intelligence. In brief, a possible path toward scalable aligned AI rests upon enabling artificial agents to learn a good model of the world that includes a good model of our preferences. For this, the main objective is creating agents that learn to represent the world and other agents' world models; a problem that falls under structure learning (a.k.a. causal representation learning). We expose the structure learning and alignment problems with this goal in mind, as well as principles to guide us forward, synthesizing various ideas across mathematics, statistics, and cognitive science. 1) We discuss the essential role of core knowledge, information geometry and model reduction in structure learning, and suggest core structural modules to learn a wide range of naturalistic worlds. 2) We outline a way toward aligned agents through structure learning and theory of mind. As an illustrative example, we mathematically sketch Asimov's Laws of Robotics, which prescribe agents to act cautiously to minimize the ill-being of other agents. We supplement this example by proposing refined approaches to alignment. These observations may guide the development of artificial intelligence in helping to scale existing -- or design new -- aligned structure learning systems.
翻訳日:2024-11-05 06:46:17 公開日:2024-09-30
# ImmersePro: ステレオビデオのエンドツーエンド合成

ImmersePro: End-to-End Stereo Video Synthesis Via Implicit Disparity Learning ( http://arxiv.org/abs/2410.00262v1 )

ライセンス: Link先を確認
Jian Shi, Zhenyu Li, Peter Wonka, (参考訳) シングルビュービデオをステレオビデオに変換するために特別に設計された革新的フレームワークである \textit{ImmersePro} を紹介する。 このフレームワークは、空間的時間的注意機構を活用することにより、ビデオデータ上の不均一分岐とコンテキスト分岐からなる新しいデュアルブランチアーキテクチャを利用する。 \textit{ImmersePro} は暗黙的な異方性誘導を採用しており、明示的な異方性マップを必要とせず、ビデオシーケンスからステレオペアを生成することができるため、異方性推定モデルに関連する潜在的なエラーを減らすことができる。 技術的進歩に加えて、YouTubeからソースされた423のステレオビデオの包括的なコレクションであるYouTube-SBSデータセットも紹介する。 このデータセットは、700万以上のステレオペアを備え、ステレオビデオ生成モデルのトレーニングとベンチマークを容易にするように設計されている。 実験では,高品質なステレオビデオの製作における‘textit{ImmersePro} の有効性を実証し,既存の手法よりも大幅に改善した。 ベストコンペティタであるステレオモノと比較して,11.76\%(L1),6.39\%(SSIM),5.10\%(PSNR)を定量的に改善した。

We introduce \textit{ImmersePro}, an innovative framework specifically designed to transform single-view videos into stereo videos. This framework utilizes a novel dual-branch architecture comprising a disparity branch and a context branch on video data by leveraging spatial-temporal attention mechanisms. \textit{ImmersePro} employs implicit disparity guidance, enabling the generation of stereo pairs from video sequences without the need for explicit disparity maps, thus reducing potential errors associated with disparity estimation models. In addition to the technical advancements, we introduce the YouTube-SBS dataset, a comprehensive collection of 423 stereo videos sourced from YouTube. This dataset is unprecedented in its scale, featuring over 7 million stereo pairs, and is designed to facilitate training and benchmarking of stereo video generation models. Our experiments demonstrate the effectiveness of \textit{ImmersePro} in producing high-quality stereo videos, offering significant improvements over existing methods. Compared to the best competitor stereo-from-mono we quantitatively improve the results by 11.76\% (L1), 6.39\% (SSIM), and 5.10\% (PSNR).
翻訳日:2024-11-05 06:46:17 公開日:2024-09-30
# 階層的知識を付加した手術用ビデオ言語事前学習法

Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation ( http://arxiv.org/abs/2410.00263v1 )

ライセンス: Link先を確認
Kun Yuan, Vinkle Srivastav, Nassir Navab, Nicolas Padoy, (参考訳) 手術用ビデオ言語事前訓練(VLP)は,知識領域のギャップとマルチモーダルデータの不足により,独特な課題に直面している。 本研究の目的は,外科的講義ビデオにおけるテキスト情報損失の問題と,外科的VLPの時空間的課題に対処することでギャップを埋めることである。 本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前訓練(PeskaVLP)フレームワークを提案する。 知識増強は、外科的概念を洗練・強化するために大きな言語モデル(LLM)を使用し、包括的な言語監督と過剰適合のリスクを低減する。 PeskaVLPは、言語監督と視覚的自己監督を結合し、強い負のサンプルを構築し、動的時間ウォーピング(DTW)に基づく損失関数を用いて、モーダルな手続き的アライメントを効果的に理解する。 複数の公開手術シーン理解とクロスモーダル検索データセットに対する広範囲な実験により,提案手法はゼロショット転送性能を大幅に向上し,手術シーン理解のさらなる進歩に汎用的な視覚表現を提供することが示された。

Surgical video-language pretraining (VLP) faces unique challenges due to the knowledge domain gap and the scarcity of multi-modal data. This study aims to bridge the gap by addressing issues regarding textual information loss in surgical lecture videos and the spatial-temporal challenges of surgical VLP. We propose a hierarchical knowledge augmentation approach and a novel Procedure-Encoded Surgical Knowledge-Augmented Video-Language Pretraining (PeskaVLP) framework to tackle these issues. The knowledge augmentation uses large language models (LLM) for refining and enriching surgical concepts, thus providing comprehensive language supervision and reducing the risk of overfitting. PeskaVLP combines language supervision with visual self-supervision, constructing hard negative samples and employing a Dynamic Time Warping (DTW) based loss function to effectively comprehend the cross-modal procedural alignment. Extensive experiments on multiple public surgical scene understanding and cross-modal retrieval datasets show that our proposed method significantly improves zero-shot transferring performance and offers a generalist visual representation for further advancements in surgical scene understanding.
翻訳日:2024-11-05 06:46:17 公開日:2024-09-30
# クラス非依存型Visio-Temporal Scene Sketch Semantic Segmentation

Class-Agnostic Visio-Temporal Scene Sketch Semantic Segmentation ( http://arxiv.org/abs/2410.00266v1 )

ライセンス: Link先を確認
Aleyna Kütük, Tevfik Metin Sezgin, (参考訳) スケッチ・ツー・イメージ検索やシーン理解など,さまざまなアプリケーションにおいて,シーンスケッチのセマンティックセマンティックセグメンテーションが重要な課題である。 既存のスケッチセグメンテーション手法はスケッチをビットマップ画像として扱い、ベクターからイメージフォーマットへのシフトによりストローク間の時間的順序が失われる。 さらに、これらの手法は、トレーニングデータに存在しないカテゴリからオブジェクトを分割するのに苦労する。 本稿では,シーンスケッチセマンティックセマンティックセグメンテーションのためのクラス非依存型Vasio-Temporal Network (CAVT)を提案する。 CAVTはクラスに依存しないオブジェクト検出器を使用してシーン内の個々のオブジェクトを検出し、後処理モジュールを通じてインスタンスのストロークをグループ化する。 これは、シーンスケッチ内のインスタンスレベルとストロークレベルのセグメンテーションを実行する最初のアプローチである。 さらに、インスタンスレベルのアノテーションとストロークレベルのアノテーションを使った、フリーハンドのシーンスケッチデータセットが欠如している。 このギャップを埋めるために、我々は最大規模のフリーハンドインスタンスとストロークレベルのScene Sketch Dataset(FrISS)を収集しました。 FrISSや他のデータセットに対する大規模な実験は、最先端のシーンスケッチセグメンテーションモデルよりも優れた性能を示す。 コードとデータセットは受理後に公開される。

Scene sketch semantic segmentation is a crucial task for various applications including sketch-to-image retrieval and scene understanding. Existing sketch segmentation methods treat sketches as bitmap images, leading to the loss of temporal order among strokes due to the shift from vector to image format. Moreover, these methods struggle to segment objects from categories absent in the training data. In this paper, we propose a Class-Agnostic Visio-Temporal Network (CAVT) for scene sketch semantic segmentation. CAVT employs a class-agnostic object detector to detect individual objects in a scene and groups the strokes of instances through its post-processing module. This is the first approach that performs segmentation at both the instance and stroke levels within scene sketches. Furthermore, there is a lack of free-hand scene sketch datasets with both instance and stroke-level class annotations. To fill this gap, we collected the largest Free-hand Instance- and Stroke-level Scene Sketch Dataset (FrISS) that contains 1K scene sketches and covers 403 object classes with dense annotations. Extensive experiments on FrISS and other datasets demonstrate the superior performance of our method over state-of-the-art scene sketch segmentation models. The code and dataset will be made public after acceptance.
翻訳日:2024-11-05 06:46:17 公開日:2024-09-30
# KPCA-CAM:カーネルPCAを用いた深部コンピュータビジョンモデルの視覚的説明可能性

KPCA-CAM: Visual Explainability of Deep Computer Vision Models using Kernel PCA ( http://arxiv.org/abs/2410.00267v1 )

ライセンス: Link先を確認
Sachin Karmani, Thanushon Sivakaran, Gaurav Prasad, Mehmet Ali, Wenbo Yang, Sheyang Tang, (参考訳) ディープラーニングモデルは、しばしばブラックボックスとして機能し、予測の直接的な推論を提供しない。 これは、画像分類やオブジェクト検出などのタスクで結果を生成するためにピクセル値のテンソルを処理するコンピュータビジョンモデルに特に当てはまる。 これらのモデルの推論を解明するために、クラスアクティベーションマップ(CAM)を使用して、モデルの出力に影響を与える有能な領域をハイライトする。 本研究は,クラスアクティベーションマップの改良により,畳み込みニューラルネットワーク(CNN)の解釈可能性を高める技術であるKPCA-CAMを紹介する。 KPCA-CAMは、CNNアクティベーション内の非線形関係をより効率的に捉えるために、主成分分析(PCA)とカーネルトリックを利用する。 データをカーネル関数で高次元空間にマッピングし、この変換された超平面から主成分を抽出することにより、KPCA-CAMは基礎となるデータ多様体のより正確な表現を提供する。 これにより、CNNの決定に影響を与える機能のより深い理解が可能になる。 異なるCNNモデルにわたるILSVRCデータセットに関する実証的な評価は、KPCA-CAMがより正確なアクティベーションマップを生成し、既存のCAMアルゴリズムと比較してモデルの推論に対するより明確な洞察を提供することを示している。 この研究はCAMの手法を進歩させ、研究者や実践者に強力なツールを提供し、CNNの意思決定プロセスと全体的な行動について深い洞察を得る。

Deep learning models often function as black boxes, providing no straightforward reasoning for their predictions. This is particularly true for computer vision models, which process tensors of pixel values to generate outcomes in tasks such as image classification and object detection. To elucidate the reasoning of these models, class activation maps (CAMs) are used to highlight salient regions that influence a model's output. This research introduces KPCA-CAM, a technique designed to enhance the interpretability of Convolutional Neural Networks (CNNs) through improved class activation maps. KPCA-CAM leverages Principal Component Analysis (PCA) with the kernel trick to capture nonlinear relationships within CNN activations more effectively. By mapping data into higher-dimensional spaces with kernel functions and extracting principal components from this transformed hyperplane, KPCA-CAM provides more accurate representations of the underlying data manifold. This enables a deeper understanding of the features influencing CNN decisions. Empirical evaluations on the ILSVRC dataset across different CNN models demonstrate that KPCA-CAM produces more precise activation maps, providing clearer insights into the model's reasoning compared to existing CAM algorithms. This research advances CAM techniques, equipping researchers and practitioners with a powerful tool to gain deeper insights into CNN decision-making processes and overall behaviors.
翻訳日:2024-11-05 06:35:59 公開日:2024-09-30
# 時空制御による実時間横運動のインビテーション

Real-time Diverse Motion In-betweening with Space-time Control ( http://arxiv.org/abs/2410.00270v1 )

ライセンス: Link先を確認
Yuchen Chu, Zeshi Yang, (参考訳) 本研究では,キネマティックキャラクタのための多種多様な相互動作を生成するためのデータ駆動型フレームワークを提案する。 本手法は運動遷移の手順に動的条件と明示的な運動制御を注入する。 特に、この統合により、ユーザーは、継続時間、経路、スタイルなどの追加条件を間取りプロセスに付与し、よりきめ細かい時空間制御が可能となる。 本手法は,移動動作と非構造動作の両方を合成し,リッチで汎用的で高品質なアニメーション生成を可能にする。

In this work, we present a data-driven framework for generating diverse in-betweening motions for kinematic characters. Our approach injects dynamic conditions and explicit motion controls into the procedure of motion transitions. Notably, this integration enables a finer-grained spatial-temporal control by allowing users to impart additional conditions, such as duration, path, style, etc., into the in-betweening process. We demonstrate that our in-betweening approach can synthesize both locomotion and unstructured motions, enabling rich, versatile, and high-quality animation generation.
翻訳日:2024-11-05 06:35:59 公開日:2024-09-30
# GalaxiesML: 機械学習のための銀河画像、測光、赤方偏移、構造パラメータのデータセット

GalaxiesML: a dataset of galaxy images, photometry, redshifts, and structural parameters for machine learning ( http://arxiv.org/abs/2410.00271v1 )

ライセンス: Link先を確認
Tuan Do, Bernie Boscoe, Evan Jones, Yun Qi Li, Kevin Alfaro, (参考訳) 本稿では、銀河測光、画像、分光赤方偏移、構造特性からなる機械学習応用のためのデータセットを提案する。 このデータセットは、ハイパー・サプライム・カム・サーベイPDR2からの286,401個の銀河の画像と光度を、5つの画像フィルター(g,r,i,z,y$)で分析し、分光学的に確認された赤方偏移を基底真理とする。 このようなデータセットは、均一で一貫性があり、最小限の外れ値を持つが、依然として現実的な信号対雑音比を含んでいるため、機械学習アプリケーションにとって重要である。 このデータセットを公開して、EuclidやLSSTといった次世代のサーベイのための機械学習手法の開発を促進するのに役立てる。 GalaxiesMLの目的は、天体物理学だけでなく機械学習にも使用できる堅牢なデータセットを提供することである。 本稿では,公開アーカイブからデータセットを作成する際の課題について述べる。 これは、0.01から4.4までのレッドシフトを備えた、このタイプのパブリック機械学習対応トレーニングセットの中で、最大のもののひとつだ。 この試料の赤方偏移分布は1.5の赤方偏移でピークに達し、赤方偏移2.5を超えている。 また、このデータセットを赤方偏移推定に応用し、赤方偏移推定に画像を用いることで、光度測定だけでより正確な結果が得られることを示した。 例えば、赤方偏移推定のバイアスは、光度のみと比較して0.1から1.25の赤方偏移の画像を使用する場合の10以下の係数である。 このようなデータセットの結果は、次世代の銀河調査のデータをどのように活用するかを教えてくれる。

We present a dataset built for machine learning applications consisting of galaxy photometry, images, spectroscopic redshifts, and structural properties. This dataset comprises 286,401 galaxy images and photometry from the Hyper-Suprime-Cam Survey PDR2 in five imaging filters ($g,r,i,z,y$) with spectroscopically confirmed redshifts as ground truth. Such a dataset is important for machine learning applications because it is uniform, consistent, and has minimal outliers but still contains a realistic range of signal-to-noise ratios. We make this dataset public to help spur development of machine learning methods for the next generation of surveys such as Euclid and LSST. The aim of GalaxiesML is to provide a robust dataset that can be used not only for astrophysics but also for machine learning, where image properties cannot be validated by the human eye and are instead governed by physical laws. We describe the challenges associated with putting together a dataset from publicly available archives, including outlier rejection, duplication, establishing ground truths, and sample selection. This is one of the largest public machine learning-ready training sets of its kind with redshifts ranging from 0.01 to 4. The redshift distribution of this sample peaks at redshift of 1.5 and falls off rapidly beyond redshift 2.5. We also include an example application of this dataset for redshift estimation, demonstrating that using images for redshift estimation produces more accurate results compared to using photometry alone. For example, the bias in redshift estimate is a factor of 10 lower when using images between redshift of 0.1 to 1.25 compared to photometry alone. Results from dataset such as this will help inform us on how to best make use of data from the next generation of galaxy surveys.
翻訳日:2024-11-05 06:35:59 公開日:2024-09-30
# 基礎モデルの総合的性能モデリングとシステム設計指針

Comprehensive Performance Modeling and System Design Insights for Foundation Models ( http://arxiv.org/abs/2410.00273v1 )

ライセンス: Link先を確認
Shashank Subramanian, Ermal Rrapaj, Peter Harrington, Smeet Chheda, Steven Farrell, Brian Austin, Samuel Williams, Nicholas Wright, Wahid Bhimji, (参考訳) 生成AI、特に大きなトランスフォーマーモデルは、科学や産業においてHPCシステム設計を推進している。 本研究では, トランスモデルの性能特性を分析し, トランスタイプ, 並列化戦略, HPCシステム機能(加速器と相互接続)に対する感度について検討する。 私たちは、この複雑なデザイン空間を探索し、その重要なコンポーネントを強調できるパフォーマンスモデルを活用しています。 異なる変圧器タイプは異なる訓練体制で異なる並列性やシステム特性を必要とする。 大規模言語モデルは3次元並列性を備えており、ネットワークを増幅するには、アクセラレーション容量と帯域幅への依存を減らし、事前訓練の規模でしか必要としない。 一方、科学基礎モデルの代表である長列トランスフォーマーは、ネットワークとキャパシティにより均一な4次元並列性を持たせる。 本分析では,システム機能を念頭に置いて,様々なトランスフォーマータイプの性能モデリングを行う必要があることを強調し,これに向けた道筋を示す。 私たちのコードはオープンソースとして利用可能です。

Generative AI, in particular large transformer models, are increasingly driving HPC system design in science and industry. We analyze performance characteristics of such transformer models and discuss their sensitivity to the transformer type, parallelization strategy, and HPC system features (accelerators and interconnects). We utilize a performance model that allows us to explore this complex design space and highlight its key components. We find that different transformer types demand different parallelism and system characteristics at different training regimes. Large Language Models are performant with 3D parallelism and amplify network needs only at pre-training scales with reduced dependence on accelerator capacity and bandwidth. On the other hand, long-sequence transformers, representative of scientific foundation models, place a more uniform dependence on network and capacity with necessary 4D parallelism. Our analysis emphasizes the need for closer performance modeling of different transformer types keeping system features in mind and demonstrates a path towards this. Our code is available as open-source.
翻訳日:2024-11-05 06:35:59 公開日:2024-09-30
# モバイルアプリにおける個人情報漏洩の高精度検出に向けて

Towards Precise Detection of Personal Information Leaks in Mobile Health Apps ( http://arxiv.org/abs/2410.00277v1 )

ライセンス: Link先を確認
Alireza Ardalani, Joseph Antonucci, Iulian Neamtiu, (参考訳) モバイルアプリは、提供者を助けるアプリから、患者のために設計されたアプリ、一般向けに設計された健康およびフィットネスアプリまで、さまざまなヘルス設定で使用されている。 これらのアプリはユーザに対して,豊富な個人情報(PI)の収集とリークを依頼する。 我々は、アプリがユーザインターフェースを介して収集するPI、アプリまたはサードパーティのコードがこの情報を処理しているかどうか、そして最後にデータが送信または保存されているかを分析します。 Androidのリーク検出に関する以前の研究は、(ハードウェア)デバイス識別情報やポリシー違反の漏洩の検出に重点を置いていたが、ヘルスアプリのコンテキストにおけるPIの処理とリークについての研究は行われていない。 最初の課題は、アプリUIに含まれるセマンティック情報を抽出して、個人情報の範囲と性質を識別することです。 第2の課題は、サードパーティの正当なリーク(例えば、データベースにデータを格納するアプリ)と、問題のあるリーク(例えば、この情報を広告主や分析者によって処理したり、送信したりする)を曖昧にすることです。 我々は1,243のAndroidアプリ(医療アプリ623、健康&健康アプリ621)について調査を行った。 PIを16種類に分類し, アイデンティティ, 医療, 人文学の3つのカテゴリに分類した。 通常のアプリには1つ以上のサードパーティのリークと5つのサードパーティのリークがあったが、221のアプリには20以上のリークがあった。 次に、サードパーティのリーク(広告主、分析など)は、サードパーティのリークの5倍の頻度であることを示す。 次に、リークの71%がローカルストレージ(携帯電話、不正なアプリによってデータがアクセス可能な場所)であり、一方、リークの29%がネットワーク(例えばクラウド)であることを示す。 最後に、医療アプリは、医療用PIの追加収集のため、ヘルス&フィットアプリよりも20%多いPIリークがある。

Mobile apps are used in a variety of health settings, from apps that help providers, to apps designed for patients, to health and fitness apps designed for the general public. These apps ask the user for, and then collect and leak a wealth of Personal Information (PI). We analyze the PI that apps collect via their user interface, whether the app or third-party code is processing this information, and finally where the data is sent or stored. Prior work on leak detection in Android has focused on detecting leaks of (hardware) device-identifying information, or policy violations; however no work has looked at processing and leaking of PI in the context of health apps. The first challenge we tackle is extracting the semantic information contained in app UIs to discern the extent, and nature, of personal information. The second challenge we tackle is disambiguating between first-party, legitimate leaks (e.g,. the app storing data in its database) and third-party, problematic leaks, e.g., processing this information by, or sending it to, advertisers and analytics. We conducted a study on 1,243 Android apps: 623 medical apps and 621 health&fitness apps. We categorize PI into 16 types, grouped in 3 main categories: identity, medical, anthropometric. We found that the typical app has one first-party leak and five third-party leaks, though 221 apps had 20 or more leaks. Next, we show that third-party leaks (e.g., advertisers, analytics) are 5x more frequent than first-party leaks. Then, we show that 71% of leaks are to local storage (i.e., the phone, where data could be accessed by unauthorized apps) whereas 29% of leaks are to the network (e.g., Cloud). Finally, medical apps have 20% more PI leaks than health&fitness apps, due to collecting additional medical PI.
翻訳日:2024-11-05 06:35:59 公開日:2024-09-30
# 静的解析と多目的探索に基づくスマートコントラクト脆弱性検出

Smart Contract Vulnerability Detection based on Static Analysis and Multi-Objective Search ( http://arxiv.org/abs/2410.00282v1 )

ライセンス: Link先を確認
Dongcheng Li, W. Eric Wong, Xiaodan Wang, Sean Pan, Liang-Seng Koh, (参考訳) 本稿では,静的解析と多目的最適化アルゴリズムを用いて,スマートコントラクトの脆弱性を検出する手法を提案する。 永続性、スタックオーバーフローの呼び出し、整数オーバーフロー、タイムスタンプの依存関係の4つのタイプの脆弱性に焦点を当てています。 最初、スマートコントラクトは抽象構文木にコンパイルされ、呼び出し、継承、データフローを含むコントラクトと関数の関係を分析する。 これらの分析は、内部関係を明らかにする静的評価と中間表現に変換される。 これらの表現に基づいて、指定された脆弱性を検出するために、コントラクトの関数、変数、データ依存関係を調べます。 検出精度とカバレッジを向上させるため,静的解析プロセスに多目的最適化アルゴリズムを適用した。 これには、入力データに初期数値を割り当て、ステートメントカバレッジと検出精度の変更を監視することが含まれる。 適合度値としてカバレッジと精度を用いて,パレートフロントと群集距離の値を算出し,最適化基準が満たされるまで,新たな親集団のための最適な個人を選択する。 我々は,6,693のスマートコントラクトを含むEtherscanから収集したオープンソースデータセットを用いて,このアプローチを検証する。 実験の結果,本手法は,対象とする脆弱性の検出におけるカバレッジ,精度,効率,有効性において,最先端ツールよりも優れていた。

This paper introduces a method for detecting vulnerabilities in smart contracts using static analysis and a multi-objective optimization algorithm. We focus on four types of vulnerabilities: reentrancy, call stack overflow, integer overflow, and timestamp dependencies. Initially, smart contracts are compiled into an abstract syntax tree to analyze relationships between contracts and functions, including calls, inheritance, and data flow. These analyses are transformed into static evaluations and intermediate representations that reveal internal relations. Based on these representations, we examine contract's functions, variables, and data dependencies to detect the specified vulnerabilities. To enhance detection accuracy and coverage, we apply a multi-objective optimization algorithm to the static analysis process. This involves assigning initial numeric values to input data and monitoring changes in statement coverage and detection accuracy. Using coverage and accuracy as fitness values, we calculate Pareto front and crowding distance values to select the best individuals for the new parent population, iterating until optimization criteria are met. We validate our approach using an open-source dataset collected from Etherscan, containing 6,693 smart contracts. Experimental results show that our method outperforms state-of-the-art tools in terms of coverage, accuracy, efficiency, and effectiveness in detecting the targeted vulnerabilities.
翻訳日:2024-11-05 06:35:59 公開日:2024-09-30
# 深層学習型クアドロターUAV検出・追跡手法の性能評価

Performance Evaluation of Deep Learning-based Quadrotor UAV Detection and Tracking Methods ( http://arxiv.org/abs/2410.00285v1 )

ライセンス: Link先を確認
Mohssen E. Elshaar, Zeyad M. Manaa, Mohammed R. Elbalshy, Abdul Jabbar Siddiqui, Ayman M. Abdallah, (参考訳) 無人航空機(UAV)は様々な分野で人気を博し、多くの利点を提供しているが、プライバシーと安全性に重大な課題をもたらす。 本稿では,これらの問題に対処する四極子UAVの検出と追跡のための最先端のソリューションについて検討する。 切削エッジディープラーニングモデル、特にYOLOv5とYOLOv8シリーズは、UAVを正確かつ迅速に識別する性能で評価されている。 さらに、堅牢なトラッキングシステムであるBoT-SORTとByte Trackが統合され、困難な条件下でも信頼性の高い監視が保証される。 DUTデータセットに対するテストの結果, YOLOv5モデルは検出精度でYOLOv8を上回っているのに対して, YOLOv8モデルは, 異なるオブジェクトを認識するのに優れ, 適応性と高度な能力を示す。 さらに, BoT-SORTはByte Trackよりも優れた性能を示し, 高いIoUと低い中心誤差を実現し, より正確で安定したトラッキングを実現した。 コード: https://github.com/zmanaa/UAV_detection_and_tracking tracking demo: https://drive.google.com/file/d/1pe6HC5kQrgTbA2QrjvMN-yjaZyWeAvDT/view? usp=共有

Unmanned Aerial Vehicles (UAVs) are becoming more popular in various sectors, offering many benefits, yet introducing significant challenges to privacy and safety. This paper investigates state-of-the-art solutions for detecting and tracking quadrotor UAVs to address these concerns. Cutting-edge deep learning models, specifically the YOLOv5 and YOLOv8 series, are evaluated for their performance in identifying UAVs accurately and quickly. Additionally, robust tracking systems, BoT-SORT and Byte Track, are integrated to ensure reliable monitoring even under challenging conditions. Our tests on the DUT dataset reveal that while YOLOv5 models generally outperform YOLOv8 in detection accuracy, the YOLOv8 models excel in recognizing less distinct objects, demonstrating their adaptability and advanced capabilities. Furthermore, BoT-SORT demonstrated superior performance over Byte Track, achieving higher IoU and lower center error in most cases, indicating more accurate and stable tracking. Code: https://github.com/zmanaa/UAV_detection_and_tracking Tracking demo: https://drive.google.com/file/d/1pe6HC5kQrgTbA2QrjvMN-yjaZyWeAvDT/view?usp=sharing
翻訳日:2024-11-05 06:35:59 公開日:2024-09-30
# 金融市場のボラティリティ予測のためのGARCHインフォームニューラルネットワーク

GARCH-Informed Neural Networks for Volatility Prediction in Financial Markets ( http://arxiv.org/abs/2410.00288v1 )

ライセンス: Link先を確認
Zeda Xu, John Liechty, Sebastian Benthall, Nicholas Skar-Gislinge, Christopher McComb, (参考訳) ボラティリティはリターンの分散を示すものであり、リスクの重要な尺度であり、そのためさまざまな金融投資の価格設定や差別に広く利用されている。 その結果,正確なボラティリティ予測が注目されている。 一般化自己回帰条件整合性(GARCH)モデルとその後続の変種は、ストックボラティリティ予測のための確立されたモデルである。 最近では、ある時系列予測タスクにおいて有望な精度を示すことで、ボラティリティ予測においてディープラーニングモデルの人気が高まっている。 物理情報ニューラルネットワーク(PINN)にインスパイアされた我々は、GARCHの強みとLong Short-Term Memory(LSTM) Deep Neural Network(DNN)の柔軟性を組み合わせた、新たなハイブリッドディープラーニングモデルを構築した。 本稿では,このモデルについて,GARCH-Informed Neural Network (GINN) と呼ぶ。 他の時系列モデルと比較して、GINNは決定係数(R^2$)、平均正方形誤差(MSE)、平均絶対誤差(MAE)の点で優れたサンプル外予測性能を示した。

Volatility, which indicates the dispersion of returns, is a crucial measure of risk and is hence used extensively for pricing and discriminating between different financial investments. As a result, accurate volatility prediction receives extensive attention. The Generalized Autoregressive Conditional Heteroscedasticity (GARCH) model and its succeeding variants are well established models for stock volatility forecasting. More recently, deep learning models have gained popularity in volatility prediction as they demonstrated promising accuracy in certain time series prediction tasks. Inspired by Physics-Informed Neural Networks (PINN), we constructed a new, hybrid Deep Learning model that combines the strengths of GARCH with the flexibility of a Long Short-Term Memory (LSTM) Deep Neural Network (DNN), thus capturing and forecasting market volatility more accurately than either class of models are capable of on their own. We refer to this novel model as a GARCH-Informed Neural Network (GINN). When compared to other time series models, GINN showed superior out-of-sample prediction performance in terms of the Coefficient of Determination ($R^2$), Mean Squared Error (MSE), and Mean Absolute Error (MAE).
翻訳日:2024-11-05 06:35:59 公開日:2024-09-30
# 短いビデオのエンゲージメント予測に深く入り込む

Delving Deep into Engagement Prediction of Short Videos ( http://arxiv.org/abs/2410.00289v1 )

ライセンス: Link先を確認
Dasong Li, Wenjie Li, Baili Lu, Hongsheng Li, Sizhuo Ma, Gurunandan Krishnan, Jian Wang, (参考訳) ソーシャルメディアプラットフォーム上でのユーザ生成コンテンツ(UGC)ショートビデオの人気を理解し、モデル化することは、コンテンツクリエーターやレコメンデーションシステムに幅広い影響を与える重要な課題である。 本研究は,ユーザインタラクションが限定されたビデオのエンゲージメント予測の難しさを深く掘り下げるものである。 意外なことに、過去のビデオ品質評価データセットから得られた平均オピニオンスコアは、ビデオエンゲージメントレベルと強く相関していない。 これを解決するために、Snapchatの90,000の現実世界のUGCショートビデオからなる、実質的なデータセットを紹介します。 視聴数、平均視聴時間、または視聴率に頼らず、通常視聴率(NAWP)とエンゲージメント継続率(ECR)の2つの指標を提案し、ショートビデオのエンゲージメントレベルを記述した。 視覚コンテンツや背景音楽,テキストデータなど,総合的なマルチモーダルな特徴を調査し,エンゲージメント予測を強化する。 提案手法は,提案したデータセットと2つの重要な指標を用いて,映像コンテンツから映像のエンゲージメントを純粋に予測できることを示す。

Understanding and modeling the popularity of User Generated Content (UGC) short videos on social media platforms presents a critical challenge with broad implications for content creators and recommendation systems. This study delves deep into the intricacies of predicting engagement for newly published videos with limited user interactions. Surprisingly, our findings reveal that Mean Opinion Scores from previous video quality assessment datasets do not strongly correlate with video engagement levels. To address this, we introduce a substantial dataset comprising 90,000 real-world UGC short videos from Snapchat. Rather than relying on view count, average watch time, or rate of likes, we propose two metrics: normalized average watch percentage (NAWP) and engagement continuation rate (ECR) to describe the engagement levels of short videos. Comprehensive multi-modal features, including visual content, background music, and text data, are investigated to enhance engagement prediction. With the proposed dataset and two key metrics, our method demonstrates its ability to predict engagements of short videos purely from video content.
翻訳日:2024-11-05 06:35:59 公開日:2024-09-30
# バインディング親和性予測: 従来型から機械学習ベースのアプローチ

Binding Affinity Prediction: From Conventional to Machine Learning-Based Approaches ( http://arxiv.org/abs/2410.00709v1 )

ライセンス: Link先を確認
Xuefeng Liu, Songhao Jiang, Xiaotian Duan, Archit Vasan, Chong Liu, Chih-chan Tien, Heng Ma, Thomas Brettin, Fangfang Xia, Ian T. Foster, Rick L. Stevens, (参考訳) タンパク質リガンド結合(英: protein-ligand binding)は、小さな分子(ドラッグまたは阻害剤)が標的タンパク質に結合する過程である。 この相互作用の強さを指す結合親和性は、薬物設計のような生体情報学における多くの重要な問題の中心である。 過去何十年もの間、結合親和性の予測に多くの研究が費やされてきた。 本稿では,手法,特徴,ベンチマークデータセットを中心に,最近の重要な研究を概観する。 従来の機械学習モデルとディープラーニングモデルを用いた結合親和性予測では,タンパク質や薬物様分子に関するデータ量が増加する傾向がみられている。 予測結果が常に改善されている一方で、フィールド内で探索されていないいくつかのオープンな質問や潜在的な方向も特定する。 本論文は, 結合親和性の研究に携わる機械学習研究者や, 機械学習, 薬物発見, バイオインフォマティクスに関心のある人には, 優れた出発点となる可能性がある。

Protein-ligand binding is the process by which a small molecule (drug or inhibitor) attaches to a target protein. The binding affinity, which refers to the strength of this interaction, is central to many important problems in bioinformatics such as drug design. An extensive amount of work has been devoted to predicting binding affinity over the past decades due to its significance. In this paper, we review all significant recent works, focusing on the methods, features, and benchmark datasets. We have observed a rising trend in the use of traditional machine learning and deep learning models for predicting binding affinity, accompanied by an increasing amount of data on proteins and small drug-like molecules. While prediction results are constantly improving, we also identify several open questions and potential directions that remain unexplored in the field. This paper could serve as an excellent starting point for machine learning researchers who wish to engage in the study of binding affinity, or for anyone with general interests in machine learning, drug discovery, and bioinformatics.
翻訳日:2024-11-05 04:15:24 公開日:2024-09-30
# 多重化ネットワークにおける識別的コミュニティ検出

Discriminative community detection for multiplex networks ( http://arxiv.org/abs/2410.00724v1 )

ライセンス: Link先を確認
Meiby Ortiz-Bouza, Selin Aviyente, (参考訳) 多重ネットワークは複雑なシステムのモデリングにおいて有望なアプローチとして現れており、各層は同じタイプのエンティティ間で異なる相互作用のモードを表現している。 これらのネットワークを分析する上でのコアタスクは、ネットワーク全体の機能をよりよく理解するために、コミュニティ構造を特定することである。 マルチプレックスネットワークのコミュニティ構造を検出するための異なる手法が提案されているが、大多数はレイヤ間のコンセンサスコミュニティ構造を抽出する。 本稿では,近縁な2つの多重ネットワークにおけるコミュニティ検出問題に対処する。 例えば、ニューロイメージング研究では、各層が個々のグループと異なる実験条件に対応する複数の多重脳ネットワークを持つことが一般的である。 この環境では、各実験条件を表すコミュニティ構造と、2つのグループ間の差別的なコミュニティ構造の両方を学ぶことに興味があるかもしれない。 本稿では,スペクトルクラスタリングに基づく2つの識別的コミュニティ検出アルゴリズムを提案する。 第1のアプローチは、グループ間の識別サブグラフ構造を識別することを目的としており、第2のアプローチは、識別サブグラフ構造とコンセンサスコミュニティ構造を同時に学習する。 提案手法はシミュレーションと実世界のマルチプレックスネットワークの両方で評価される。

Multiplex networks have emerged as a promising approach for modeling complex systems, where each layer represents a different mode of interaction among entities of the same type. A core task in analyzing these networks is to identify the community structure for a better understanding of the overall functioning of the network. While different methods have been proposed to detect the community structure of multiplex networks, the majority deal with extracting the consensus community structure across layers. In this paper, we address the community detection problem across two closely related multiplex networks. For example in neuroimaging studies, it is common to have multiple multiplex brain networks where each layer corresponds to an individual and each group to different experimental conditions. In this setting, one may be interested in both learning the community structure representing each experimental condition and the discriminative community structure between two groups. In this paper, we introduce two discriminative community detection algorithms based on spectral clustering. The first approach aims to identify the discriminative subgraph structure between the groups, while the second one learns the discriminative and the consensus community structures, simultaneously. The proposed approaches are evaluated on both simulated and real world multiplex networks.
翻訳日:2024-11-05 04:15:24 公開日:2024-09-30
# 人口ベースSHMの位相と幾何学について

On the topology and geometry of population-based SHM ( http://arxiv.org/abs/2410.00923v1 )

ライセンス: Link先を確認
Keith Worden, Tina A. Dardeno, Aidan J. Hughes, George Tsialiamanis, (参考訳) 人口ベース構造健康モニタリング (PBSHM) は、スパースデータを持つ人に対する診断を強化するために、構造群全体にわたる情報を活用することを目的としている。 伝達学習の規律は、この能力のメカニズムを提供する。 PBSHMの最近の論文では、それらの構造はグラフ空間上のベクトル束の「トータル空間」で取得された計量的「基底空間」のグラフとして表されるという幾何学的見解が提案されている。 この見解は数学的に厳密な理論よりも示唆的であったが、ある種の有用な議論が可能であった。 より厳密な解析のためのバーの1つは、グラフ空間に意味のある位相が存在しないことであり、したがって連続性の有用な概念は存在しない。 本論文は, 基本空間におけるパラメトリックな構造の族に移行し, 本質的にはグラフ空間内の点を開球に変化させることにより, この問題に対処することを目的としている。 これにより、ファイバー空間における開集合の定義が可能となり、したがってファイバー間の連続的な変動が可能である。 この新しいアイデアは、データ内の移動学習のための新しい幾何学的メカニズムを、ある繊維から隣の繊維へ、すなわちある構造から別の構造へ輸送する動機付けである。

Population-Based Structural Health Monitoring (PBSHM), aims to leverage information across populations of structures in order to enhance diagnostics on those with sparse data. The discipline of transfer learning provides the mechanism for this capability. One recent paper in PBSHM proposed a geometrical view in which the structures were represented as graphs in a metric "base space" with their data captured in the "total space" of a vector bundle above the graph space. This view was more suggestive than mathematically rigorous, although it did allow certain useful arguments. One bar to more rigorous analysis was the absence of a meaningful topology on the graph space, and thus no useful notion of continuity. The current paper aims to address this problem, by moving to parametric families of structures in the base space, essentially changing points in the graph space to open balls. This allows the definition of open sets in the fibre space and thus allows continuous variation between fibres. The new ideas motivate a new geometrical mechanism for transfer learning in data are transported from one fibre to an adjacent one; i.e., from one structure to another.
翻訳日:2024-11-05 00:09:47 公開日:2024-09-30
# LLMを用いたテキストクラスタリング

Text Clustering as Classification with LLMs ( http://arxiv.org/abs/2410.00927v1 )

ライセンス: Link先を確認
Chen Huang, Guoxiu He, (参考訳) テキストクラスタリングは、手作業によるラベリングがコストを抑える現実世界のアプリケーションでは、依然として有用である。 類似したテキストを表現に基づいてグループ化することで、情報の効率的な組織化と分析を容易にする。 しかし、このアプローチを実装するには、下流データと洗練された類似度メトリクスのための微調整された埋め込みが必要である。 そこで本研究では,Large Language Models (LLM) のコンテキスト内学習能力を効果的に活用する,テキストクラスタリングのための新しいフレームワークを提案する。 そこで本研究では,テキストクラスタリングをLLMによる分類タスクに変換することを提案する。 まず、LLMに与えられたデータセットの潜在的なラベルを生成するように促す。 第2に、LLMが生成した類似ラベルを統合した後、LLMにデータセットの各サンプルに最も適切なラベルを割り当てるよう促す。 我々のフレームワークは、複雑な微調整やクラスタリングアルゴリズムを必要とせず、組込みを用いた最先端のクラスタリング手法に匹敵する、あるいは優れた性能を達成できることが実験的に証明されている。 コードの利用はhttps://anonymous.4open.science/r/Text-Clustering-via-LLM-E500で公開しています。

Text clustering remains valuable in real-world applications where manual labeling is cost-prohibitive. It facilitates efficient organization and analysis of information by grouping similar texts based on their representations. However, implementing this approach necessitates fine-tuned embedders for downstream data and sophisticated similarity metrics. To address this issue, this study presents a novel framework for text clustering that effectively leverages the in-context learning capacity of Large Language Models (LLMs). Instead of fine-tuning embedders, we propose to transform the text clustering into a classification task via LLM. First, we prompt LLM to generate potential labels for a given dataset. Second, after integrating similar labels generated by the LLM, we prompt the LLM to assign the most appropriate label to each sample in the dataset. Our framework has been experimentally proven to achieve comparable or superior performance to state-of-the-art clustering methods that employ embeddings, without requiring complex fine-tuning or clustering algorithms. We make our code available to the public for utilization at https://anonymous.4open.science/r/Text-Clustering-via-LLM-E500.
翻訳日:2024-11-05 00:09:47 公開日:2024-09-30
# 確率的リスク評価のための事象分類を開始する米国の原子力発電所閉鎖のための知識情報型大規模言語モデルフレームワーク

A Knowledge-Informed Large Language Model Framework for U.S. Nuclear Power Plant Shutdown Initiating Event Classification for Probabilistic Risk Assessment ( http://arxiv.org/abs/2410.00929v1 )

ライセンス: Link先を確認
Min Xian, Tao Wang, Sai Zhang, Fei Xu, Zhegang Ma, (参考訳) 原子力プラントの低電力停止確率的リスクアセスメントを開発するためには,SDIEの特定と分類が重要である。 既存の計算手法では、大きなラベル付きデータセット、不均衡なイベントタイプ、ラベルノイズといった課題のため、十分な性能を達成できない。 これらの課題に対処するために、知識インフォームド機械学習モードを統合して非SDIEをプリスクリーンするハイブリッドパイプラインと、SDIEを4つのタイプに分類する大規模言語モデル(LLM)を提案する。 事前スクリーニングの段階では、6種類のSDIEのキーワードとフレーズからなる44のSDIEテキストパターンを提案する。 SDIEパターンに基づくテキストベクトル化は、単純なバイナリ分類器を用いて高度に分離可能な特徴ベクトルを生成する。 第2ステージでは、Transformers (BERT) ベースの LLM による双方向エンコーダ表現(Bidirectional Encoder Representations) が構築されている。これは、大規模なデータセット上で自己教師付き事前学習から汎用的な英語表現を学び、SDIEデータセットでそれを微調整することでSDIE分類に適応する。 提案手法は,精度,リコール率,F1スコア,平均精度を用いて,10,928イベントのデータセットを用いて評価した。 その結果、プレスクリーニングステージはSDIEの97%以上の非SDIEを除外でき、LSMはSDIE分類の平均精度93.4%を達成した。

Identifying and classifying shutdown initiating events (SDIEs) is critical for developing low power shutdown probabilistic risk assessment for nuclear power plants. Existing computational approaches cannot achieve satisfactory performance due to the challenges of unavailable large, labeled datasets, imbalanced event types, and label noise. To address these challenges, we propose a hybrid pipeline that integrates a knowledge-informed machine learning mode to prescreen non-SDIEs and a large language model (LLM) to classify SDIEs into four types. In the prescreening stage, we proposed a set of 44 SDIE text patterns that consist of the most salient keywords and phrases from six SDIE types. Text vectorization based on the SDIE patterns generates feature vectors that are highly separable by using a simple binary classifier. The second stage builds Bidirectional Encoder Representations from Transformers (BERT)-based LLM, which learns generic English language representations from self-supervised pretraining on a large dataset and adapts to SDIE classification by fine-tuning it on an SDIE dataset. The proposed approaches are evaluated on a dataset with 10,928 events using precision, recall ratio, F1 score, and average accuracy. The results demonstrate that the prescreening stage can exclude more than 97% non-SDIEs, and the LLM achieves an average accuracy of 93.4% for SDIE classification.
翻訳日:2024-11-05 00:09:47 公開日:2024-09-30
# ACEV:内在次元における固有ベクトルの角度変化への適応を用いた教師なし交差マニフォールドセグメンテーション

ACEV: Unsupervised Intersecting Manifold Segmentation using Adaptation to Angular Change of Eigenvectors in Intrinsic Dimension ( http://arxiv.org/abs/2410.00930v1 )

ライセンス: Link先を確認
Subhadip Boral, Rikathi Pal, Ashish Ghosh, (参考訳) 交差多様体のセグメンテーションは研究の焦点であり、他の多様体と交わる個々の多様体は、その異なる性質を発見するために分離される。 提案手法は,内在次元が$d$の多様体が他の多様体と交わる場合,データ分散が$d$以上の方向に増加するという直観に基づく。 提案手法は局所的なデータ分散を測定し,そのベクトル方向を決定する。 非ゼロ分散を持つベクトルの数を数え、多様体の内在次元を決定する。 交叉領域を検出するために,木構造構築を用いた指数移動平均を用いて,子と親の対応方向ベクトル間の角度ギャップの変化に適応する。 したがって、その近傍が適応角差内にある同じ多様体内のこれらのデータポイントを含み、最終的には多様体の交叉領域におけるデータポイントを識別する。 近傍の特定データポイントに含まれるデータポイントは、データ分散と距離に基づいてその固有次元を除去する。 提案手法は, ARI と NMI において 18 個の SOTA 多様体分割法より優れており,14 個の実世界のデータセットに対して,時間的複雑さの低減と安定性の向上を図っている。

Intersecting manifold segmentation has been a focus of research, where individual manifolds, that intersect with other manifolds, are separated to discover their distinct properties. The proposed method is based on the intuition that when a manifold in $D$ dimensional space with an intrinsic dimension of $d$ intersects with another manifold, the data variance grows in more than $d$ directions. The proposed method measures local data variances and determines their vector directions. It counts the number of vectors with non-zero variance, which determines the manifold's intrinsic dimension. For detection of the intersection region, the method adapts to the changes in the angular gaps between the corresponding direction vectors of the child and parent using exponential moving averages using a tree structure construction. Accordingly, it includes those data points in the same manifold whose neighborhood is within the adaptive angular difference and eventually identifies the data points in the intersection area of manifolds. Data points whose inclusion in the neighborhood-identified data points increases their intrinsic dimensionality are removed based on data variance and distance. The proposed method performs better than 18 SOTA manifold segmentation methods in ARI and NMI scores over 14 real-world datasets with lesser time complexity and better stability.
翻訳日:2024-11-05 00:09:47 公開日:2024-09-30
# StreamEnsemble: 時空間ストリーミングデータの予測クエリ

StreamEnsemble: Predictive Queries over Spatiotemporal Streaming Data ( http://arxiv.org/abs/2410.00933v1 )

ライセンス: Link先を確認
Anderson Chaves, Eduardo Ogasawara, Patrick Valduriez, Fabio Porto, (参考訳) 時空間(ST)ストリームデータに対する予測クエリは、重要なデータ処理と分析の問題を引き起こす。 STデータストリームは、データ分布が空間と時間によって異なる一連の時系列を含み、複数の異なるパターンを示す。 この文脈では、単一の機械学習モデルがそのようなバリエーションを適切に扱えると仮定すると、失敗する可能性がある。 この課題に対処するため,本研究では,STデータ上の予測クエリに対して,基礎となる時系列分布とモデル特性に基づいて機械学習モデルを動的に選択・割り当てする,新しいアプローチであるStreamEnsembleを提案する。 実験により,本手法は従来のアンサンブル手法や単一モデル手法よりも精度・時間的に優れており,従来の手法に比べて10倍以上の予測誤差が著しく低減されていることが明らかとなった。

Predictive queries over spatiotemporal (ST) stream data pose significant data processing and analysis challenges. ST data streams involve a set of time series whose data distributions may vary in space and time, exhibiting multiple distinct patterns. In this context, assuming a single machine learning model would adequately handle such variations is likely to lead to failure. To address this challenge, we propose StreamEnsemble, a novel approach to predictive queries over ST data that dynamically selects and allocates Machine Learning models according to the underlying time series distributions and model characteristics. Our experimental evaluation reveals that this method markedly outperforms traditional ensemble methods and single model approaches in terms of accuracy and time, demonstrating a significant reduction in prediction error of more than 10 times compared to traditional approaches.
翻訳日:2024-11-05 00:09:47 公開日:2024-09-30
# 確率論と鎖構造を含む共重合体の逆設計

Inverse Design of Copolymers Including Stoichiometry and Chain Architecture ( http://arxiv.org/abs/2410.02824v1 )

ライセンス: Link先を確認
Gabriel Vogel, Jana M. Weber, (参考訳) 特性が向上した革新的な合成ポリマーの需要は高いが、その構造的複雑さと広大な設計空間は急激な発見を妨げている。 機械学習誘導分子設計は、高分子発見を加速するための有望なアプローチである。 しかし、ラベル付きポリマーデータの不足と合成ポリマーの複雑な階層構造は、生成設計を特に困難にしている。 我々は現在最先端のアプローチを推し進め、反復する単位だけでなく、その確率論や連鎖構造を含むモノマーのアンサンブルを生成する。 我々は,モノマーアンサンブルの確率論的および連鎖構造を含む最近のポリマー表現の上に構築し,グラフを符号化して文字列をデコードする新しい変分オートエンコーダ(VAE)アーキテクチャを開発した。 半教師付きセットアップを用いることで、ラベル付きデータの小さなコーパスを持つドメインにとって有益な部分ラベル付きデータセットのハンドリングを可能にする。 我々のモデルは、異なるモノマー確率論や鎖構造を含む共重合体のデノボ生成を可能にする、連続的でよく構成された潜在空間(LS)を学習する。 Inverse design case study, we demonstrate our model for in-silico discovery of novel conjugated co polymer photocatalyst for hydrogen production using the optimization of the polymer's electron affinity andionization potential in the latent space。

The demand for innovative synthetic polymers with improved properties is high, but their structural complexity and vast design space hinder rapid discovery. Machine learning-guided molecular design is a promising approach to accelerate polymer discovery. However, the scarcity of labeled polymer data and the complex hierarchical structure of synthetic polymers make generative design particularly challenging. We advance the current state-of-the-art approaches to generate not only repeating units, but monomer ensembles including their stoichiometry and chain architecture. We build upon a recent polymer representation that includes stoichiometries and chain architectures of monomer ensembles and develop a novel variational autoencoder (VAE) architecture encoding a graph and decoding a string. Using a semi-supervised setup, we enable the handling of partly labelled datasets which can be benefitial for domains with a small corpus of labelled data. Our model learns a continuous, well organized latent space (LS) that enables de-novo generation of copolymer structures including different monomer stoichiometries and chain architectures. In an inverse design case study, we demonstrate our model for in-silico discovery of novel conjugated copolymer photocatalysts for hydrogen production using optimization of the polymer's electron affinity and ionization potential in the latent space.
翻訳日:2024-11-03 05:34:38 公開日:2024-09-30
# 大規模言語モデルにおけるニューロシンボリックAIアプローチ

Neurosymbolic AI approach to Attribution in Large Language Models ( http://arxiv.org/abs/2410.03726v1 )

ライセンス: Link先を確認
Deepa Tilwani, Revathy Venkataramanan, Amit P. Sheth, (参考訳) 大規模言語モデル(LLM)の属性は、特に生成した出力の事実的正確さと信頼性を保証する上で重要な課題である。 Perplexity.ai や Bing Search-Integrated LLM などのツールが採用している、引用や帰属のための現在の手法は、リアルタイムな検索結果と引用を提供することで、応答の接地を試みるものである。 しかし、これらのアプローチは、幻覚、偏見、表面レベルの関連性マッチング、そして膨大な、フィルタされていない知識ソースを管理する複雑さといった問題に悩まされている。 Perplexity.aiのようなツールは、Webベースの情報や引用を動的に統合するが、ブログ投稿や信頼性の低いソースのような一貫性の低いソースに依存していることが多い。 ニューラルネットワークの強みと構造的シンボリック推論を組み合わせたニューロシンボリックAI(NesyAI)を統合することで,これらの課題を軽減することができる。 NesyAIは透過的、解釈可能、動的推論プロセスを提供し、構造化されたシンボル知識を柔軟で神経ベースの学習に組み込むことによって、現在の帰属法の限界に対処する。 本稿では,NesyAIフレームワークが既存の属性モデルをどのように拡張し,より信頼性が高く,解釈可能,適応可能なシステムを実現するかを検討する。

Attribution in large language models (LLMs) remains a significant challenge, particularly in ensuring the factual accuracy and reliability of the generated outputs. Current methods for citation or attribution, such as those employed by tools like Perplexity.ai and Bing Search-integrated LLMs, attempt to ground responses by providing real-time search results and citations. However, so far, these approaches suffer from issues such as hallucinations, biases, surface-level relevance matching, and the complexity of managing vast, unfiltered knowledge sources. While tools like Perplexity.ai dynamically integrate web-based information and citations, they often rely on inconsistent sources such as blog posts or unreliable sources, which limits their overall reliability. We present that these challenges can be mitigated by integrating Neurosymbolic AI (NesyAI), which combines the strengths of neural networks with structured symbolic reasoning. NesyAI offers transparent, interpretable, and dynamic reasoning processes, addressing the limitations of current attribution methods by incorporating structured symbolic knowledge with flexible, neural-based learning. This paper explores how NesyAI frameworks can enhance existing attribution models, offering more reliable, interpretable, and adaptable systems for LLMs.
翻訳日:2024-11-02 20:28:28 公開日:2024-09-30
# QUIC Dynamics: 暗号化トラフィック分析のための大規模データセット

Exploring QUIC Dynamics: A Large-Scale Dataset for Encrypted Traffic Analysis ( http://arxiv.org/abs/2410.03728v1 )

ライセンス: Link先を確認
Barak Gahtan, Robert J. Sahala, Alex M. Bronstein, Reuven Cohen, (参考訳) QUICは、新しい、そしてますます使われるトランスポートプロトコルであり、セキュリティ、パフォーマンス、ストリーム多重化やコネクションマイグレーションといった機能の改善によってTCPの制限に対処し、解決する。 しかし、これらの機能は、Webトラフィックを監視し、分析する必要があるネットワークオペレーターにとっての課題でもある。 本稿では,44000以上のWebサイト(URL)から10万以上のQUICトレースからなるラベル付きデータセットVisQUICを紹介する。 これらのトレースは、ウィンドウ長、ピクセル解像度、正規化、ラベルの設定可能なパラメータを含む700万以上の画像を生成する基盤を提供する。 これらの画像は、クライアントとサーバ間のインタラクションを見て、QUIC暗号化接続に関する洞察を得ることを可能にする。 データセットの可能性を説明するために、所定のQUIC内のHTTP/3レスポンス/リクエストペア数を推定するオブザーバのユースケース例を紹介します。 この問題を離散回帰問題として定式化し、機械学習(ML)モデルをトレーニングし、サンプルユースケースで提案したデータセットを用いて評価する。

QUIC, a new and increasingly used transport protocol, addresses and resolves the limitations of TCP by offering improved security, performance, and features such as stream multiplexing and connection migration. These features, however, also present challenges for network operators who need to monitor and analyze web traffic. In this paper, we introduce VisQUIC, a labeled dataset comprising over 100,000 QUIC traces from more than 44,000 websites (URLs), collected over a four-month period. These traces provide the foundation for generating more than seven million images, with configurable parameters of window length, pixel resolution, normalization, and labels. These images enable an observer looking at the interactions between a client and a server to analyze and gain insights about QUIC encrypted connections. To illustrate the dataset's potential, we offer a use-case example of an observer estimating the number of HTTP/3 responses/requests pairs in a given QUIC, which can reveal server behavior, client--server interactions, and the load imposed by an observed connection. We formulate the problem as a discrete regression problem, train a machine learning (ML) model for it, and then evaluate it using the proposed dataset on an example use case.
翻訳日:2024-11-02 20:28:28 公開日:2024-09-30
# ガイダンスとコントロールネットワークの認証: イベントマニフォールドへの不確実性伝播

Certifying Guidance & Control Networks: Uncertainty Propagation to an Event Manifold ( http://arxiv.org/abs/2410.03729v1 )

ライセンス: Link先を確認
Sebastien Origer, Dario Izzo, Giacomo Acciarini, Francesco Biscani, Rita Mastroianni, Max Bannach, Harry Holt, (参考訳) 我々は,G&CNET(Guidance & Control Networks)のイベント多様体上で不確実性伝搬を行い,この分野におけるニューラルネットワークの認証ツールの強化を目指す。 この研究は、動的非線形性や事象多様体の複雑さのレベルが異なる3つの事前解決された最適制御問題を利用する。 G&CNETは、時-最適惑星間移動、小惑星への質量-最適着陸、エネルギー-最適ドローンレースの最適制御ポリシーを表現するために訓練されている。 これらの各問題に対して、初期状態の不確かさに関する事象多様体の終条件を解析的に記述する。 重要なことに、この拡張は時間に依存するのではなく、システムの初期条件にのみ依存するため、事象多様体によって定義されたミッションの任意の特定の段階において、G&CNETの堅牢性を研究することができる。 この解析式が見つかると、コーシー・アダマールの定理を適用し、モーメント生成関数を用いて不確実な伝播を行う。 モンテカルロをベースとした(MC)手法は、我々が提示した結果が得られるが、この研究は、MCシミュレーションだけでは、ガイダンスや制御アプリケーションにおけるニューラルネットワークの将来の認証に不十分である、という認識によって進められている。

We perform uncertainty propagation on an event manifold for Guidance & Control Networks (G&CNETs), aiming to enhance the certification tools for neural networks in this field. This work utilizes three previously solved optimal control problems with varying levels of dynamics nonlinearity and event manifold complexity. The G&CNETs are trained to represent the optimal control policies of a time-optimal interplanetary transfer, a mass-optimal landing on an asteroid and energy-optimal drone racing, respectively. For each of these problems, we describe analytically the terminal conditions on an event manifold with respect to initial state uncertainties. Crucially, this expansion does not depend on time but solely on the initial conditions of the system, thereby making it possible to study the robustness of the G&CNET at any specific stage of a mission defined by the event manifold. Once this analytical expression is found, we provide confidence bounds by applying the Cauchy-Hadamard theorem and perform uncertainty propagation using moment generating functions. While Monte Carlo-based (MC) methods can yield the results we present, this work is driven by the recognition that MC simulations alone may be insufficient for future certification of neural networks in guidance and control applications.
翻訳日:2024-11-02 20:28:28 公開日:2024-09-30
# セルネットワークにおける異常検出のためのトランスファー学習を用いたマルチスケール畳み込みLSTM

Multi-Scale Convolutional LSTM with Transfer Learning for Anomaly Detection in Cellular Networks ( http://arxiv.org/abs/2410.03732v1 )

ライセンス: Link先を確認
Nooruddin Noonari, Daniel Corujo, Rui L. Aguiar, Francisco J. Ferrao, (参考訳) モバイルブロードバンドの急速な普及と加入者の増加により、信頼性の高いネットワーク性能を確保することが重要になっている。 特にピーク時のモバイルネットワークの複雑化に伴い,KPI(Key Performance Indicators)の手作業による収集は,膨大なデータを必要とするため,時間を要する。 ネットワーク障害の検出と、忙しい期間における異常な行動の特定は、ネットワークの健全性を評価する上で不可欠である。 研究者は、スループットを予測し、コールレコードを分析し、障害を検出することによって、ネットワークの振る舞いを理解するために、Deep Learning(DL)とMachine Learning(ML)技術を適用した。 しかし、これらの手法は大きなラベル付きデータセットを必要とすることが多く、通常は特殊化されており、新しいシナリオの再訓練はコストがかかり時間もかかる。 本研究では,トランスファーラーニング(TL)を用いたマルチスケール畳み込みLSTMによるセルネットワークの異常検出手法を提案する。 モデルは最初、公開データセットを使用してスクラッチからトレーニングされ、典型的なネットワーク動作を学習する。 次にTransfer Learningを使用して、学習した重みを異なるデータセットに適用することで、モデルを微調整する。 我々は,スクラッチから訓練したモデルの性能と,TLを用いた微調整モデルの性能を比較した。 クラス不均衡に対処し、より深い洞察を得るために、探索データ分析(EDA)とSMOTE(Synthetic Minority Over-Sampling Technique)を適用した。 その結果、スクラッチからトレーニングしたモデルは100エポック後の99%の精度を達成する一方、微調整されたモデルは20エポック後の異なるデータセット上で95%の精度に達することがわかった。

The rapid growth in mobile broadband usage and increasing subscribers have made it crucial to ensure reliable network performance. As mobile networks grow more complex, especially during peak hours, manual collection of Key Performance Indicators (KPIs) is time-consuming due to the vast data involved. Detecting network failures and identifying unusual behavior during busy periods is vital to assess network health. Researchers have applied Deep Learning (DL) and Machine Learning (ML) techniques to understand network behavior by predicting throughput, analyzing call records, and detecting outages. However, these methods often require significant computational power, large labeled datasets, and are typically specialized, making retraining for new scenarios costly and time-intensive. This study introduces a novel approach Multi-Scale Convolutional LSTM with Transfer Learning (TL) to detect anomalies in cellular networks. The model is initially trained from scratch using a publicly available dataset to learn typical network behavior. Transfer Learning is then employed to fine-tune the model by applying learned weights to different datasets. We compare the performance of the model trained from scratch with that of the fine-tuned model using TL. To address class imbalance and gain deeper insights, Exploratory Data Analysis (EDA) and the Synthetic Minority Over-sampling Technique (SMOTE) are applied. Results demonstrate that the model trained from scratch achieves 99% accuracy after 100 epochs, while the fine-tuned model reaches 95% accuracy on a different dataset after just 20 epochs.
翻訳日:2024-11-02 20:18:28 公開日:2024-09-30
# クエスト選択におけるAIディレクターの効果評価

Evaluating the Effects of AI Directors for Quest Selection ( http://arxiv.org/abs/2410.03733v1 )

ライセンス: Link先を確認
Kristen K. Yu, Matthew Guzdial, Nathan Sturtevant, (参考訳) 現代の商用ゲームは、個々のプレイヤーのためにではなく、大衆のアピールのために設計されているが、ゲーム要素を適応することによって個人をよりよく適合させるユニークな機会がある。 本稿では,プレイヤーの好みに合わせてプレイヤー体験をパーソナライズするAIディレクターに着目した。 過去には、いくつかのAIディレクターの研究で決定的な結果が得られていないため、プレイヤー体験への影響は明らかになっていない。 3人のAIディレクターを被験者として直接比較し、クエスト選択の有効性をテストする。 その結果,非ランダムなAIディレクタは,ランダムなAIディレクタよりも優れたプレイヤエクスペリエンスを提供することがわかった。

Modern commercial games are designed for mass appeal, not for individual players, but there is a unique opportunity in video games to better fit the individual through adapting game elements. In this paper, we focus on AI Directors, systems which can dynamically modify a game, that personalize the player experience to match the player's preference. In the past, some AI Director studies have provided inconclusive results, so their effect on player experience is not clear. We take three AI Directors and directly compare them in a human subject study to test their effectiveness on quest selection. Our results show that a non-random AI Director provides a better player experience than a random AI Director.
翻訳日:2024-11-02 20:18:28 公開日:2024-09-30
# 制御可能なアクセントTSから合成した並列データを用いた離散単位のアクセント変換

Accent conversion using discrete units with parallel data synthesized from controllable accented TTS ( http://arxiv.org/abs/2410.03734v1 )

ライセンス: Link先を確認
Tuan Nam Nguyen, Ngoc Quan Pham, Alexander Waibel, (参考訳) アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。 従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。 本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。 提案手法では,アクセント変換の中間ターゲットとして,ネイティブ音声の自己教師付き表現をクラスタリングした離散単位を用いる。 マルチスピーカーのテキスト音声合成を活用して、話者のアイデンティティを維持しながら、これらの離散表現を母語に変換する。 さらに,非ネイティブなリソースを多く必要とせずに,システムのトレーニングを行う効率的なデータ拡張手法を開発した。 本システムは,非母国語話者のアクセントを改良し,母国語アクセントのように聞こえ,元の話者のアイデンティティを良好に維持することが実証された。

The goal of accent conversion (AC) is to convert speech accents while preserving content and speaker identity. Previous methods either required reference utterances during inference, did not preserve speaker identity well, or used one-to-one systems that could only be trained for each non-native accent. This paper presents a promising AC model that can convert many accents into native to overcome these issues. Our approach utilizes discrete units, derived from clustering self-supervised representations of native speech, as an intermediary target for accent conversion. Leveraging multi-speaker text-to-speech synthesis, it transforms these discrete representations back into native speech while retaining the speaker identity. Additionally, we develop an efficient data augmentation method to train the system without demanding a lot of non-native resources. Our system is proved to improve non-native speaker fluency, sound like a native accent, and preserve original speaker identity well.
翻訳日:2024-11-02 20:18:28 公開日:2024-09-30
# クラスタ化重要度サンプリングによるタスク適応型事前学習言語モデル

Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling ( http://arxiv.org/abs/2410.03735v1 )

ライセンス: Link先を確認
David Grangier, Simin Fan, Skyler Seto, Pierre Ablin, (参考訳) スペシャリスト言語モデル(LM)は特定のタスクやドメインに焦点を合わせ、それらがしばしば同じ大きさのジェネラリスト言語モデルより優れている。 しかし、これらのモデルを事前訓練するために必要な専門的なデータは、ほとんどのタスクで限られた量でしか利用できない。 そこで本研究では,大規模なジェネラリスト学習セットから専門モデルを構築する。 我々は、限られたドメイン固有データからのガイダンスにより、ジェネリストデータのトレーニング分布を調整する。 我々は、クラスタ化された重要度サンプリングを目立たせながら、いくつかのアプローチを探求する。 この方法は、より小さな専門データセットの周波数に基づいて、一般的なデータセットとこれらのクラスタからのサンプルをクラスタ化する。 スケーラブルで、事前トレーニングと継続事前トレーニングに適しており、マルチタスク設定でうまく機能する。 本研究は,複数質問課題における言語モデリングの難易度と精度の観点から,各領域にまたがる改善を実証するものである。 また,データセットサイズ,クラスタリング構成,モデルサイズの影響について検討した。

Specialist language models (LMs) focus on a specific task or domain on which they often outperform generalist LMs of the same size. However, the specialist data needed to pretrain these models is only available in limited amount for most tasks. In this work, we build specialist models from large generalist training sets instead. We adjust the training distribution of the generalist data with guidance from the limited domain-specific data. We explore several approaches, with clustered importance sampling standing out. This method clusters the generalist dataset and samples from these clusters based on their frequencies in the smaller specialist dataset. It is scalable, suitable for pretraining and continued pretraining, it works well in multi-task settings. Our findings demonstrate improvements across different domains in terms of language modeling perplexity and accuracy on multiple-choice question tasks. We also present ablation studies that examine the impact of dataset sizes, clustering configurations, and model sizes.
翻訳日:2024-11-02 20:18:28 公開日:2024-09-30
# CliMB: 臨床予測モデリングのためのAI対応パートナー

CliMB: An AI-enabled Partner for Clinical Predictive Modeling ( http://arxiv.org/abs/2410.03736v1 )

ライセンス: Link先を確認
Evgeny Saveliev, Tim Schubert, Thomas Pouplin, Vasilis Kosmoliaptsis, Mihaela van der Schaar, (参考訳) その大きな約束と継続的な技術的進歩にもかかわらず、人工知能(AI)の現実世界の応用は依然として限られている。 臨床科学者のようなドメインの専門家は、リスクスコアのような予測モデルを構築することができるべきであるが、それらは最先端(SOTA)ツールにアクセスする上で大きな障壁に直面している。 自動機械学習(AutoML)は臨床予測モデリングのパートナーとして提案されているが、臨床科学者が機械学習を利用できるようにするためには、多くの追加の要件を満たす必要がある。 このギャップに対処するために、私たちはCliMBを紹介します。CliMBは、クリニック科学者が自然言語を使って予測モデルを作成するための、コードなしAI対応のパートナです。 CliMBは、臨床科学者を医療データ科学パイプライン全体を通してガイドし、現実世界のデータから予測モデルを1つの会話で作成することを可能にする。 CliMBは構造化されたレポートや解釈可能なビジュアルも生成する。 臨床科学者による評価と,ベースライン GPT-4 との比較では,計画,エラー防止,コード実行,モデル性能などの重要な領域において,CliMB は一貫して優れた性能を示した。 さらに、さまざまな専門分野の45名の臨床医を対象とする盲目評価では、GPT-4よりも80%以上のCliMBが好まれていた。 全体として、データ中心のAI、AutoML、解釈可能なMLの分野で、明確なガイダンスとSOTAメソッドへのアクセスを備えたノーコードインターフェースを提供することで、CliMBは、臨床科学者に堅牢な予測モデルを構築する権限を与える。

Despite its significant promise and continuous technical advances, real-world applications of artificial intelligence (AI) remain limited. We attribute this to the "domain expert-AI-conundrum": while domain experts, such as clinician scientists, should be able to build predictive models such as risk scores, they face substantial barriers in accessing state-of-the-art (SOTA) tools. While automated machine learning (AutoML) has been proposed as a partner in clinical predictive modeling, many additional requirements need to be fulfilled to make machine learning accessible for clinician scientists. To address this gap, we introduce CliMB, a no-code AI-enabled partner designed to empower clinician scientists to create predictive models using natural language. CliMB guides clinician scientists through the entire medical data science pipeline, thus empowering them to create predictive models from real-world data in just one conversation. CliMB also creates structured reports and interpretable visuals. In evaluations involving clinician scientists and systematic comparisons against a baseline GPT-4, CliMB consistently demonstrated superior performance in key areas such as planning, error prevention, code execution, and model performance. Moreover, in blinded assessments involving 45 clinicians from diverse specialties and career stages, more than 80% preferred CliMB over GPT-4. Overall, by providing a no-code interface with clear guidance and access to SOTA methods in the fields of data-centric AI, AutoML, and interpretable ML, CliMB empowers clinician scientists to build robust predictive models.
翻訳日:2024-11-02 20:18:28 公開日:2024-09-30
# O-RANにおける適応資源最適化のためのメタ強化学習手法

Meta Reinforcement Learning Approach for Adaptive Resource Optimization in O-RAN ( http://arxiv.org/abs/2410.03737v1 )

ライセンス: Link先を確認
Fatemeh Lotfi, Fatemeh Afghah, (参考訳) 無線ネットワークがより複雑なアプリケーションをサポートするように成長するにつれて、そのスマートRAN Intelligent Controller (RIC)モジュールを備えたOpen Radio Access Network (O-RAN)アーキテクチャは、無線リソースブロックやダウンリンク電力割り当てを含むネットワークリソースのリアルタイムネットワークデータ収集、分析、動的管理において重要なソリューションとなる。 人工知能(AI)と機械学習(ML)を活用して、O-RANは前例のない効率性と適応性を備えた現代のネットワークの変動要求に対処する。 MLベースの戦略によるネットワーク最適化の進展にもかかわらず、特に予測不可能な環境でのリソースの動的割り当てには課題が残っている。 本稿では,モデルに依存しないメタラーニング(MAML)にインスパイアされたメタ深層強化学習(Meta-DRL)戦略を提案する。 提案手法では,O-RANの分散化アーキテクチャを仮想分散ユニット(DU)とメタDRL戦略で活用し,ネットワーク効率を大幅に向上させる適応的および局所的な意思決定を可能にする。 メタラーニングを統合することで,我々のシステムは新たなネットワーク条件に迅速に適応し,資源割り当てをリアルタイムで最適化する。 その結果、従来の手法よりも19.8%のネットワーク管理性能が向上し、次世代無線ネットワークの能力が向上した。

As wireless networks grow to support more complex applications, the Open Radio Access Network (O-RAN) architecture, with its smart RAN Intelligent Controller (RIC) modules, becomes a crucial solution for real-time network data collection, analysis, and dynamic management of network resources including radio resource blocks and downlink power allocation. Utilizing artificial intelligence (AI) and machine learning (ML), O-RAN addresses the variable demands of modern networks with unprecedented efficiency and adaptability. Despite progress in using ML-based strategies for network optimization, challenges remain, particularly in the dynamic allocation of resources in unpredictable environments. This paper proposes a novel Meta Deep Reinforcement Learning (Meta-DRL) strategy, inspired by Model-Agnostic Meta-Learning (MAML), to advance resource block and downlink power allocation in O-RAN. Our approach leverages O-RAN's disaggregated architecture with virtual distributed units (DUs) and meta-DRL strategies, enabling adaptive and localized decision-making that significantly enhances network efficiency. By integrating meta-learning, our system quickly adapts to new network conditions, optimizing resource allocation in real-time. This results in a 19.8% improvement in network management performance over traditional methods, advancing the capabilities of next-generation wireless networks.
翻訳日:2024-11-02 20:18:28 公開日:2024-09-30
# 知識グラフ補完モデルの校正による複雑な論理的問合せ解法

Complex Logical Query Answering by Calibrating Knowledge Graph Completion Models ( http://arxiv.org/abs/2410.07165v1 )

ライセンス: Link先を確認
Changyi Xiao, Yixin Cao, (参考訳) 複雑な論理的クエリ応答(CLQA)は、不完全知識グラフ(KG)上の複雑な論理的クエリに対する応答エンティティを見つけることを伴う、難しいタスクである。 これまでの研究では、KGの欠落した事実を予測し、複雑な論理的クエリに応答する、事前学習された知識グラフ補完(KGC)モデルの使用について検討されてきた。 しかし、KGCモデルは通常、ランキング評価指標を用いて評価され、うまく校正されていないKGCモデルの予測値が得られる。 本稿では,複雑な論理的クエリに適応可能なKGCモデルのキャリブレーション手法であるCKGCを提案する。 特にCKGCは軽量で効果的である。 適応関数は単純で、適応過程中にモデルを素早く収束させることができる。 CKGCの中核となる概念は、KGCモデルの予測値を [0, 1] の範囲にマッピングし、真事実に関連付けられた値が 1 に近く、偽事実に関連付けられた値が 0 に近いことを保証することである。 3つのベンチマークデータセットの実験を通して,提案手法がCLQAタスクのモデル性能を大幅に向上させることができることを示す。 さらに,本手法は,KGCモデルのランキング評価指標を保存しながら,CLQAの性能を向上させることができる。 コードはhttps://github.com/changyi7231/CKGCで公開されている。

Complex logical query answering (CLQA) is a challenging task that involves finding answer entities for complex logical queries over incomplete knowledge graphs (KGs). Previous research has explored the use of pre-trained knowledge graph completion (KGC) models, which can predict the missing facts in KGs, to answer complex logical queries. However, KGC models are typically evaluated using ranking evaluation metrics, which may result in values of predictions of KGC models that are not well-calibrated. In this paper, we propose a method for calibrating KGC models, namely CKGC, which enables KGC models to adapt to answering complex logical queries. Notably, CKGC is lightweight and effective. The adaptation function is simple, allowing the model to quickly converge during the adaptation process. The core concept of CKGC is to map the values of predictions of KGC models to the range [0, 1], ensuring that values associated with true facts are close to 1, while values linked to false facts are close to 0. Through experiments on three benchmark datasets, we demonstrate that our proposed calibration method can significantly boost model performance in the CLQA task. Moreover, our approach can enhance the performance of CLQA while preserving the ranking evaluation metrics of KGC models. The code is available at https://github.com/changyi7231/CKGC.
翻訳日:2024-10-31 21:56:57 公開日:2024-09-30
# グラフニューラルネットワークを用いたシステム的リスク対策

Computing Systemic Risk Measures with Graph Neural Networks ( http://arxiv.org/abs/2410.07222v1 )

ライセンス: Link先を確認
Lukas Gonon, Thilo Meyer-Brandis, Niklas Weber, (参考訳) 本稿では,明確にモデル化された二元的負債の確率的金融ネットワークに対するシステム的リスク対策について検討する。 ビギニ、フーケ、フリテリ、メイヤー・ブランディス (2019) のシステム的リスク対策の概念をグラフ構造化データに拡張する。 特に,Eisenberg and Noe (2001) が提唱したマーケットクリアリングアルゴリズムから導出した集約関数に着目した。 この設定では、最小限の救済資本を分散し、ネットワークを確保できる最適なランダムアロケーションが存在することを示す。 本研究では,システム的リスクと最適ランダムアロケーションの近似の数値計算法について検討する。 本稿では、グラフニューラルネットワーク(GNN)のようなニューラルネットワークの置換同変アーキテクチャと、(拡張)置換同変ニューラルネットワーク((X)PENN)という名前のクラスを提案する。 性能をいくつかのベンチマークアロケーションと比較する。 GNNと(X)PENNの主な特徴は、それらが基礎となるグラフデータに対する置換同値であることである。 数値実験では、これらの置換同変法は他の方法よりも優れていることを示す。

This paper investigates systemic risk measures for stochastic financial networks of explicitly modelled bilateral liabilities. We extend the notion of systemic risk measures from Biagini, Fouque, Fritelli and Meyer-Brandis (2019) to graph structured data. In particular, we focus on an aggregation function that is derived from a market clearing algorithm proposed by Eisenberg and Noe (2001). In this setting, we show the existence of an optimal random allocation that distributes the overall minimal bailout capital and secures the network. We study numerical methods for the approximation of systemic risk and optimal random allocations. We propose to use permutation equivariant architectures of neural networks like graph neural networks (GNNs) and a class that we name (extended) permutation equivariant neural networks ((X)PENNs). We compare their performance to several benchmark allocations. The main feature of GNNs and (X)PENNs is that they are permutation equivariant with respect to the underlying graph data. In numerical experiments we find evidence that these permutation equivariant methods are superior to other approaches.
翻訳日:2024-10-31 21:37:02 公開日:2024-09-30
# 金融犯罪と検出におけるAI対AI:GenAI犯罪と共進化AI

AI versus AI in Financial Crimes and Detection: GenAI Crime Waves to Co-Evolutionary AI ( http://arxiv.org/abs/2410.09066v1 )

ライセンス: Link先を確認
Eren Kurshan, Dhagash Mehta, Bayan Bruss, Tucker Balch, (参考訳) 伝統的および新興の金融犯罪パラダイムにまたがる犯罪組織によるAIの採用は、近年の厄介な傾向である。 特に、複雑なフィッシングスキームから、検出が難しいディープフェイクの作成、生体認証システムへの高度な偽造攻撃まで、犯罪活動の強化に寄与した生成AIの増殖が関係している。 刑事目的によるAIの搾取は引き続きエスカレートし続けており、前例のない挑戦である。 AIの採用は、サイバーセキュリティの脆弱性に絡み合った不正行為の状況がますます複雑化する。 総じて、GenAIは金融犯罪や詐欺に変革をもたらす。 一部の推計によると、2027年までにGenAIは不正の損失を4倍に増やし、年間成長率は30%以上になるとの見通しだ。 犯罪パターンが複雑化し、パーソナライズされ、解明されるにつれて、効果的な防衛AI戦略の展開は不可欠になる。 しかし、いくつかの課題はAIベースのフィンクレーム検出システムに必要な進歩を妨げる。 本稿では,AI/MLによる金融犯罪・検知システムの最新動向について検討する。 急激な脅威を効果的に対処できるアジャイルAIディフェンスの開発に対する緊急の必要性を浮き彫りにしている。 また、GenAIによる犯罪の波に対処するため、金融業界全体での協力の必要性を強調している。

Adoption of AI by criminal entities across traditional and emerging financial crime paradigms has been a disturbing recent trend. Particularly concerning is the proliferation of generative AI, which has empowered criminal activities ranging from sophisticated phishing schemes to the creation of hard-to-detect deep fakes, and to advanced spoofing attacks to biometric authentication systems. The exploitation of AI by criminal purposes continues to escalate, presenting an unprecedented challenge. AI adoption causes an increasingly complex landscape of fraud typologies intertwined with cybersecurity vulnerabilities. Overall, GenAI has a transformative effect on financial crimes and fraud. According to some estimates, GenAI will quadruple the fraud losses by 2027 with a staggering annual growth rate of over 30% [27]. As crime patterns become more intricate, personalized, and elusive, deploying effective defensive AI strategies becomes indispensable. However, several challenges hinder the necessary progress of AI-based fincrime detection systems. This paper examines the latest trends in AI/ML-driven financial crimes and detection systems. It underscores the urgent need for developing agile AI defenses that can effectively counteract the rapidly emerging threats. It also aims to highlight the need for cooperation across the financial services industry to tackle the GenAI induced crime waves.
翻訳日:2024-10-30 16:58:09 公開日:2024-09-30
# 物理駆動型ニューラルネットワークを用いたデジタルホログラフィーにおける生体細胞の三次元形態の単一ショット再構成

Single-shot reconstruction of three-dimensional morphology of biological cells in digital holographic microscopy using a physics-driven neural network ( http://arxiv.org/abs/2409.20013v1 )

ライセンス: Link先を確認
Jihwan Kim, Youngdo Kim, Hyo Seung Lee, Eunseok Seo, Sang Joon Lee, (参考訳) 深層学習に基づく画像再構成技術の最近の進歩は、デジタルインラインホログラフィー(DIHM)を用いた位相探索の著しい進歩をもたらした。 しかし,既存の深層学習に基づく位相探索法は,生物細胞の単発ホログラムからの一般化性能と3次元形状復元に技術的制限がある。 本研究では,物理駆動型ニューラルネットワークと座標ベースニューラルネットワークを統合した3次元形態の単発再構成のための,MorpHoloNetという新しいディープラーニングモデルを提案する。 3次元位相シフト分布を通してコヒーレント光の光回折をシミュレートすることにより,センサ面上の模擬ホログラムと入力ホログラムの損失を最小化することにより,MorpHoloNetを最適化する。 双対画像と位相検索の問題に直面する既存のDIHM法と比較して、MorpHoloNetは、複数の位相シフトホログラムや角度走査を必要とせず、単発ホログラムから3次元複素光場と3次元形状の直接再構成を可能にする。 提案したMorpHoloNetの性能は,エリスコイドの合成ホログラムと生体細胞の実験的ホログラムから3次元形態と屈折率分布を再構成することによって検証される。 提案した深層学習モデルを用いて,DIHMを用いた連続単発ホログラムからの3次元翻訳・回転挙動と生体細胞の形態変化の時空間変化を再現する。 MorpHoloNetは、バイオメディカルおよびエンジニアリング分野における様々な細胞環境下での、ラベルのないリアルタイム3Dイメージングと生物学的細胞の動的解析の道を開くだろう。

Recent advances in deep learning-based image reconstruction techniques have led to significant progress in phase retrieval using digital in-line holographic microscopy (DIHM). However, existing deep learning-based phase retrieval methods have technical limitations in generalization performance and three-dimensional (3D) morphology reconstruction from a single-shot hologram of biological cells. In this study, we propose a novel deep learning model, named MorpHoloNet, for single-shot reconstruction of 3D morphology by integrating physics-driven and coordinate-based neural networks. By simulating the optical diffraction of coherent light through a 3D phase shift distribution, the proposed MorpHoloNet is optimized by minimizing the loss between the simulated and input holograms on the sensor plane. Compared to existing DIHM methods that face challenges with twin image and phase retrieval problems, MorpHoloNet enables direct reconstruction of 3D complex light field and 3D morphology of a test sample from its single-shot hologram without requiring multiple phase-shifted holograms or angle scanning. The performance of the proposed MorpHoloNet is validated by reconstructing 3D morphologies and refractive index distributions from synthetic holograms of ellipsoids and experimental holograms of biological cells. The proposed deep learning model is utilized to reconstruct spatiotemporal variations in 3D translational and rotational behaviors and morphological deformations of biological cells from consecutive single-shot holograms captured using DIHM. MorpHoloNet would pave the way for advancing label-free, real-time 3D imaging and dynamic analysis of biological cells under various cellular microenvironments in biomedical and engineering fields.
翻訳日:2024-10-29 19:24:58 公開日:2024-09-30
# ダイナミックポリシーフュージョンによるパーソナライズ

Personalisation via Dynamic Policy Fusion ( http://arxiv.org/abs/2409.20016v1 )

ライセンス: Link先を確認
Ajsal Shereef Palattuparambil, Thommen George Karimpanal, Santu Rana, (参考訳) タスク報酬の観点からは最適ではあるが、深い強化学習(RL)ポリシーは、人間の個人の好みと一致しないかもしれない。 このアライメントを確実にするためには、ユーザの特定の好みをエンコードする報酬関数を使用してエージェントを再訓練する直感的な解決策がある。 しかし、そのような報酬関数は一般に簡単には利用できないため、スクラッチからエージェントを再訓練することは違法にコストがかかる。 我々は、より実践的なアプローチを提案し、人間のフィードバックの助けを借りて、すでに訓練済みのポリシーをユーザ固有のニーズに適応させる。 この目的のために,軌道レベルのフィードバックを通じてユーザの意図を推測し,理論的に基礎付けられた動的ポリシー融合アプローチによって訓練されたタスクポリシーと組み合わせる。 提案手法では,タスクポリシの学習に使用するのと全く同じ軌道上で,人間のフィードバックを収集するので,環境との追加的なインタラクションは必要とせず,ゼロショットアプローチとなる。 提案する動的ポリシー融合アプローチが,ユーザ固有のニーズを同時に順守しながら,意図したタスクを一貫して達成していることを実証的に実証する。

Deep reinforcement learning (RL) policies, although optimal in terms of task rewards, may not align with the personal preferences of human users. To ensure this alignment, a naive solution would be to retrain the agent using a reward function that encodes the user's specific preferences. However, such a reward function is typically not readily available, and as such, retraining the agent from scratch can be prohibitively expensive. We propose a more practical approach - to adapt the already trained policy to user-specific needs with the help of human feedback. To this end, we infer the user's intent through trajectory-level feedback and combine it with the trained task policy via a theoretically grounded dynamic policy fusion approach. As our approach collects human feedback on the very same trajectories used to learn the task policy, it does not require any additional interactions with the environment, making it a zero-shot approach. We empirically demonstrate in a number of environments that our proposed dynamic policy fusion approach consistently achieves the intended task while simultaneously adhering to user-specific needs.
翻訳日:2024-10-29 19:24:58 公開日:2024-09-30
# Visual Context Window Extension: 長いビデオ理解のための新しい視点

Visual Context Window Extension: A New Perspective for Long Video Understanding ( http://arxiv.org/abs/2409.20018v1 )

ライセンス: Link先を確認
Hongchen Wei, Zhenzhong Chen, (参考訳) 大規模マルチモーダルモデル(LMM)は、短いビデオ理解タスクにおいて印象的な性能を示してきたが、長いビデオ理解に適用した場合、大きな課題に直面している。 対照的に、Large Language Models (LLMs) は長文のモデリングにおいて優れた機能を示す。 既存の作業は、トレーニング中に長いビデオテキストペアを導入することで、この問題に対処しようとするものだ。 しかし、これらのアプローチには相当な計算資源とデータ資源が必要である。 本稿では,LMMを長いビデオデータセットに再学習することなく,長いビデオタスクに適用することを目的とした,コンテキストウィンドウの観点からの長いビデオ理解の課題に取り組む。 まず、事前学習したLMMが長大なビデオコンテンツを理解するのになぜ苦労しているかを詳細に分析し、視覚的・言語的モダリティの相違が視覚的・言語的トークンの異なるコンテキストウィンドウにつながることを確認し、視覚的トークンを直接拡張して言語的コンテキストウィンドウに適合させることが困難であることを示す。 そこで本稿では,視覚的コンテキストウィンドウを拡張し,大規模ビデオデータセットの再トレーニングを不要にすることで,LMMを長時間ビデオ理解タスクに適用することを提案する。 長いシーケンスによる大きなメモリ消費を軽減するため,フレーム埋め込みの空間分解能を選択的に調整し,重要な空間情報を保持しながら視覚トークンの数を減らすプログレッシブプール推論戦略を導入する。 複数の長大なビデオ理解ベンチマークにおいて,ビデオフレーム数の増加に伴い,提案手法は一貫して性能の向上を図っている。 MLVUベンチマークでは,モデルサイズが7Bであるにもかかわらず,GPT-4oよりも優れていた。 さらに256フレーム設定では,メモリ使用量をベースラインに比べて約45%削減する。

Large Multimodal Models (LMMs) have demonstrated impressive performance in short video understanding tasks but face great challenges when applied to long video understanding. In contrast, Large Language Models (LLMs) exhibit outstanding capabilities in modeling long texts. Existing work attempts to address this issue by introducing long video-text pairs during training. However, these approaches require substantial computational and data resources. In this paper, we tackle the challenge of long video understanding from the perspective of context windows, aiming to apply LMMs to long video tasks without retraining on long video datasets. We first conduct an in-depth analysis of why pretrained LMMs struggle to understand lengthy video content, identifying that discrepancies between visual and language modalities lead to different context windows for visual and language tokens, making it difficult to directly extend the visual tokens to match the language context window. Based on this, we propose to adapt LMMs for long video understanding tasks by extending the visual context window, eliminating the need for retraining on large scalelong video datasets. To further mitigate the significant memory consumption caused by long sequences, we introduce a progressive pooling inference strategy that selectively adjusts the spatial resolution of frame embeddings, reducing the number of visual tokens while retaining important spatial information. Across multiple long video understanding benchmarks, our method consistently improves the performance as the number of video frames increases. On the MLVU benchmark, our method outperforms GPT-4o, even though our model size is only 7B. Additionally, in the 256-frame setting, our method reduces memory usage by approximately 45% compared to the baseline, without introducing any performance loss.
翻訳日:2024-10-29 19:24:58 公開日:2024-09-30
# 1つの任意のゲートを持つ普遍量子コンピューティング

Universal quantum computing with a single arbitrary gate ( http://arxiv.org/abs/2409.20025v1 )

ライセンス: Link先を確認
Zhong-Yi Ni, Yu-Sheng Zhao, Jin-Guo Liu, (参考訳) 本研究は、普遍量子コンピューティングにおける単一任意のゲートの利用に向けたロードマップを示す。 20年前より、キュービット数 $>2$ の任意のゲートのほとんどすべてが普遍的であることが広く受け入れられている。 コンパイルのための単一の任意のゲートを利用することは、例えば散乱ベースの量子コンピューティングスキームのような、限られた自由度を持つシステムにとって有益である。 しかし、要求ゲートを1つの任意のゲートで効率的にコンパイルし、最終的にフォールトトレラントな量子コンピューティングを実現する方法は不明である。 本研究では,回路深さが約$\log(\epsilon^{-1})$の精度を$\epsilon$にコンパイルし,ブルートフォースコンパイル法を改良した。 合理的な古典的資源の仮定の下で、ゲートの不完全性を10^{-3}$に下げることができることを示す。 不完全をコヒーレントな誤差として扱うことにより、測定不要な量子誤差補正法により、誤差を約2桁減らすことができることを示す。

This study presents a roadmap towards utilizing a single arbitrary gate for universal quantum computing. Since two decades ago, it has been widely accepted that almost any single arbitrary gate with qubit number $>2$ is universal. Utilizing a single arbitrary gate for compiling is beneficial for systems with limited degrees of freedom, e.g. the scattering based quantum computing schemes. However, how to efficiently compile the wanted gate with a single arbitrary gate, and finally achieve fault-tolerant quantum computing is unknown. In this work, we show almost any target gate can be compiled to precision $\epsilon$ with a circuit depth of approximately $\log(\epsilon^{-1})$ with an improved brute-force compiling method. Under the assumption of reasonable classical resource, we show the gate imperfection can be lowered to $10^{-3}$. By treating the imperfection as coherent error, we show that the error can be further reduced by roughly two orders of magnitude with a measurement-free quantum error correction method.
翻訳日:2024-10-29 19:24:58 公開日:2024-09-30
# 量子一様ゲームコンジェクチャ

A Quantum Unique Games Conjecture ( http://arxiv.org/abs/2409.20028v1 )

ライセンス: Link先を確認
Hamoon Mousavi, Taro Spirig, (参考訳) 3SATやMaxCutのような計算問題のNP硬度が確立した後、これらの問題が近似し難いままであるかどうかを探索する自然の次のステップが実現された。 これらの問題の量子展開は、ハードインディーズで決定不能な不適応性であることが知られているが、ほとんど未解決のままである。 本稿では,ラベル・コーバーとユニク・ラベル・コーヴァーの量子拡張に関する定義を紹介する。 これらの問題は、古典的な設定で行うように、量子制約満足度問題の非近似性を研究する上でも同様に重要な役割を果たすことを示す。

After the NP-hardness of computational problems such as 3SAT and MaxCut was established, a natural next step was to explore whether these problems remain hard to approximate. While the quantum extensions of some of these problems are known to be hard-indeed undecidable-their inapproximability remains largely unresolved. In this work, we introduce definitions for the quantum extensions of Label-Cover and Unique-Label-Cover. We show that these problems play a similarly crucial role in studying the inapproximability of quantum constraint satisfaction problems as they do in the classical setting.
翻訳日:2024-10-29 19:24:58 公開日:2024-09-30
# コリメータシステムを用いたカメラキャリブレーション

Camera Calibration using a Collimator System ( http://arxiv.org/abs/2409.20034v1 )

ライセンス: Link先を確認
Shunkun Liang, Banglei Guan, Zhenbao Yu, Pengju Sun, Yang Shang, (参考訳) カメラキャリブレーションは、フォトグラメトリーと3D視覚応用において重要なステップである。 広い範囲をカバーするための長い作業距離を持つ現実的なシナリオでは、ターゲットベースキャリブレーション法は、サイト制限のため複雑で柔軟性に欠ける。 本稿では,コリメータシステムを用いた新しいカメラキャリブレーション手法を提案する。 コリメータシステムの光学的幾何に基づいて、目標とカメラの相対運動が球運動モデルに一致することを証明し、元の6DOF相対運動を3DOF純回転運動に還元する。 さらに,カメラキャリブレーションにおいて,複数のビューに対する閉形式解法と2つのビューに対する最小解法を提案する。 本研究では,コリメータシステムによるキャリブレーションの有効性を検証し,本手法が最先端の手法よりも優れていることを示す。 デモコードはhttps://github.com/LiangSK98/CollimatorCalibration.comで公開されている。

Camera calibration is a crucial step in photogrammetry and 3D vision applications. In practical scenarios with a long working distance to cover a wide area, target-based calibration methods become complicated and inflexible due to site limitations. This paper introduces a novel camera calibration method using a collimator system, which can provide a reliable and controllable calibration environment for cameras with varying working distances. Based on the optical geometry of the collimator system, we prove that the relative motion between the target and camera conforms to the spherical motion model, reducing the original 6DOF relative motion to 3DOF pure rotation motion. Furthermore, a closed-form solver for multiple views and a minimal solver for two views are proposed for camera calibration. The performance of our method is evaluated in both synthetic and real-world experiments, which verify the feasibility of calibration using the collimator system and demonstrate that our method is superior to the state-of-the-art methods. Demo code is available at https://github.com/LiangSK98/CollimatorCalibration.
翻訳日:2024-10-29 19:24:58 公開日:2024-09-30
# 10面光コンバータの構築と配向

Building and aligning a 10-plane light converter ( http://arxiv.org/abs/2409.20039v1 )

ライセンス: Link先を確認
Ohad Lib, Ronen Shekel, Yaron Bromberg, (参考訳) 光の空間構造を操作できる能力は、古典的な通信から量子情報処理まで、様々な用途に欠かせない。 マルチプレーン光変換(MPLC)は、自由空間伝播によって分離された一連の位相マスクを通して複数の空間モードの光を完全に制御することで、単一平面変調の限界に対処する。 本チュートリアルでは,空間光変調器(SLM)と標準光学部品を用いた10面プログラマブル光変換器の構築と整列のためのステップバイステップガイドを提案する。 本手法は,比較的簡単な設定で1ピクセルの精度で高精度なアライメントを実現する。 私たちはこのガイドが、他の研究者がMPLC技術を自身の実験に迅速に採用し、適応するのを支援してくれることを期待しています。

The ability to manipulate the spatial structure of light is fundamental for a range of applications, from classical communication to quantum information processing. Multi-plane light conversion (MPLC) addresses the limitations of single-plane modulation by enabling full control over multiple spatial modes of light through a series of phase masks separated by free-space propagation. In this tutorial, we present a step-by-step guide for building and aligning a 10-plane programmable light converter using a single spatial light modulator (SLM) and standard optical components. Our method allows precise alignment, achieving single-pixel accuracy with a relatively simple setup. We hope that this guide will help other researchers to quickly adopt and adapt MPLC technology for their own experiments.
翻訳日:2024-10-29 19:24:58 公開日:2024-09-30
# Beyond Scores: フィードバックによるショートアンサーの自動スコーリングのためのモジュールRAGベースシステム

Beyond Scores: A Modular RAG-Based System for Automatic Short Answer Scoring with Feedback ( http://arxiv.org/abs/2409.20042v1 )

ライセンス: Link先を確認
Menna Fateen, Bo Wang, Tsunenori Mine, (参考訳) 自動短解スコアリング(ASAS)は、教育者に対する格付け負担を軽減するのに役立つが、詳細で説明可能なフィードバックを欠いていることが多い。 フィードバック付きASAS(ASAS-F)の既存のメソッドは、限られたデータセットを持つ微調整言語モデルに依存しており、リソース集約であり、コンテキストをまたいだ一般化に苦慮している。 大規模言語モデル(LLM)を用いた最近のアプローチは、広範囲な微調整を伴わないスコアに重点を置いている。 しかし、彼らはしばしば急進的なエンジニアリングに大きく依存し、精巧なフィードバックが得られなかったり、適切に評価しなかったりする。 本稿では,厳密なゼロショットおよび少数ショット学習シナリオにおいて,回答を収集し,フィードバックを生成するモジュール型拡張生成システムASAS-Fを提案する。 我々は,自動プロンプト生成フレームワークを用いて,広範囲なプロンプトエンジニアリングを行うことなく,様々な教育課題に適応可能なシステムを設計する。 その結果、微調整に比べて、評価精度が9倍向上し、スケーラブルで費用対効果の高いソリューションが提供された。

Automatic short answer scoring (ASAS) helps reduce the grading burden on educators but often lacks detailed, explainable feedback. Existing methods in ASAS with feedback (ASAS-F) rely on fine-tuning language models with limited datasets, which is resource-intensive and struggles to generalize across contexts. Recent approaches using large language models (LLMs) have focused on scoring without extensive fine-tuning. However, they often rely heavily on prompt engineering and either fail to generate elaborated feedback or do not adequately evaluate it. In this paper, we propose a modular retrieval augmented generation based ASAS-F system that scores answers and generates feedback in strict zero-shot and few-shot learning scenarios. We design our system to be adaptable to various educational tasks without extensive prompt engineering using an automatic prompt generation framework. Results show an improvement in scoring accuracy by 9\% on unseen questions compared to fine-tuning, offering a scalable and cost-effective solution.
翻訳日:2024-10-29 19:24:58 公開日:2024-09-30
# OPONeRF:ロバストなニューラルレンダリングのための一点一点NeRF

OPONeRF: One-Point-One NeRF for Robust Neural Rendering ( http://arxiv.org/abs/2409.20043v1 )

ライセンス: Link先を確認
Yu Zheng, Yueqi Duan, Kangfu Zheng, Hongru Yan, Jiwen Lu, Jie Zhou, (参考訳) 本稿では,ロバストなシーンレンダリングのためのワンポイント・ワン・ネRF(OPONeRF)フレームワークを提案する。 既存のNeRFは、目標シーンがトレーニング時間とテスト時間の間に変化しないというキー前提に基づいて設計されている。 しかし、オブジェクトの動き、光の変化、データ汚染といった小さなが予測不可能な摂動は、現実の3Dシーンに広く存在し、最近の最先端の一般化可能な手法であっても、レンダリング結果が著しく欠陥または失敗した。 そこで本研究では,OPONeRFにおける分割・分散化フレームワークを提案する。このフレームワークは,テスト時の未確認変化に対して不活性な1組のNeRFパラメータを適合させるのではなく,適切なポイントワイズパラメータをパーソナライズすることで,局所的なシーン変動に適応的に応答する。 さらに,局所不確実性を明示的に把握するために,点表現を決定論的マッピングと確率論的推論に分解する。 このようにして、OPONeRFは共有可能な不変性を学び、トレーニングシーンとテストシーンの間の予期せぬシーンのバリエーションを教師なしでモデル化する。 提案手法の有効性を検証するため, 従来の一般化や時間的再構成のベンチマークよりも困難である前景動作, 照明変動, 多モード雑音など, 多様なテスト時間摂動を伴う実時間および合成データからベンチマークを構築した。 実験の結果,OPONeRFはベンチマーク実験やクロスシーン評価を通じて,各種評価指標における最先端のNeRFよりも優れていた。 さらに,既存の一般化ベースベンチマークを実験し,One-Point-One NeRFのアイデアを他の先進的ベースライン手法に取り入れることで,提案手法の有効性を示す。

In this paper, we propose a One-Point-One NeRF (OPONeRF) framework for robust scene rendering. Existing NeRFs are designed based on a key assumption that the target scene remains unchanged between the training and test time. However, small but unpredictable perturbations such as object movements, light changes and data contaminations broadly exist in real-life 3D scenes, which lead to significantly defective or failed rendering results even for the recent state-of-the-art generalizable methods. To address this, we propose a divide-and-conquer framework in OPONeRF that adaptively responds to local scene variations via personalizing appropriate point-wise parameters, instead of fitting a single set of NeRF parameters that are inactive to test-time unseen changes. Moreover, to explicitly capture the local uncertainty, we decompose the point representation into deterministic mapping and probabilistic inference. In this way, OPONeRF learns the sharable invariance and unsupervisedly models the unexpected scene variations between the training and testing scenes. To validate the effectiveness of the proposed method, we construct benchmarks from both realistic and synthetic data with diverse test-time perturbations including foreground motions, illumination variations and multi-modality noises, which are more challenging than conventional generalization and temporal reconstruction benchmarks. Experimental results show that our OPONeRF outperforms state-of-the-art NeRFs on various evaluation metrics through benchmark experiments and cross-scene evaluations. We further show the efficacy of the proposed method via experimenting on other existing generalization-based benchmarks and incorporating the idea of One-Point-One NeRF into other advanced baseline methods.
翻訳日:2024-10-29 19:24:58 公開日:2024-09-30
# IoTデバイスにおけるタッチレス信頼の構築

Building Touch-Less Trust in IoT Devices ( http://arxiv.org/abs/2409.20047v1 )

ライセンス: Link先を確認
Steve Kerrison, (参考訳) モノのインターネット(IoT)デバイスの信頼メカニズムは、製造業者や他のエコシステム参加者によって一般的に使用されている。 しかしエンドユーザは、デバイスへの信頼を確立する上で、特に新製品やユニークな製品の普及により、デバイスとの遭遇が頻繁になるため、課題に直面している。 デバイスとの通信や物理的相互作用は、ユーザを生体認証盗難やデバイスの利用など、さまざまな脅威に晒すことができる。 そこで本研究では,物理的なインタラクションや重要な通信が行われる前に,IoTデバイスの完全性と信頼性を検証するメカニズムを提案する。

Trust mechanisms for Internet of Things (IoT) devices are commonly used by manufacturers and other ecosystem participants. However, end users face a challenge in establishing trust in devices, particularly as device encounters become more frequent thanks to the proliferation of new and unique products. Communication or even physical interaction with a device can expose a user to various threats, such as biometric theft or exploit of their own device. To address this, we propose a mechanism for verifying the integrity and trustworthiness of an IoT device before physical interaction or any significant communication has taken place.
翻訳日:2024-10-29 19:24:58 公開日:2024-09-30
# 変圧器モデルと補助特徴を用いたソーシャルメディア投稿の抑うつ検出

Depression detection in social media posts using transformer-based models and auxiliary features ( http://arxiv.org/abs/2409.20048v1 )

ライセンス: Link先を確認
Marios Kerasiotis, Loukas Ilias, Dimitris Askounis, (参考訳) ソーシャルメディア投稿におけるうつ病の発見は、メンタルヘルス問題の増加により不可欠である。 従来の機械学習アルゴリズムは複雑なテキストパターンのキャプチャに失敗することが多く、抑うつを識別する効果を制限している。 既存の研究では、この問題に対する様々なアプローチを探求してきたが、精度と堅牢性の点でしばしば不足している。 これらの制約に対処するため,トランスフォーマーモデルとメタデータと言語マーカーを組み合わせたニューラルネットワークアーキテクチャを提案する。 この研究はDistilBERTを使用し、トランスフォーマーの最後の4つの層から情報を抽出し、学習した重みを適用し、それらを平均化し、入力テキストのリッチな表現を作成する。 この表現はメタデータと言語マーカーによって強化され、各投稿に対するモデルの理解を深める。 ドロップアウト層はオーバーフィッティングを防ぎ、最終分類には多層パーセプトロン(MLP)が使用される。 EDA(Easy Data Augmentation)メソッドにインスパイアされたデータ拡張技術も、モデルパフォーマンスを改善するために採用されている。 BERTを使用すると、フレーズのランダムな挿入と置換が追加のトレーニングデータを生成し、未表現のクラスを拡大することでデータセットのバランスに重点を置いている。 提案したモデルは、それぞれ84.26%、84.18%、84.15%の重み付き精度、リコール、F1スコアを達成する。 増強技術はモデル性能を大幅に向上させ、重み付けされたF1スコアを72.59%から84.15%に引き上げた。

The detection of depression in social media posts is crucial due to the increasing prevalence of mental health issues. Traditional machine learning algorithms often fail to capture intricate textual patterns, limiting their effectiveness in identifying depression. Existing studies have explored various approaches to this problem but often fall short in terms of accuracy and robustness. To address these limitations, this research proposes a neural network architecture leveraging transformer-based models combined with metadata and linguistic markers. The study employs DistilBERT, extracting information from the last four layers of the transformer, applying learned weights, and averaging them to create a rich representation of the input text. This representation, augmented by metadata and linguistic markers, enhances the model's comprehension of each post. Dropout layers prevent overfitting, and a Multilayer Perceptron (MLP) is used for final classification. Data augmentation techniques, inspired by the Easy Data Augmentation (EDA) methods, are also employed to improve model performance. Using BERT, random insertion and substitution of phrases generate additional training data, focusing on balancing the dataset by augmenting underrepresented classes. The proposed model achieves weighted Precision, Recall, and F1-scores of 84.26%, 84.18%, and 84.15%, respectively. The augmentation techniques significantly enhance model performance, increasing the weighted F1-score from 72.59% to 84.15%.
翻訳日:2024-10-29 19:24:58 公開日:2024-09-30
# リコメンダシステムのための大規模言語モデルの確率バイアスの緩和

Mitigating Propensity Bias of Large Language Models for Recommender Systems ( http://arxiv.org/abs/2409.20052v1 )

ライセンス: Link先を確認
Guixian Zhang, Guan Yuan, Debo Cheng, Lin Liu, Jiuyong Li, Shichao Zhang, (参考訳) LLM(Large Language Models)の急速な開発は、特にこれらのモデルによって生成された側面情報(例えば、項目の説明や分析)を活用することによって、リコメンデータシステムに新たな機会をもたらす。 しかし、この側面情報を歴史的相互作用からの協調情報と整合させることは、大きな課題となる。 LLM内の固有のバイアスはレコメンデーションを歪め、歪んだり不公平なユーザエクスペリエンスをもたらす可能性がある。 一方、相対性バイアスは、低次元のサブ空間における全ての入力を表現しがちな側情報を整列させ、次元崩壊と呼ばれる現象を招き、ユーザの好みや振る舞いをキャプチャするシステムの能力を著しく制限する。 これらの課題に対処するため,我々はCLLMR(Counterfactual LLM Recommendation)という新しいフレームワークを紹介した。 具体的には、歴史的相互作用から構造情報をサイド情報表現に暗黙的に埋め込むスペクトルベースのサイド情報エンコーダを提案し、それによって次元崩壊のリスクを回避する。 さらに,我々のCLLMRアプローチでは,LLMベースのレコメンデータシステムに固有の因果関係について検討している。 反ファクト推論を利用することで、LLMが導入したバイアスに対処する。 我々のCLLMRアプローチは様々なレコメンデーションモデルの性能を継続的に向上することを示した。

The rapid development of Large Language Models (LLMs) creates new opportunities for recommender systems, especially by exploiting the side information (e.g., descriptions and analyses of items) generated by these models. However, aligning this side information with collaborative information from historical interactions poses significant challenges. The inherent biases within LLMs can skew recommendations, resulting in distorted and potentially unfair user experiences. On the other hand, propensity bias causes side information to be aligned in such a way that it often tends to represent all inputs in a low-dimensional subspace, leading to a phenomenon known as dimensional collapse, which severely restricts the recommender system's ability to capture user preferences and behaviours. To address these issues, we introduce a novel framework named Counterfactual LLM Recommendation (CLLMR). Specifically, we propose a spectrum-based side information encoder that implicitly embeds structural information from historical interactions into the side information representation, thereby circumventing the risk of dimension collapse. Furthermore, our CLLMR approach explores the causal relationships inherent in LLM-based recommender systems. By leveraging counterfactual inference, we counteract the biases introduced by LLMs. Extensive experiments demonstrate that our CLLMR approach consistently enhances the performance of various recommender models.
翻訳日:2024-10-02 19:42:09 公開日:2024-09-30
# GUNDAM: グラフ理解による大規模言語モデルの調整

GUNDAM: Aligning Large Language Models with Graph Understanding ( http://arxiv.org/abs/2409.20053v1 )

ライセンス: Link先を確認
Sheng Ouyang, Yulan Hu, Ge Chen, Yong Liu, (参考訳) 大規模言語モデル(LLM)は、テキストデータの処理において驚くべき成果を上げており、グラフのようなテキストデータを越えてこれらのモデルを適用することへの関心を喚起している。 グラフ学習の分野では、グラフ構造化データの理解と操作にLLMを活用することへの関心が高まっている。 既存の研究は主に知識グラフやテキスト属性グラフのようなリッチなテキスト特徴を持つグラフに焦点を当てており、LLMのテキスト処理能力を活用するが、グラフ構造には不十分である。 本研究の目的は、テキストコンテンツに富むグラフのみに焦点をあてるのではなく、グラフデータ自体に固有の構造的知識を理解・活用するLSMの能力を評価し、強化することである。 これを達成するために、我々は \textbf{G}raph \textbf{U}nderstanding for \textbf{N}atural Language \textbf{D}riven \textbf{A}nalytical \textbf{M}odel (\model)を紹介する。 このモデルは、グラフデータの構造をよりよく理解し、関与するようにLLMを適用し、グラフの構造自体を活用することで複雑な推論タスクを実行できる。 グラフ推論ベンチマークの実験評価では,モデルがSOTAのベースラインを上回り,比較を行った。 しかし、LLMのグラフ推論能力に影響を及ぼす重要な要因も明らかにしている。 さらに,LLMの推論能力を高めるための推論経路について理論的解析を行った。

Large Language Models (LLMs) have achieved impressive results in processing text data, which has sparked interest in applying these models beyond textual data, such as graphs. In the field of graph learning, there is a growing interest in harnessing LLMs to comprehend and manipulate graph-structured data. Existing research predominantly focuses on graphs with rich textual features, such as knowledge graphs or text attribute graphs, leveraging LLMs' ability to process text but inadequately addressing graph structure. This work specifically aims to assess and enhance LLMs' abilities to comprehend and utilize the structural knowledge inherent in graph data itself, rather than focusing solely on graphs rich in textual content. To achieve this, we introduce the \textbf{G}raph \textbf{U}nderstanding for \textbf{N}atural Language \textbf{D}riven \textbf{A}nalytical \textbf{M}odel (\model). This model adapts LLMs to better understand and engage with the structure of graph data, enabling them to perform complex reasoning tasks by leveraging the graph's structure itself. Our experimental evaluations on graph reasoning benchmarks not only substantiate that \model~ outperforms the SOTA baselines for comparisons. But also reveals key factors affecting the graph reasoning capabilities of LLMs. Moreover, we provide a theoretical analysis illustrating how reasoning paths can enhance LLMs' reasoning capabilities.
翻訳日:2024-10-02 19:42:09 公開日:2024-09-30
# ゼロショット言語間ニュース感情分析のためのトレーニング戦略の評価と説明

Evaluating and explaining training strategies for zero-shot cross-lingual news sentiment analysis ( http://arxiv.org/abs/2409.20054v1 )

ライセンス: Link先を確認
Luka Andrenšek, Boshko Koloski, Andraž Pelicon, Nada Lavrač, Senja Pollak, Matthew Purver, (参考訳) 目的語学習データなしで複数の言語にまたがって展開できる堅牢な感情分類器を開発することを目的として,ゼロショット言語間ニュース感情検出について検討した。 本稿では,いくつかの低リソース言語における新しい評価データセットを導入し,機械翻訳の利用,大規模言語モデルを用いたコンテキスト内学習,および段落レベルの情報を活用する新規タスク目標POAを含む様々な中間訓練体制について実験する。 提案手法は,テキスト内学習が一般的に最高の性能を示すが,新しいPOAアプローチは計算オーバーヘッドをはるかに低く抑えた競合的な代替手段を提供する。 また、言語類似性自体が言語間移動の成功を予測するのに十分ではないことを示し、意味的内容や構造における類似性も同様に重要であることを示した。

We investigate zero-shot cross-lingual news sentiment detection, aiming to develop robust sentiment classifiers that can be deployed across multiple languages without target-language training data. We introduce novel evaluation datasets in several less-resourced languages, and experiment with a range of approaches including the use of machine translation; in-context learning with large language models; and various intermediate training regimes including a novel task objective, POA, that leverages paragraph-level information. Our results demonstrate significant improvements over the state of the art, with in-context learning generally giving the best performance, but with the novel POA approach giving a competitive alternative with much lower computational overhead. We also show that language similarity is not in itself sufficient for predicting the success of cross-lingual transfer, but that similarity in semantic content and structure can be equally important.
翻訳日:2024-10-02 19:42:09 公開日:2024-09-30
# リコメンダシステムのためのニューラルクリックモデル

Neural Click Models for Recommender Systems ( http://arxiv.org/abs/2409.20055v1 )

ライセンス: Link先を確認
Mikhail Shirokikh, Ilya Shenbin, Anton Alekseev, Anna Volodkevich, Alexey Vasilev, Andrey V. Savchenko, Sergey Nikolenko, (参考訳) 我々は,Web検索のクリックモデルにインスパイアされたレコメンデータシステム(RS)におけるユーザの振る舞いをモデル化するニューラルネットワークを開発し,評価する。 提案されているアーキテクチャには、リカレントネットワーク、トランスフォーマーベースのモデル、自己注意の二次的複雑さ、対角的および階層的アーキテクチャを緩和する。 我々のモデルはContentWiseおよびRL4RSデータセットのベースラインを上回り、RSシミュレータでRS評価と事前学習のためにユーザ応答をモデル化することができる。

We develop and evaluate neural architectures to model the user behavior in recommender systems (RS) inspired by click models for Web search but going beyond standard click models. Proposed architectures include recurrent networks, Transformer-based models that alleviate the quadratic complexity of self-attention, adversarial and hierarchical architectures. Our models outperform baselines on the ContentWise and RL4RS datasets and can be used in RS simulators to model user response for RS evaluation and pretraining.
翻訳日:2024-10-02 19:42:09 公開日:2024-09-30
# 優先アライメントは常にLLM翻訳のベストオプションか? : 実証分析

Is Preference Alignment Always the Best Option to Enhance LLM-Based Translation? An Empirical Analysis ( http://arxiv.org/abs/2409.20059v1 )

ライセンス: Link先を確認
Hippolyte Gisserot-Boukhlef, Ricardo Rei, Emmanuel Malherbe, Céline Hudelot, Pierre Colombo, Nuno M. Guerreiro, (参考訳) 機械翻訳(MT)評価のためのニューラルネットワークメトリクスは、従来の語彙指標と比較して人間の判断との相関が優れているため、ますます顕著になっている。 そのため、研究者は品質インフォームドデコード戦略を通じて神経メトリクスを活用し、可能性に基づく手法よりも優れた結果を得た。 LLM(Large Language Models)の台頭に伴い、品質推定器によって引き起こされる嗜好に基づいてモデル重みを直接最適化することにより、翻訳品質を向上させる可能性について、嗜好に基づくアライメント技術が注目されている。 本研究では,コントラスト優先最適化(Contrastive Preference Optimization, CPO)に注目し,翻訳品質に対する嗜好に基づくアライメントの影響を評価する。 以上の結果から,CPOはアライメント指標に関して,高品質なデータに対して常にsupervised Fine-Tuning(SFT)を上回り,下流評価指標,特に神経・語彙指標間の不安定性をもたらす可能性が示唆された。 さらに、候補翻訳を生成するためのベースモデルのみに依存することは、下流のメトリクス間の整合性を確保しつつ、複数の外部システムに匹敵する性能を実現することを実証する。

Neural metrics for machine translation (MT) evaluation have become increasingly prominent due to their superior correlation with human judgments compared to traditional lexical metrics. Researchers have therefore utilized neural metrics through quality-informed decoding strategies, achieving better results than likelihood-based methods. With the rise of Large Language Models (LLMs), preference-based alignment techniques have gained attention for their potential to enhance translation quality by optimizing model weights directly on preferences induced by quality estimators. This study focuses on Contrastive Preference Optimization (CPO) and conducts extensive experiments to evaluate the impact of preference-based alignment on translation quality. Our findings indicate that while CPO consistently outperforms Supervised Fine-Tuning (SFT) on high-quality data with regard to the alignment metric, it may lead to instability across downstream evaluation metrics, particularly between neural and lexical ones. Additionally, we demonstrate that relying solely on the base model for generating candidate translations achieves performance comparable to using multiple external systems, while ensuring better consistency across downstream metrics.
翻訳日:2024-10-02 19:42:09 公開日:2024-09-30
# 脳性麻痺検出のための軽量ニューラルネットワーク探索

Lightweight Neural Architecture Search for Cerebral Palsy Detection ( http://arxiv.org/abs/2409.20060v1 )

ライセンス: Link先を確認
Felix Tempel, Espen Alexander F. Ihlen, Inga Strümke, (参考訳) 脳性麻痺(CP)と呼ばれる神経疾患は、幼少期または幼少期に発症し、運動調整や身体運動に生涯影響を及ぼす。 CPは小児障害の主要な原因の1つであり、早期発見は適切な治療を行う上で重要である。 しかし、そのような検出は、一般運動評価(GMA)のような手法で訓練された人間の専門家による評価に依存する。 これらは、特に発展途上国では広くアクセスできない。 従来の機械学習アプローチはCP検出タスクにおいて限られた予測性能を提供しており、利用可能な数少ないドメインエキスパートによって開発されたアプローチは一般的にデータセット固有であり、それらが作成されたコンテキストを超えた適用性を制限する。 これらの課題に対処するために,最適なアーキテクチャとハイパーパラメータの組み合わせを効率的に最適化し,CP検出に最適なニューラルネットワーク構成を見つけることができる強化学習更新スキームを適用したニューラルネットワーク探索(NAS)アルゴリズムを提案する。 提案手法は,大規模アンサンブルに依存しているフィールド上の他のアプローチよりも,実世界のCPデータセットの方が優れている。 本手法は, 資源需要が低く, 性能も良好であるため, 特に, 医療専門家や必要な診断ツールに限られた地域や開発途上国を含む, 資源制約のある環境における実装に適している。 結果、軽量なアーキテクチャと効率的な計算時間により、処理能力の制限のあるデバイスへのデプロイメントが可能になり、高価なインフラストラクチャの必要性を低減し、したがって、早期CP診断のタイムリーかつ正確なサポートを提供するために、臨床ワークフローに統合することができる。

The neurological condition known as cerebral palsy (CP) first manifests in infancy or early childhood and has a lifelong impact on motor coordination and body movement. CP is one of the leading causes of childhood disabilities, and early detection is crucial for providing appropriate treatment. However, such detection relies on assessments by human experts trained in methods like general movement assessment (GMA). These are not widely accessible, especially in developing countries. Conventional machine learning approaches offer limited predictive performance on CP detection tasks, and the approaches developed by the few available domain experts are generally dataset-specific, restricting their applicability beyond the context for which these were created. To address these challenges, we propose a neural architecture search (NAS) algorithm applying a reinforcement learning update scheme capable of efficiently optimizing for the best architectural and hyperparameter combination to discover the most suitable neural network configuration for detecting CP. Our method performs better on a real-world CP dataset than other approaches in the field, which rely on large ensembles. As our approach is less resource-demanding and performs better, it is particularly suitable for implementation in resource-constrained settings, including rural or developing areas with limited access to medical experts and the required diagnostic tools. The resulting model's lightweight architecture and efficient computation time allow for deployment on devices with limited processing power, reducing the need for expensive infrastructure, and can, therefore, be integrated into clinical workflows to provide timely and accurate support for early CP diagnosis.
翻訳日:2024-10-02 19:42:09 公開日:2024-09-30
# Q-Bench-Video:LMMのビデオ品質理解のベンチマーク

Q-Bench-Video: Benchmarking the Video Quality Understanding of LMMs ( http://arxiv.org/abs/2409.20063v1 )

ライセンス: Link先を確認
Zicheng Zhang, Ziheng Jia, Haoning Wu, Chunyi Li, Zijian Chen, Yingjie Zhou, Wei Sun, Xiaohong Liu, Xiongkuo Min, Weisi Lin, Guangtao Zhai, (参考訳) ビデオ理解のためのLMM(Large Multi-modal Models)の研究への関心が高まり、多くの研究は、ビデオ品質理解の体系的な探索を無視して、一般的なビデオ理解能力を強調してきた。 本稿では,映像品質の識別におけるLMMの習熟度を評価するための新しいベンチマークであるQ-Bench-Videoを紹介する。 a) 映像ソースの多様性を確保するため、Q-Bench-Videoは、自然シーン、AIGC(AI- generated Content)、CG(Computer Graphics)からのビデオを含む。 b) “Yes-or-No”と“What-How”のカテゴリによる従来の複数項目の質問フォーマットに基づいて、複雑なシナリオをよりよく評価するために、オープンエンドの質問を含めます。 さらに,ビデオペアの品質比較問題を包括性を高めるために組み入れた。 c) 従来の技術的,美的,時間的歪みの他に,ビデオ生成の需要の増加に対応するAIGC歪みの次元を含むように評価の側面を広げた。 最後に、2,378組の質問応答ペアを収集し、12のオープンソースと5のプロプライエタリなLMMでテストする。 以上の結果から,LMMは映像品質の基本的な理解を保ちつつも,その性能は不完全かつ不正確であり,人的性能に比較して顕著な相違があることが示唆された。 Q-Bench-Videoを通じて、私たちはコミュニティの関心を喚起し、さらなる研究を刺激し、ビデオ品質理解のギャップを埋めるために、未解決のLMMの可能性を解き放つことを模索している。

With the rising interest in research on Large Multi-modal Models (LMMs) for video understanding, many studies have emphasized general video comprehension capabilities, neglecting the systematic exploration into video quality understanding. To address this oversight, we introduce Q-Bench-Video in this paper, a new benchmark specifically designed to evaluate LMMs' proficiency in discerning video quality. a) To ensure video source diversity, Q-Bench-Video encompasses videos from natural scenes, AI-generated Content (AIGC), and Computer Graphics (CG). b) Building on the traditional multiple-choice questions format with the Yes-or-No and What-How categories, we include Open-ended questions to better evaluate complex scenarios. Additionally, we incorporate the video pair quality comparison question to enhance comprehensiveness. c) Beyond the traditional Technical, Aesthetic, and Temporal distortions, we have expanded our evaluation aspects to include the dimension of AIGC distortions, which addresses the increasing demand for video generation. Finally, we collect a total of 2,378 question-answer pairs and test them on 12 open-source & 5 proprietary LMMs. Our findings indicate that while LMMs have a foundational understanding of video quality, their performance remains incomplete and imprecise, with a notable discrepancy compared to human performance. Through Q-Bench-Video, we seek to catalyze community interest, stimulate further research, and unlock the untapped potential of LMMs to close the gap in video quality understanding.
翻訳日:2024-10-02 19:42:09 公開日:2024-09-30
# 教師なし認知を用いた知識発見

Knowledge Discovery using Unsupervised Cognition ( http://arxiv.org/abs/2409.20064v1 )

ライセンス: Link先を確認
Alfredo Ibias, Hector Antona, Guillem Ramirez-Miranda, Enric Guinovart, (参考訳) 知識発見は、データセットを理解し、解釈し、コンポーネント間の基盤となる関係を見つけるための鍵である。 Unsupervised Cognitionは、学習したデータのモデリングに焦点を当てた、新しい教師なし学習アルゴリズムである。 本稿では,すでに訓練済みの教師なし認知モデルを用いて知識発見を行う3つの手法を提案する。 具体的には,パターンマイニング手法,従来のパターンマイニング手法に基づく特徴選択手法,および,前回の特徴選択手法に基づく次元削減手法を提案する。 最後の目標は、関連する機能と無関係な機能を区別して、意味のあるパターンを抽出するモデルを構築することです。 提案手法を実証実験により評価した結果,知識発見の最先端を克服できることが判明した。

Knowledge discovery is key to understand and interpret a dataset, as well as to find the underlying relationships between its components. Unsupervised Cognition is a novel unsupervised learning algorithm that focus on modelling the learned data. This paper presents three techniques to perform knowledge discovery over an already trained Unsupervised Cognition model. Specifically, we present a technique for pattern mining, a technique for feature selection based on the previous pattern mining technique, and a technique for dimensionality reduction based on the previous feature selection technique. The final goal is to distinguish between relevant and irrelevant features and use them to build a model from which to extract meaningful patterns. We evaluated our proposals with empirical experiments and found that they overcome the state-of-the-art in knowledge discovery.
翻訳日:2024-10-02 19:42:09 公開日:2024-09-30
# 符号付きネットワークの分類のための全グラフ表現学習

Whole-Graph Representation Learning For the Classification of Signed Networks ( http://arxiv.org/abs/2409.20073v1 )

ライセンス: Link先を確認
Noé Cecillon, Vincent Labatut, Richard Dufour, Nejat Arınık, (参考訳) グラフは構造化されたデータと関係を含む複雑なシステムをモデル化するためにユビキタスである。 その結果,グラフの低次元表現を自動的に学習することを目的としたグラフ表現学習が近年注目されている。 既存のメソッドの圧倒的多数は符号なしグラフを扱う。 しかし、符号付きグラフは、対立関係の2つのタイプを含むモデルシステムに対するアプリケーションドメインの数の増加に現れている。 何人かの著者は、頂点レベルの表現を提供するための符号付きグラフや提案された方法に興味を持っていたが、グラフ全体の表現には1つしか存在せず、完全に連結されたグラフのみを扱うことができる。 本稿では、一般符号グラフの全体グラフ表現を学習するための2つのアプローチを提案する。 1つ目は SG2V であり、これはワイスフェイラー-リーマン・リラベリング法の変更に依存するグラフグラフ埋め込み法の符号付き一般化である。 2つ目はWSGCNであり、これは署名された頂点埋め込みメソッドSGCNの全体グラフの一般化であり、GCNへのマスターノードの導入に依存している。 これら2つのアプローチのいくつかの変種を提案する。 グラフ指向の手法の開発におけるボトルネックは、データの欠如である。 我々は、対応する基底真理を持つ3つの符号付きグラフの集合からなるベンチマークを構成する。 提案手法をこのベンチマークで評価した結果, 符号付き全グラフ法がより優れた表現法を学習できることが示唆された。 ベースラインは、SG2VとWSGCNがそれぞれ73.01と81.20に達すると、F測定スコアが58.57となる。 ソースコードとベンチマークデータセットはどちらもオンラインで公開されています。

Graphs are ubiquitous for modeling complex systems involving structured data and relationships. Consequently, graph representation learning, which aims to automatically learn low-dimensional representations of graphs, has drawn a lot of attention in recent years. The overwhelming majority of existing methods handle unsigned graphs. However, signed graphs appear in an increasing number of application domains to model systems involving two types of opposed relationships. Several authors took an interest in signed graphs and proposed methods for providing vertex-level representations, but only one exists for whole-graph representations, and it can handle only fully connected graphs. In this article, we tackle this issue by proposing two approaches to learning whole-graph representations of general signed graphs. The first is a SG2V, a signed generalization of the whole-graph embedding method Graph2vec that relies on a modification of the Weisfeiler--Lehman relabelling procedure. The second one is WSGCN, a whole-graph generalization of the signed vertex embedding method SGCN that relies on the introduction of master nodes into the GCN. We propose several variants of both these approaches. A bottleneck in the development of whole-graph-oriented methods is the lack of data. We constitute a benchmark composed of three collections of signed graphs with corresponding ground truths. We assess our methods on this benchmark, and our results show that the signed whole-graph methods learn better representations for this task. Overall, the baseline obtains an F-measure score of 58.57, when SG2V and WSGCN reach 73.01 and 81.20, respectively. Our source code and benchmark dataset are both publicly available online.
翻訳日:2024-10-02 19:42:09 公開日:2024-09-30
# ProFD: 身近な人物再同定のためのプロンプトガイド型機能ディアンタングリング

ProFD: Prompt-Guided Feature Disentangling for Occluded Person Re-Identification ( http://arxiv.org/abs/2409.20081v1 )

ライセンス: Link先を確認
Can Cui, Siteng Huang, Wenxuan Song, Pengxiang Ding, Min Zhang, Donglin Wang, (参考訳) 人物再同定(ReID)タスクにおける閉塞問題に対処するため,外部空間情報を導入して部分的特徴を抽出する手法が多数提案されている。 しかし、外的モデルからの隠蔽やノイズのある空間情報による外観情報の欠如により、これらの純粋視覚に基づくアプローチは、限られた訓練データから人体の特徴を正しく学習することができず、最終的には不整合部分の特徴に繋がる。 これらの課題に対処するために,テキストモダリティ促進モデルにおける豊富な事前学習知識を活用し,適切に整合した部分特徴を生成するPrompt-Guided Feature Disentangling法(ProFD)を提案する。 ProFDはまず、部分特異的なプロンプトを設計し、ノイズセグメンテーションマスクを使用して、視覚とテキストの埋め込みを予め調整し、テキストのプロンプトが空間的認識を持つようにした。 さらに、外部マスクからのノイズを軽減するために、ProFDはハイブリッドアテンションデコーダを採用し、デコードプロセス中に空間的およびセマンティックな一貫性を確保し、ノイズの影響を最小限に抑える。 さらに,破滅的な忘れ物を避けるため,私たちはCLIPの事前学習知識を保ち,過度な適合を緩和する自己蒸留戦略を採用している。 Market1501、DukeMTMC-ReID、Occluded-Duke、Occluded-ReID、およびP-DukeMTMCデータセットの評価結果は、ProFDが最先端の結果を達成することを示す。 私たちのプロジェクトは、https://github.com/Cuixxx/ProFD.comで利用可能です。

To address the occlusion issues in person Re-Identification (ReID) tasks, many methods have been proposed to extract part features by introducing external spatial information. However, due to missing part appearance information caused by occlusion and noisy spatial information from external model, these purely vision-based approaches fail to correctly learn the features of human body parts from limited training data and struggle in accurately locating body parts, ultimately leading to misaligned part features. To tackle these challenges, we propose a Prompt-guided Feature Disentangling method (ProFD), which leverages the rich pre-trained knowledge in the textual modality facilitate model to generate well-aligned part features. ProFD first designs part-specific prompts and utilizes noisy segmentation mask to preliminarily align visual and textual embedding, enabling the textual prompts to have spatial awareness. Furthermore, to alleviate the noise from external masks, ProFD adopts a hybrid-attention decoder, ensuring spatial and semantic consistency during the decoding process to minimize noise impact. Additionally, to avoid catastrophic forgetting, we employ a self-distillation strategy, retaining pre-trained knowledge of CLIP to mitigate over-fitting. Evaluation results on the Market1501, DukeMTMC-ReID, Occluded-Duke, Occluded-ReID, and P-DukeMTMC datasets demonstrate that ProFD achieves state-of-the-art results. Our project is available at: https://github.com/Cuixxx/ProFD.
翻訳日:2024-10-02 19:42:09 公開日:2024-09-30
# 頑強なマルチエージェント強化学習におけるマルチエージェントのカースを破ることができるか?

Can We Break the Curse of Multiagency in Robust Multi-Agent Reinforcement Learning? ( http://arxiv.org/abs/2409.20067v1 )

ライセンス: Link先を確認
Laixi Shi, Jingchu Gai, Eric Mazumdar, Yuejie Chi, Adam Wierman, (参考訳) 標準マルチエージェント強化学習(MARL)アルゴリズムは、sim-to-realギャップに対して脆弱である。 これを解決するために,所定の不確実性セット内でゲームダイナミクスがシフトした場合の最悪の性能を最適化することにより,MARLのロバスト性を高めるために,分散ロバストなマルコフゲーム (RMG) が提案されている。 RMGの解法は、問題の定式化からサンプル効率のアルゴリズムの開発まで、未探索のままである。 RMGが多能性の呪いから逃れられるかどうか、その場合、サンプルの複雑さはエージェントの数とともに指数関数的に拡大する。 本研究では,各エージェントの不確実性集合が環境と他のエージェントの戦略の両方によって最も応答性の高い方法で形成される自然なRMGのクラスを提案する。 まず、ロバストなナッシュ平衡や粗い平衡 (CCE) のようなゲーム理論解の存在を証明し、これらのRMGの正当性を確立する。 生成モデルにアクセスできると仮定すると、サンプルの複雑さがすべての関連するパラメータと多項式的にスケールするCCEを学習するためのサンプル効率のよいアルゴリズムを導入する。 我々の知る限りでは、このアルゴリズムはRMGにとってのマルチ緊急の呪いを破る最初のものである。

Standard multi-agent reinforcement learning (MARL) algorithms are vulnerable to sim-to-real gaps. To address this, distributionally robust Markov games (RMGs) have been proposed to enhance robustness in MARL by optimizing the worst-case performance when game dynamics shift within a prescribed uncertainty set. Solving RMGs remains under-explored, from problem formulation to the development of sample-efficient algorithms. A notorious yet open challenge is if RMGs can escape the curse of multiagency, where the sample complexity scales exponentially with the number of agents. In this work, we propose a natural class of RMGs where the uncertainty set of each agent is shaped by both the environment and other agents' strategies in a best-response manner. We first establish the well-posedness of these RMGs by proving the existence of game-theoretic solutions such as robust Nash equilibria and coarse correlated equilibria (CCE). Assuming access to a generative model, we then introduce a sample-efficient algorithm for learning the CCE whose sample complexity scales polynomially with all relevant parameters. To the best of our knowledge, this is the first algorithm to break the curse of multiagency for RMGs.
翻訳日:2024-10-02 18:56:57 公開日:2024-09-30
# BSharedRAG:Eコマースドメイン用のバックボーン共有検索機能付きジェネレーション

BSharedRAG: Backbone Shared Retrieval-Augmented Generation for the E-commerce Domain ( http://arxiv.org/abs/2409.20075v1 )

ライセンス: Link先を確認
Kaisi Guan, Qian Cao, Yuchong Sun, Xiting Wang, Ruihua Song, (参考訳) Retrieval Augmented Generation (RAG) システムは、多くのロングテールエンティティと頻繁に更新される情報を持つeコマースのようなドメインにおいて重要である。 既存のほとんどの作業では、検索タスクと生成タスクが相互に利益を得ることができないため、検索と生成には別個のモジュールが採用されている。 本稿では,Backbone Shared RAGフレームワーク(BSharedRAG)を提案する。 まずドメイン固有のコーパスを使用して、ベースモデルをドメイン固有のバックボーンモデルとして継続的に事前トレーニングし、その後、共有バックボーンに基づいて2つのプラグアンドプレイローランド適応(LoRA)モジュールをトレーニングし、それぞれ検索と生成損失を最小限に抑える。 実験の結果,BSharedRAGはHit@3のベースラインモデルを2つのデータセットで5%,13%,BLEU-3では23%上回った。 私たちのコード、モデル、データセットはhttps://bsharedrag.github.io.comで公開されています。

Retrieval Augmented Generation (RAG) system is important in domains such as e-commerce, which has many long-tail entities and frequently updated information. Most existing works adopt separate modules for retrieval and generation, which may be suboptimal since the retrieval task and the generation task cannot benefit from each other to improve performance. We propose a novel Backbone Shared RAG framework (BSharedRAG). It first uses a domain-specific corpus to continually pre-train a base model as a domain-specific backbone model and then trains two plug-and-play Low-Rank Adaptation (LoRA) modules based on the shared backbone to minimize retrieval and generation losses respectively. Experimental results indicate that our proposed BSharedRAG outperforms baseline models by 5% and 13% in Hit@3 upon two datasets in retrieval evaluation and by 23% in terms of BLEU-3 in generation evaluation. Our codes, models, and dataset are available at https://bsharedrag.github.io.
翻訳日:2024-10-02 18:56:57 公開日:2024-09-30
# 局所的文脈性に基づく自己テストは、量子敵に対するランダム性拡張に十分である

Local contextuality-based self-tests are sufficient for randomness expansion secure against quantum adversaries ( http://arxiv.org/abs/2409.20082v1 )

ライセンス: Link先を確認
Jaskaran Singh, Cameron Foreman, Kishor Bharti, Adán Cabello, (参考訳) 量子暗号において、セキュアなランダム性拡張は、短いプライベートなビット列を使用してより長いビットを生成する。 本研究では、局所的文脈性に基づく自己テストが、計算不能な量子敵に対して安全であるランダム性拡張プロトコルを構築するのに十分であることを示す。 我々のプロトコルは、非文脈の不等式からの自己テストに基づいており、我々のスキームは、均一に分散されたプライベートな$$\mathcal{O}(m\sqrt{\epsilon})$-closeであるセキュアな乱数を漸近的に生成し、$\epsilon$は自己テストの堅牢性パラメータであり、$m$は生成されたランダムビット文字列の長さであることを示す。 我々のプロトコルは、基礎となる自己テストに必要な仮定を継承するという意味では、セミデバイスに依存しない。

In quantum cryptography, secure randomness expansion involves using a short private string of random bits to generate a longer one, even in the presence of an adversary who may have access to quantum resources. In this work, we demonstrate that local contextuality-based self-tests are sufficient to construct a randomness expansion protocol that is secure against computationally unbounded quantum adversaries. Our protocol is based on self-testing from non-contextuality inequalities and we prove that our scheme asymptotically produces secure random numbers which are $\mathcal{O}(m\sqrt{\epsilon})$-close to uniformly distributed and private, where $\epsilon$ is the robustness parameter of the self-test and $m$ is the length of the generated random bit string. Our protocol is semi-device-independent in the sense that it inherits any assumptions necessary for the underlying self-test.
翻訳日:2024-10-02 18:56:57 公開日:2024-09-30
# SurgPETL: 画像-画像-画像-画像変換学習による外科的位相認識

SurgPETL: Parameter-Efficient Image-to-Surgical-Video Transfer Learning for Surgical Phase Recognition ( http://arxiv.org/abs/2409.20083v1 )

ライセンス: Link先を確認
Shu Yang, Zhiyuan Cai, Luyang Luo, Ning Ma, Shuchang Xu, Hao Chen, (参考訳) さまざまなダウンストリームタスクのためのイメージレベルの事前トレーニングモデルの資本化は、最近、有望なパフォーマンスで現れている。 しかし、高次元ビデオデータに対する「画像事前学習とビデオ微調整」というパラダイムは、必然的に大きなパフォーマンスボトルネックを生じさせる。 さらに、医療分野では、ビデオデータの入手が限られていることや、包括的な時空間モデリングの必要性により、多くの外科的ビデオタスクが追加の課題に直面している。 近年,画像レベルの事前学習モデルと有望な特徴伝達性を持ち,最小限の微調整を伴い,モダリティ間の時間的モデリングを伴い,映像行動認識タスクの効率的かつ効果的なパラダイムとしてパラメータ効率の良い画像変換学習が登場している。 それでも、複雑な外科領域におけるこのパラダイムの有効性と一般化性は未解明のままである。 本稿では,画像レベルの事前学習モデルを効率的に適用し,詳細な外科的位相認識を専門とする新たな課題を探索する。 まず,外科的位相認識のためのパラメータ効率変換学習ベンチマークであるSurgPETLを開発した。 次に、空間適応モジュールを導入し、標準空間アダプタと新しい時空間アダプタを統合することにより、詳細な空間的特徴を捉え、時空間列間の接続を確立し、堅牢な時空間時間モデリングを行う。 SurgPETL と STA の併用が有効であることを示す。

Capitalizing on image-level pre-trained models for various downstream tasks has recently emerged with promising performance. However, the paradigm of "image pre-training followed by video fine-tuning" for high-dimensional video data inevitably poses significant performance bottlenecks. Furthermore, in the medical domain, many surgical video tasks encounter additional challenges posed by the limited availability of video data and the necessity for comprehensive spatial-temporal modeling. Recently, Parameter-Efficient Image-to-Video Transfer Learning has emerged as an efficient and effective paradigm for video action recognition tasks, which employs image-level pre-trained models with promising feature transferability and involves cross-modality temporal modeling with minimal fine-tuning. Nevertheless, the effectiveness and generalizability of this paradigm within intricate surgical domain remain unexplored. In this paper, we delve into a novel problem of efficiently adapting image-level pre-trained models to specialize in fine-grained surgical phase recognition, termed as Parameter-Efficient Image-to-Surgical-Video Transfer Learning. Firstly, we develop a parameter-efficient transfer learning benchmark SurgPETL for surgical phase recognition, and conduct extensive experiments with three advanced methods based on ViTs of two distinct scales pre-trained on five large-scale natural and medical datasets. Then, we introduce the Spatial-Temporal Adaptation module, integrating a standard spatial adapter with a novel temporal adapter to capture detailed spatial features and establish connections across temporal sequences for robust spatial-temporal modeling. Extensive experiments on three challenging datasets spanning various surgical procedures demonstrate the effectiveness of SurgPETL with STA.
翻訳日:2024-10-02 18:56:57 公開日:2024-09-30
# 対流-通気シミュレーションの鉛直プロファイルから雷雨の発生を推定する:物理深層学習モデルによる物理的考察

Inferring Thunderstorm Occurrence from Vertical Profiles of Convection-Permitting Simulations: Physical Insights from a Physical Deep Learning Model ( http://arxiv.org/abs/2409.20087v1 )

ライセンス: Link先を確認
Kianusch Vahid Yousefnia, Tobias Bölle, Christoph Metzl, (参考訳) 雷雨は降水量、干ばつ、雷、強風などによって社会や経済に大きな影響を与え、信頼できる予測を必要としている。 数値気象予測(NWP)に基づく雷雨予測は、しばしば3次元変数の垂直プロファイルから導かれる対流可能なポテンシャルエネルギーや降水率のような単一レベルの代理予測に頼っている。 本研究では,10の大気変数の垂直分布から雷雨の発生確率を直接推定し,単層予測器をバイパスする深層ニューラルネットワークSALAMA 1Dを開発した。 対流を許容するNWP予測のモデルをトレーニングすることにより,SALAMA 1Dが対流パターンを柔軟に識別し,予測精度を向上させることを目的とする。 疎結合は、同じ高さの相互作用を促進する一方、シャッフル機構は、モデルが垂直格子に結びついている非物理的パターンを学習するのを防ぐ。 SALAMA 1Dは、中央ヨーロッパで雷観測を基礎として訓練されている。 単一レベルの予測器を使用するベースライン機械学習モデルとの比較分析は、SALAMA 1Dのさまざまなメトリクスと、最大11時間までのリードタイムに優れたスキルを示している。 さらに、トレーニングセットのコンパイルに使用する予測数を増やすことで、トレーニングセットのサイズを一定に保つ場合でも、スキルが向上する。 正の浮力, 対流抑制, 氷粒子形成など, 確立された理論的理解と整合した環境崩壊率と再粘性パターンを, 中層重力と雲カバーの欠如に基づいて雷雨の発生を抑えながら, 塩分マップを用いた感度解析により再構成した。

Thunderstorms have significant social and economic impacts due to heavy precipitation, hail, lightning, and strong winds, necessitating reliable forecasts. Thunderstorm forecasts based on numerical weather prediction (NWP) often rely on single-level surrogate predictors, like convective available potential energy and precipitation rate, derived from vertical profiles of three-dimensional atmospheric variables. In this study, we develop SALAMA 1D, a deep neural network that directly infers the probability of thunderstorm occurrence from vertical profiles of ten atmospheric variables, bypassing single-level predictors. By training the model on convection-permitting NWP forecasts, we allow SALAMA 1D to flexibly identify convective patterns, with the goal of enhancing forecast accuracy. The model's architecture is physically motivated: sparse connections encourage interactions at similar height levels, while a shuffling mechanism prevents the model from learning non-physical patterns tied to the vertical grid. SALAMA 1D is trained over Central Europe with lightning observations as the ground truth. Comparative analysis against a baseline machine learning model that uses single-level predictors shows SALAMA 1D's superior skill across various metrics and lead times of up to at least 11 hours. Moreover, increasing the number of forecasts used to compile the training set improves skill, even when training set size is kept constant. Sensitivity analysis using saliency maps indicates that the model reconstructs environmental lapse rates and rediscovers patterns consistent with established theoretical understandings, such as positive buoyancy, convective inhibition, and ice particle formation near the tropopause, while ruling out thunderstorm occurrence based on the absence of mid-level graupel and cloud cover.
翻訳日:2024-10-02 18:56:57 公開日:2024-09-30
# 拒絶機能付き対向訓練によるロバストLDM保護

Robust LLM safeguarding via refusal feature adversarial training ( http://arxiv.org/abs/2409.20089v1 )

ライセンス: Link先を確認
Lei Yu, Virginie Do, Karen Hambardzumyan, Nicola Cancedda, (参考訳) 大規模言語モデル(LLM)は、有害な応答を誘発する敵攻撃に対して脆弱である。 このような攻撃に対する防御は、脱獄機構の不透明さと、LSMを堅牢に訓練するための高い計算コストのため、依然として困難である。 敵攻撃は,リファレル特徴と呼ばれる残留ストリーム埋め込み空間の次元を損なうことで,LDMの安全対策を回避する普遍的なメカニズムを共有できることを示す。 さらに, オフセットモデル安全性の最悪の乱れに対して, RFA (Refusal Feature ablation) の動作が近似可能であることを示す。 これらの知見に基づいて,RFAによる入力レベル攻撃の効果をシミュレーションし,LLM逆行訓練を効率的に行う新しいアルゴリズムであるRefusal Feature Adversarial Training (ReFAT)を提案する。 実験結果から,ReFATは3つのLLMの幅広い敵攻撃に対する堅牢性を大幅に向上することが示された。

Large language models (LLMs) are vulnerable to adversarial attacks that can elicit harmful responses. Defending against such attacks remains challenging due to the opacity of jailbreaking mechanisms and the high computational cost of training LLMs robustly. We demonstrate that adversarial attacks share a universal mechanism for circumventing LLM safeguards that works by ablating a dimension in the residual stream embedding space called the refusal feature. We further show that the operation of refusal feature ablation (RFA) approximates the worst-case perturbation of offsetting model safety. Based on these findings, we propose Refusal Feature Adversarial Training (ReFAT), a novel algorithm that efficiently performs LLM adversarial training by simulating the effect of input-level attacks via RFA. Experiment results show that ReFAT significantly improves the robustness of three popular LLMs against a wide range of adversarial attacks, with considerably less computational overhead compared to existing adversarial training methods.
翻訳日:2024-10-02 18:56:57 公開日:2024-09-30
# 不規則時系列予測のための連続時間線形位置埋め込み

Continuous-Time Linear Positional Embedding for Irregular Time Series Forecasting ( http://arxiv.org/abs/2409.20092v1 )

ライセンス: Link先を確認
Byunghyun Kim, Jae-Gil Lee, (参考訳) 不規則にサンプリングされた時系列予測は、非一様間隔で特徴付けられるが、実際的な応用では一般的である。 しかし、以前の研究では、典型的にはトランスフォーマーアーキテクチャに依存する通常の時系列予測に焦点が当てられていた。 不規則な時系列を扱うためにトランスを拡張するために、データの時間的情報を表す位置埋め込みに取り組む。 時間情報を符号化する連続線形関数を学習するCTLPEを提案する。 非一貫性な観測パターンと不規則な時間ギャップの2つの課題は、連続時間関数の学習と位置の簡潔な表現によって解決される。 さらに、線形連続函数は、神経制御された微分方程式に基づく位置埋め込みを学習することにより、他の連続函数よりも経験的に優れ、理想的な位置埋め込みの特性で理論的に支持される。 CTLPEは、様々な不規則にサンプリングされた時系列データセットで既存の技術より優れており、その強化された有効性を示している。

Irregularly sampled time series forecasting, characterized by non-uniform intervals, is prevalent in practical applications. However, previous research have been focused on regular time series forecasting, typically relying on transformer architectures. To extend transformers to handle irregular time series, we tackle the positional embedding which represents the temporal information of the data. We propose CTLPE, a method learning a continuous linear function for encoding temporal information. The two challenges of irregular time series, inconsistent observation patterns and irregular time gaps, are solved by learning a continuous-time function and concise representation of position. Additionally, the linear continuous function is empirically shown superior to other continuous functions by learning a neural controlled differential equation-based positional embedding, and theoretically supported with properties of ideal positional embedding. CTLPE outperforms existing techniques across various irregularly-sampled time series datasets, showcasing its enhanced efficacy.
翻訳日:2024-10-02 18:56:57 公開日:2024-09-30
# 極大言語モデルにおける攻撃的後訓練圧縮

Aggressive Post-Training Compression on Extremely Large Language Models ( http://arxiv.org/abs/2409.20094v1 )

ライセンス: Link先を確認
Zining Zhang, Yao Chen, Bingsheng He, Zhenjie Zhang, (参考訳) LLM(Large Language Models)のサイズと複雑さの増大は、パーソナルコンピュータやモバイルデバイスへの展開に困難をもたらす。 モデルのサイズを減らすためには、攻撃的なポストトレーニングモデル圧縮が必要であるが、しばしばかなりの精度の損失をもたらす。 この課題に対処するために,0.7領域以上で8ビット未満の量子化を実現する新しいネットワーク切断技術を提案する。 提案手法により,LLMの圧縮を2時間以内に行うことができ,精度の低下は比較的少ない。 実験により,本手法の有効性と実用的展開の可能性を示す。 LLMを国内機器で利用可能にすることで、我々の研究は幅広い影響を与える自然言語処理アプリケーションの新しい時代を後押しすることができる。

The increasing size and complexity of Large Language Models (LLMs) pose challenges for their deployment on personal computers and mobile devices. Aggressive post-training model compression is necessary to reduce the models' size, but it often results in significant accuracy loss. To address this challenge, we propose a novel network pruning technology that utilizes over 0.7 sparsity and less than 8 bits of quantization. Our approach enables the compression of prevailing LLMs within a couple of hours while maintaining a relatively small accuracy loss. In experimental evaluations, our method demonstrates effectiveness and potential for practical deployment. By making LLMs available on domestic devices, our work can facilitate a new era of natural language processing applications with wide-ranging impacts.
翻訳日:2024-10-02 18:56:57 公開日:2024-09-30
# 表情の一般化を学習する

Learning to Discover Generalized Facial Expressions ( http://arxiv.org/abs/2409.20098v1 )

ライセンス: Link先を確認
Tingzhang Luo, Yichao Liu, Yuanyuan Liu, Andi Zhang, Xin Wang, Chang Tang, Zhe Chen, (参考訳) オープンワールド表情認識(O-FER)分野における新しい課題である表情カテゴリー発見(FECD)を紹介した。 Generalized Category Discovery (GCD)は、自然な画像データセットで研究されているが、表情に適用することはユニークな課題である。 具体的には、これらの課題をよりよく理解するための2つの重要なバイアスを識別する: ラベルなしトレーニングデータにおける新しいカテゴリの導入から理論的バイアスアライジング、および顔表情データの不均衡ときめ細かい性質から実践バイアスアライジング。 これらの課題に対処するために、暗黙的および明示的な偏りを両立させる敵のアプローチであるFER-GCDを提案する。 暗黙の偏りの過程において、理論バイアスの上界を推定するために用いられる新しい計量であるF-discrepancyを考案し、モデルがこの上界を敵の訓練によって最小化するのに役立つ。 明示的なデバイアス処理は、さらに機能ジェネレータと分類器を最適化し、実用的なバイアスを減らす。 GCDをベースとしたFERデータセットの大規模な実験により、私たちのFER-GCDフレームワークは、古いカテゴリと新しいカテゴリの両方の精度を大幅に向上し、ベースラインよりも平均9.8%向上し、最先端の手法よりも優れています。

We introduce Facial Expression Category Discovery (FECD), a novel task in the domain of open-world facial expression recognition (O-FER). While Generalized Category Discovery (GCD) has been explored in natural image datasets, applying it to facial expressions presents unique challenges. Specifically, we identify two key biases to better understand these challenges: Theoretical Bias-arising from the introduction of new categories in unlabeled training data, and Practical Bias-stemming from the imbalanced and fine-grained nature of facial expression data. To address these challenges, we propose FER-GCD, an adversarial approach that integrates both implicit and explicit debiasing components. In the implicit debiasing process, we devise F-discrepancy, a novel metric used to estimate the upper bound of Theoretical Bias, helping the model minimize this upper bound through adversarial training. The explicit debiasing process further optimizes the feature generator and classifier to reduce Practical Bias. Extensive experiments on GCD-based FER datasets demonstrate that our FER-GCD framework significantly improves accuracy on both old and new categories, achieving an average improvement of 9.8% over the baseline and outperforming state-of-the-art methods.
翻訳日:2024-10-02 18:56:57 公開日:2024-09-30
# CBAM-SwinT-BL:ブロックレベルCBAM強化スウィントランスを用いた小型鉄道表面検出法

CBAM-SwinT-BL: Small Rail Surface Detect Detection Method Based on Swin Transformer with Block Level CBAM Enhancement ( http://arxiv.org/abs/2409.20113v1 )

ライセンス: Link先を確認
Jiayi Zhao, Alison Wun-lam Yeung, Ali Muhammad, Songjiang Lai, Vincent To-Yee NG, (参考訳) 高強度鉄道の下では、鉄道線路はかなりのストレスに耐え、腐食やスペルなどの様々な欠陥が生じた。 欠陥を効果的に検出し、時間内にメンテナンスを提供することで、サービスの信頼性と公共の安全を損なう。 近年、先進的なモデルが開発されているが、特にダートやスクワットなどの鉄道表面の小型鉄道欠陥を効率的に同定する研究はまだ行われていない。 この課題に対処するために,本研究では,Swin Transformer(SwinT)をベースラインとして,CBAM(Convolutional Block Attention Module)を組み込んで拡張する。 提案手法は,スイニングトランスブロックにCBAMを連続的に組み込むことで,鉄道欠陥検出,特に小型インスタンスサイズでの性能向上を実現している。 提案フレームワークはCBAM-Enhanced Swin Transformer in Block Level (CBAM-SwinT-BL)と名付けられた。 実験およびアブレーション研究は、このフレームワークの有効性を証明した。 提案したフレームワークは,RIIIデータセットの汚れやデントなどの小型欠陥の精度を著しく向上し,mAP-50はそれぞれ+23.0%,+38.3%増加し,MUETデータセットのスクワットカテゴリも+13.2%上昇した。 オリジナルのSwinTと比較すると、CBAM-SwinT-BLはMUETデータセットでは+5%、RIIIデータセットでは+7%の精度で、それぞれ69.1%と88.1%に達した。 一方、追加モジュールCBAMはモデルトレーニング速度を平均+0.04秒/イテレーションで拡張するだけで、システム性能の大幅な改善に比べて許容できる。

Under high-intensity rail operations, rail tracks endure considerable stresses resulting in various defects such as corrugation and spellings. Failure to effectively detect defects and provide maintenance in time would compromise service reliability and public safety. While advanced models have been developed in recent years, efficiently identifying small-scale rail defects has not yet been studied, especially for categories such as Dirt or Squat on rail surface. To address this challenge, this study utilizes Swin Transformer (SwinT) as baseline and incorporates the Convolutional Block Attention Module (CBAM) for enhancement. Our proposed method integrates CBAM successively within the swin transformer blocks, resulting in significant performance improvement in rail defect detection, particularly for categories with small instance sizes. The proposed framework is named CBAM-Enhanced Swin Transformer in Block Level (CBAM-SwinT-BL). Experiment and ablation study have proven the effectiveness of the framework. The proposed framework has a notable improvement in the accuracy of small size defects, such as dirt and dent categories in RIII dataset, with mAP-50 increasing by +23.0% and +38.3% respectively, and the squat category in MUET dataset also reaches +13.2% higher than the original model. Compares to the original SwinT, CBAM-SwinT-BL increase overall precision around +5% in the MUET dataset and +7% in the RIII dataset, reaching 69.1% and 88.1% respectively. Meanwhile, the additional module CBAM merely extend the model training speed by an average of +0.04s/iteration, which is acceptable compared to the significant improvement in system performance.
翻訳日:2024-10-02 18:56:57 公開日:2024-09-30
# REST-HANDS: ストローク後の手の治療にスマートグラスを用いた自我中心視によるリハビリテーション

REST-HANDS: Rehabilitation with Egocentric Vision Using Smartglasses for Treatment of Hands after Surviving Stroke ( http://arxiv.org/abs/2409.20116v1 )

ライセンス: Link先を確認
Wiktor Mucha, Kentaro Tanaka, Martin Kampel, (参考訳) ストロークは世界第3の死因であり、世界的な健康問題として認識されている。 脳卒中生存者にとって大きな課題は、日常活動や生活の全体的な品質に深刻な影響を及ぼす持続的手障害である。 機能回復のためには, 脳卒中生存者に対するリハビリテーション療法が必要である。 しかし、伝統的なリハビリテーションには継続的な医療支援が必要であり、貯蓄された医療システムに依存している。 本稿では,市販スマートグラス,特にRayBan Storiesの遠隔リハビリテーションにおけるエゴセントリック録音の活用について検討する。 本手法は,自動運動認識,運動形態評価,反復計数のためのスマートグラスの可能性を評価するためのオフライン実験を含む。 私たちは、エゴセントリックなハンドエクササイズビデオの最初のデータセットであるREST-HANDSを紹介します。 我々は、最先端の手法を用いて、運動認識(98.55%)、フォーム評価(86.98%)、繰り返しカウント(平均誤差1.33)の精度の高いベンチマークを確立する。 本研究は,スマートグラスの自我中心型ビデオによる遠隔リハビリテーションの実現可能性を示し,さらなる研究の道を開いた。

Stroke represents the third cause of death and disability worldwide, and is recognised as a significant global health problem. A major challenge for stroke survivors is persistent hand dysfunction, which severely affects the ability to perform daily activities and the overall quality of life. In order to regain their functional hand ability, stroke survivors need rehabilitation therapy. However, traditional rehabilitation requires continuous medical support, creating dependency on an overburdened healthcare system. In this paper, we explore the use of egocentric recordings from commercially available smart glasses, specifically RayBan Stories, for remote hand rehabilitation. Our approach includes offline experiments to evaluate the potential of smart glasses for automatic exercise recognition, exercise form evaluation and repetition counting. We present REST-HANDS, the first dataset of egocentric hand exercise videos. Using state-of-the-art methods, we establish benchmarks with high accuracy rates for exercise recognition (98.55%), form evaluation (86.98%), and repetition counting (mean absolute error of 1.33). Our study demonstrates the feasibility of using egocentric video from smart glasses for remote rehabilitation, paving the way for further research.
翻訳日:2024-10-02 18:56:57 公開日:2024-09-30
# 気象予報のためのマスク付き自己回帰モデル

Masked Autoregressive Model for Weather Forecasting ( http://arxiv.org/abs/2409.20117v1 )

ライセンス: Link先を確認
Doyi Kim, Minseok Seo, Hakjin Lee, Junghoon Seo, (参考訳) 地球温暖化の影響の増大は、正確で信頼性の高い天気予報の必要性を増幅する。 従来の自己回帰的アプローチは、時間的モデリングには有効であるが、長期的な予測タスクではエラーの蓄積に悩まされる。 鉛時間埋め込み法はこの問題に対処するために提案されているが、大気イベントにおいて重要な相関を維持するのに苦労している。 これらの課題を克服するために,気象予報のためのMasked Autoregressive Model (MAM4WF)を提案する。 このモデルは、トレーニング中に入力データの一部をマスクするマスク付きモデリングを活用し、不足した情報を再構成することで、頑健な時空間関係を学習することができる。 MAM4WFは自動回帰とリードタイム埋め込みの両方の利点を組み合わせ、予測を反復的に統合しながらリードタイムモデリングの柔軟性を提供する。 気象・気象予報・映像フレーム予測データを用いてMAM4WFを評価し,5つのテストデータセットにおいて優れた性能を示した。

The growing impact of global climate change amplifies the need for accurate and reliable weather forecasting. Traditional autoregressive approaches, while effective for temporal modeling, suffer from error accumulation in long-term prediction tasks. The lead time embedding method has been suggested to address this issue, but it struggles to maintain crucial correlations in atmospheric events. To overcome these challenges, we propose the Masked Autoregressive Model for Weather Forecasting (MAM4WF). This model leverages masked modeling, where portions of the input data are masked during training, allowing the model to learn robust spatiotemporal relationships by reconstructing the missing information. MAM4WF combines the advantages of both autoregressive and lead time embedding methods, offering flexibility in lead time modeling while iteratively integrating predictions. We evaluate MAM4WF across weather, climate forecasting, and video frame prediction datasets, demonstrating superior performance on five test datasets.
翻訳日:2024-10-02 18:56:57 公開日:2024-09-30
# DBNode: コンソーシアムブロックチェーンにおけるビッグデータストレージのための分散ストレージシステム

DBNode: A Decentralized Storage System for Big Data Storage in Consortium Blockchains ( http://arxiv.org/abs/2409.20123v1 )

ライセンス: Link先を確認
Narges Dadkhah, Xuyang Ma, Katinka Wolter, Gerhard Wunder, (参考訳) ブロックチェーン上でビッグデータを直接保存することは、すべてのノードにわたって一貫した台帳を維持する必要があるため、かなりの負担になる。 この課題に対処するために、分散ストレージシステムに関する多くの研究がなされている。 最先端の研究のほとんどは、さまざまなブロックチェーンカテゴリに対応可能な汎用ストレージシステムの開発に集中している。 しかし、データプライバシやアクセス制御など、コンソーシアムブロックチェーンのユニークな属性を認識することが不可欠である。 高いパフォーマンスを保証するだけでなく、これらの特定のニーズは一般的なストレージシステムによって見落とされがちである。 本稿では、よく知られたコンソーシアムブロックチェーンであるHyperledger Fabricの分散ストレージシステムを提案する。 まず、ファイルを分割するために消去符号化を採用し、その後、これらのチャンクを階層構造に整理し、効率的で信頼性の高いデータストレージを促進します。 第2に,2層型ハッシュスロット機構とミラー戦略を設計し,高可用性を実現する。 第3に、ファイルアクセスを規制するスマートコントラクトに基づくアクセス制御機構を設計する。

Storing big data directly on a blockchain poses a substantial burden due to the need to maintain a consistent ledger across all nodes. Numerous studies in decentralized storage systems have been conducted to tackle this particular challenge. Most state-of-the-art research concentrates on developing a general storage system that can accommodate diverse blockchain categories. However, it is essential to recognize the unique attributes of a consortium blockchain, such as data privacy and access control. Beyond ensuring high performance, these specific needs are often overlooked by general storage systems. This paper proposes a decentralized storage system for Hyperledger Fabric, which is a well-known consortium blockchain. First, we employ erasure coding to partition files, subsequently organizing these chunks into a hierarchical structure that fosters efficient and dependable data storage. Second, we design a two-layer hash-slots mechanism and a mirror strategy, enabling high data availability. Third, we design an access control mechanism based on a smart contract to regulate file access.
翻訳日:2024-10-02 18:56:57 公開日:2024-09-30
# ACE: 効率的にコミュニケーションするための抽象化

ACE: Abstractions for Communicating Efficiently ( http://arxiv.org/abs/2409.20120v1 )

ライセンス: Link先を確認
Jonathan D. Thomas, Andrea Silvi, Devdatt Dubhashi, Vikas Garg, Moa Johansson, (参考訳) AIにおける問題解決の中心的だが未解決の側面は、抽象化を導入して活用する能力である。 認知科学における作業は、人間が協調的なタスク指向のコミュニケーションに携わる際、より高度な抽象レベルに向かう傾向を示し、徐々に短く、より情報効率の良い発話を可能にしている。 この現象を再現するいくつかの計算手法が試みられているが、全ては抽象概念の導入と学習に関する非現実的な単純化の前提となっている。 本手法は,これらの制約を神経-記号的アプローチにより克服する。 シンボリックな側面から、我々は抽象概念を提案するための図書館学習の成果を描いている。 我々はこれを,新たな抽象概念の導入における探索と搾取のトレードオフを制御するために,バンディットアルゴリズムの新たな利用を通じて,コミュニケーションと強化学習のためのニューラルメソッドと組み合わせる。 ACEは、認知科学の文献から、あるエージェント(アーキテクト)が他のエージェント(ビルダー)にブロックビルディングのシーンを再構築するように指示する共同建設作業において、人間と同じような傾向を示す。 ACEは、協調コミュニケーションの副産物として効率的な言語が出現する。 人間のコミュニケーションに関する機械的な洞察を提供するだけでなく、私たちの仕事は人間のようなコミュニケーション抽象化の能力を備えた会話エージェントを提供するための第一歩として役立ちます。

A central but unresolved aspect of problem-solving in AI is the capability to introduce and use abstractions, something humans excel at. Work in cognitive science has demonstrated that humans tend towards higher levels of abstraction when engaged in collaborative task-oriented communication, enabling gradually shorter and more information-efficient utterances. Several computational methods have attempted to replicate this phenomenon, but all make unrealistic simplifying assumptions about how abstractions are introduced and learned. Our method, Abstractions for Communicating Efficiently (ACE), overcomes these limitations through a neuro-symbolic approach. On the symbolic side, we draw on work from library learning for proposing abstractions. We combine this with neural methods for communication and reinforcement learning, via a novel use of bandit algorithms for controlling the exploration and exploitation trade-off in introducing new abstractions. ACE exhibits similar tendencies to humans on a collaborative construction task from the cognitive science literature, where one agent (the architect) instructs the other (the builder) to reconstruct a scene of block-buildings. ACE results in the emergence of an efficient language as a by-product of collaborative communication. Beyond providing mechanistic insights into human communication, our work serves as a first step to providing conversational agents with the ability for human-like communicative abstractions.
翻訳日:2024-10-02 18:56:57 公開日:2024-09-30
# 一次合成画像を用いた商用ベーカリーのコンピュータビジョンモデルの訓練

Training a Computer Vision Model for Commercial Bakeries with Primarily Synthetic Images ( http://arxiv.org/abs/2409.20122v1 )

ライセンス: Link先を確認
Thomas H. Schmitt, Maximilian Bundscherer, Tobias Bocklet, (参考訳) 食品業界では、返品品の再処理は資源効率を高めるための重要なステップである。 [SBB23]は返却パンの追跡を自動化するAIアプリケーションを提示した。 我々は,2432枚の画像と広範囲の焼成品からなる拡張データセットを作成することにより,その作業を拡張した。 モデルロバスト性を高めるため、合成画像を作成するために、生成モデルピクス2ピクセルとCycleGANを使用する。 我々は,現在最先端のオブジェクト検出モデル YOLOv9 と YOLOv8 を,検出タスクで訓練する。 我々の全体的な最高の性能モデルは、テストセットで平均精度AP@0.5の90.3%を達成した。

In the food industry, reprocessing returned product is a vital step to increase resource efficiency. [SBB23] presented an AI application that automates the tracking of returned bread buns. We extend their work by creating an expanded dataset comprising 2432 images and a wider range of baked goods. To increase model robustness, we use generative models pix2pix and CycleGAN to create synthetic images. We train state-of-the-art object detection model YOLOv9 and YOLOv8 on our detection task. Our overall best-performing model achieved an average precision AP@0.5 of 90.3% on our test set.
翻訳日:2024-10-02 18:56:57 公開日:2024-09-30
# DCAST: フェアラーラーニングのための選択バイアスを軽減する多種多様なクラス対応自己学習

DCAST: Diverse Class-Aware Self-Training Mitigates Selection Bias for Fairer Learning ( http://arxiv.org/abs/2409.20126v1 )

ライセンス: Link先を確認
Yasin I. Tepeli, Joana P. Gonçalves, (参考訳) 機械学習の公正さは、性別や年齢などのセンシティブな特徴に基づいて個人に対するモデルバイアスを緩和し、しばしば選択バイアスによるトレーニングデータにおける人口の不均一な表現によって引き起こされる。 特に、コンピュータービジョンや分子バイオメディシンといった複雑な高次元データに代表されるにもかかわらず、繊細な特徴に代表される偏見を識別することは困難で、一般的には診断されない。 未確認バイアスを緩和し、緩和方法を評価するための戦略は不可欠であるが、未調査のままである。 紹介する。 一 異種クラス意識自己訓練(DCAST)、類別バイアスを意識したモデル非依存緩和であって、未ラベルの標本を活用して、従来型の自己訓練の確証バイアスに対処するために、サンプルの多様性を促進するものである。 (II) 事前知識のない階層バイアス, 多変量, クラス認識バイアス誘導。 DCASTで学んだモデルでは、従来の自己学習と6つの顕著なドメイン適応技術に対して、階層化やその他の11データセットに対するバイアスが改善された。 アドバンテージは高次元データセットにおいて最大であり、DCASTは識別可能なバイアスを越えてより公平な学習を実現するための有望な戦略であると示唆している。

Fairness in machine learning seeks to mitigate model bias against individuals based on sensitive features such as sex or age, often caused by an uneven representation of the population in the training data due to selection bias. Notably, bias unascribed to sensitive features is challenging to identify and typically goes undiagnosed, despite its prominence in complex high-dimensional data from fields like computer vision and molecular biomedicine. Strategies to mitigate unidentified bias and evaluate mitigation methods are crucially needed, yet remain underexplored. We introduce: (i) Diverse Class-Aware Self-Training (DCAST), model-agnostic mitigation aware of class-specific bias, which promotes sample diversity to counter confirmation bias of conventional self-training while leveraging unlabeled samples for an improved representation of the underlying population; (ii) hierarchy bias, multivariate and class-aware bias induction without prior knowledge. Models learned with DCAST showed improved robustness to hierarchy and other biases across eleven datasets, against conventional self-training and six prominent domain adaptation techniques. Advantage was largest for higher-dimensional datasets, suggesting DCAST as a promising strategy to achieve fairer learning beyond identifiable bias.
翻訳日:2024-10-02 18:56:57 公開日:2024-09-30
# PuzzleBoard: 位置エンコーディングによる新しいカメラキャリブレーションパターン

PuzzleBoard: A New Camera Calibration Pattern with Position Encoding ( http://arxiv.org/abs/2409.20127v1 )

ライセンス: Link先を確認
Peer Stelldinger, Nils Schönherr, Justus Biermann, (参考訳) 正確なカメラキャリブレーションはコンピュータビジョンにおいてよく知られ、広く使われているタスクであり、何十年にもわたって研究されてきた。 しかし、チェッカーボードの校正パターンに基づく標準的なアプローチには、適用性を制限する欠点がいくつかある。 例えば、キャリブレーションパターンはオクルージョンなしで完全に可視でなければならない。 ChArUcoボードのような代替ソリューションは部分閉塞を許容するが、位置符号化の詳細な詳細のため、高解像度のカメラを必要とする。 チェッカーボードキャリブレーションパターンの利点と,極低解像度で復号可能な軽量位置符号化を組み合わせたキャリブレーションパターンを提案する。 復号アルゴリズムは誤り訂正を含み、計算効率がよい。 全体的なアプローチは、チェッカーボードのキャリブレーションパターンとチェッカーボードのキャリブレーションアルゴリズムの両方と後方互換性がある。 さらに、カメラキャリブレーションだけでなく、カメラポーズ推定やマーカーに基づく物体位置決めタスクにも使用できる。

Accurate camera calibration is a well-known and widely used task in computer vision that has been researched for decades. However, the standard approach based on checkerboard calibration patterns has some drawbacks that limit its applicability. For example, the calibration pattern must be completely visible without any occlusions. Alternative solutions such as ChArUco boards allow partial occlusions, but require a higher camera resolution due to the fine details of the position encoding. We present a new calibration pattern that combines the advantages of checkerboard calibration patterns with a lightweight position coding that can be decoded at very low resolutions. The decoding algorithm includes error correction and is computationally efficient. The whole approach is backward compatible to both checkerboard calibration patterns and several checkerboard calibration algorithms. Furthermore, the method can be used not only for camera calibration but also for camera pose estimation and marker-based object localization tasks.
翻訳日:2024-10-02 18:56:57 公開日:2024-09-30
# 帰納的リンク予測の再評価

Reevaluation of Inductive Link Prediction ( http://arxiv.org/abs/2409.20130v1 )

ライセンス: Link先を確認
Simon Ott, Christian Meilicke, Heiner Stuckenschmidt, (参考訳) そこで本論文では,帰納的リンク予測に現在使用されている評価プロトコルが,ランダムにサンプリングされた小さな負のエンティティの集合における真のエンティティのランク付けに依存しているため,重大な欠陥があることを示す。 負の集合のサイズが限られているため、単純なルールベースのベースラインは最先端の結果を達成できる。 これらの知見の結果として、通常、帰納的設定に適用されるリンク予測プロトコルを用いて、いくつかのベンチマーク上での帰納的リンク予測に対する現在のアプローチを再評価する。 提案手法は,本手法の評価においてスケーラビリティの問題に悩まされているため,上述した問題に支障を来さない改良されたサンプリングプロトコルを提案し,適用する。 評価結果はこれまでに報告された結果と大きく異なる。

Within this paper, we show that the evaluation protocol currently used for inductive link prediction is heavily flawed as it relies on ranking the true entity in a small set of randomly sampled negative entities. Due to the limited size of the set of negatives, a simple rule-based baseline can achieve state-of-the-art results, which simply ranks entities higher based on the validity of their type. As a consequence of these insights, we reevaluate current approaches for inductive link prediction on several benchmarks using the link prediction protocol usually applied to the transductive setting. As some inductive methods suffer from scalability issues when evaluated in this setting, we propose and apply additionally an improved sampling protocol, which does not suffer from the problem mentioned above. The results of our evaluation differ drastically from the results reported in so far.
翻訳日:2024-10-02 18:56:57 公開日:2024-09-30
# ガラスボトル印刷の産業品質管理における機械学習

Machine Learning in Industrial Quality Control of Glass Bottle Prints ( http://arxiv.org/abs/2409.20132v1 )

ライセンス: Link先を確認
Maximilian Bundscherer, Thomas H. Schmitt, Tobias Bocklet, (参考訳) ガラスボトルの製造においては、多くの要因が印刷プロセスに悪影響を及ぼす可能性があるため、ボトル印刷の品質管理が必要である。 ボトルプリントの小さな欠陥でさえ、ガラスの反射や製造に関する偏差にもかかわらず検出されなければならない。 中規模産業パートナーと協力し、これらのボトルプリントの品質管理のためのMLベースの2つのアプローチを開発し、評価した。 我々の最初のアプローチは、異なる分類モデル(例えば SVM や k-Neighbors)の特徴として、反射(例えば Sobel や Canny)と画像比較(例えば MSE や SSIM)の画質指標を抑圧するために異なるフィルタを使用し、84%の精度を実現した。 画像はORBアルゴリズムに基づいて整列され, 印刷物の回転を推定することができ, 製造工程における異常の指標となる可能性がある。 第2のアプローチでは、バイナリ分類のための異なるトレーニング済みCNNモデル(例えばResNetやVGG)を微調整し、87%の精度を実現した。 細調整したResNet-34上でGrad-Camを利用することで、頻繁に欠陥のあるボトルプリント領域のローカライズと視覚化が可能になった。 この方法により、実際の製造プロセスの最適化に使用できる洞察を提供できるようになりました。 また,本論文では,生産中のデータ収集,教師なし事前選択,ラベル付けなどにおいて,我々の一般的なアプローチと,実際に遭遇した課題についても述べる。

In industrial manufacturing of glass bottles, quality control of bottle prints is necessary as numerous factors can negatively affect the printing process. Even minor defects in the bottle prints must be detected despite reflections in the glass or manufacturing-related deviations. In cooperation with our medium-sized industrial partner, two ML-based approaches for quality control of these bottle prints were developed and evaluated, which can also be used in this challenging scenario. Our first approach utilized different filters to supress reflections (e.g. Sobel or Canny) and image quality metrics for image comparison (e.g. MSE or SSIM) as features for different supervised classification models (e.g. SVM or k-Neighbors), which resulted in an accuracy of 84%. The images were aligned based on the ORB algorithm, which allowed us to estimate the rotations of the prints, which may serve as an indicator for anomalies in the manufacturing process. In our second approach, we fine-tuned different pre-trained CNN models (e.g. ResNet or VGG) for binary classification, which resulted in an accuracy of 87%. Utilizing Grad-Cam on our fine-tuned ResNet-34, we were able to localize and visualize frequently defective bottle print regions. This method allowed us to provide insights that could be used to optimize the actual manufacturing process. This paper also describes our general approach and the challenges we encountered in practice with data collection during ongoing production, unsupervised preselection, and labeling.
翻訳日:2024-10-02 13:17:59 公開日:2024-09-30
# ライス・ミール・はしごにおける非アベリアThoulessポンプ

Non-Abelian Thouless pumping in a Rice-Mele ladder ( http://arxiv.org/abs/2409.20136v1 )

ライセンス: Link先を確認
Carlo Danieli, Valentina Brosco, Laura Pilozzi, Roberta Citro, (参考訳) 非アベリアのThoulessポンプは、断熱的な量子制御とトポロジカルな量子輸送を介し、量子力学と計算の可能性を秘めている。 本研究では, 2つの二重縮退したバンドを特徴とするラグモデルを導入し, 格子パラメータの断熱操作により非アベリアThoulessポンプが生成し, 初期局所状態の変位と縮退部分空間内の幾何的ユニタリ変換の両方を誘導することを示す。 さらに、はしごモデルの構造と対称性は、ヤンモノポールモデルとの接続を通して理解可能であることを示す。 提案されたハミルトニアンは、光学格子中の冷原子を用いて実現することができ、真に量子多体系における非アベリアThoulessポンプの実験的なデモンストレーションを可能にした。

Non-Abelian Thouless pumping intertwines adiabatic quantum control and topological quantum transport and it holds potential for quantum metrology and computing. In this work, we introduce a ladder model featuring two doubly-degenerate bands and we show that adiabatic manipulation of the lattice parameters results in non-Abelian Thouless pumping, inducing both the displacement of an initially localized state and a geometric unitary transformation within the degenerate subspace. Additionally, we show that the structure and symmetry of the ladder model can be understood through its connection to a Yang monopole model. The proposed Hamiltonian can be realized using cold atoms in optical lattices, enabling the experimental demonstration of non-Abelian Thouless pumping in a genuinely quantum many-body system.
翻訳日:2024-10-02 13:17:59 公開日:2024-09-30
# コンピュータビジョンモデルを用いた木根のセグメンテーション

Segmenting Wood Rot using Computer Vision Models ( http://arxiv.org/abs/2409.20137v1 )

ライセンス: Link先を確認
Roland Kammerbauer, Thomas H. Schmitt, Tobias Bocklet, (参考訳) 木工業界では,原材料の品質評価に多大な労力を費やす必要がある。 本研究では,木製丸太の欠陥の検出,定量化,局所化を行うAIモデルを提案する。 このモデルは品質管理プロセスを自動化し、より一貫性があり信頼性の高い品質評価を提供することを目的としています。 この目的のために、木製丸太の1424枚のサンプル画像のデータセットを作成する。 データセット作成には、さまざまなレベルの専門知識を持つ合計5つのアノテータが関与している。 アノテーションタスクに対する専門知識の影響を分析し、アノテーション判断における主観的差異を明らかにするために、アノテーション間の合意分析を行う。 セマンティックセグメンテーションのための最先端のインターンイメージとONE-PEACEアーキテクチャを探索し、訓練し、微調整する。 生成した最良のモデルは平均IoU0.71で、人間のアノテータに近い検出と定量化能力を示す。

In the woodworking industry, a huge amount of effort has to be invested into the initial quality assessment of the raw material. In this study we present an AI model to detect, quantify and localize defects on wooden logs. This model aims to both automate the quality control process and provide a more consistent and reliable quality assessment. For this purpose a dataset of 1424 sample images of wood logs is created. A total of 5 annotators possessing different levels of expertise is involved in dataset creation. An inter-annotator agreement analysis is conducted to analyze the impact of expertise on the annotation task and to highlight subjective differences in annotator judgement. We explore, train and fine-tune the state-of-the-art InternImage and ONE-PEACE architectures for semantic segmentation. The best model created achieves an average IoU of 0.71, and shows detection and quantification capabilities close to the human annotators.
翻訳日:2024-10-02 13:17:59 公開日:2024-09-30
# ニューラルネットワークの制約付きモデル量子化

Constraint Guided Model Quantization of Neural Networks ( http://arxiv.org/abs/2409.20138v1 )

ライセンス: Link先を確認
Quinten Van Baelen, Peter Karsmakers, (参考訳) ディープラーニングがアプリケーションの増加に応用されているため、エッジにニューラルネットワークをデプロイすることがますます重要になっている。 エッジ上のデバイスは通常、大きな計算資源がより高いエネルギー消費をもたらすため、小さな計算資源を持つものとして特徴づけられる。 ニューラルネットワークの複雑さを軽減するため、近年、幅広い量子化手法が提案されている。 本研究では,計算資源の上限値を用いてニューラルネットワークのパラメータのビット幅を削減する量子化対応学習アルゴリズムであるConstraint Guided Model Quantization (CGMQ)を提案する。 CGMQは、事前定義された計算コスト制約を満たす混合精度ニューラルネットワークを実現するために、ハイパーパラメータのチューニングを必要としない。 MNISTでは、CGMQの性能は、コスト制約の満足度を保証しつつ、最先端の量子化対応トレーニングアルゴリズムと競合していることが示されている。

Deploying neural networks on the edge has become increasingly important as deep learning is being applied in an increasing amount of applications. The devices on the edge are typically characterised as having small computational resources as large computational resources results in a higher energy consumption, which is impractical for these devices. To reduce the complexity of neural networks a wide range of quantization methods have been proposed in recent years. This work proposes Constraint Guided Model Quantization (CGMQ), which is a quantization aware training algorithm that uses an upper bound on the computational resources and reduces the bit-widths of the parameters of the neural network. CGMQ does not require the tuning of a hyperparameter to result in a mixed precision neural network that satisfies the predefined computational cost constraint, while prior work does. It is shown on MNIST that the performance of CGMQ is competitive with state-of-the-art quantization aware training algorithms, while guaranteeing the satisfaction of the cost constraint.
翻訳日:2024-10-02 13:17:59 公開日:2024-09-30
# 自然入力勾配によるモデルロバストネスのキャラクタリゼーション

Characterizing Model Robustness via Natural Input Gradients ( http://arxiv.org/abs/2409.20139v1 )

ライセンス: Link先を確認
Adrián Rodríguez-Muñoz, Tongzhou Wang, Antonio Torralba, (参考訳) 逆向きの頑健なモデルは各データサンプルの周りで局所的に滑らかであるため、小さな摂動はモデル出力を劇的に変えることができない。 現代のシステムでは、このような滑らかさは通常、摂動訓練によって得られる。 本研究では,自然例のみのモデル入力に対して勾配を正則化するという驚くべき効果を示す。 グラディエントノルムの刑罰は、一般的にはるかに劣るアプローチであると考えられている。 解析により, グラディエントノルム正規化の性能は活性化関数の滑らかさに大きく依存しており, 従来の信念とは対照的に, 分割線形化(ReLU)よりもスムーズな活性化を取り入れた現代の視覚変換器に極めて効果的であることが確認された。 ImageNet-1kにおいて、グラディエントノルムトレーニングは、最先端のPGD-3 Adversarial Training} (52% vs.~56%)のパフォーマンスの90%を達成し、複雑な対角最適化を伴わない最先端の計算コストは60%に過ぎなかった。 また,非対称サンプルやチャネル統計などの自然入力勾配のモデルロバスト性と特性の関係についても検討した。 驚くべきことに、勾配ノルムを明示的に条件付けすることなく、画像エッジに集中するように勾配を規則化することで、モデルロバスト性を大幅に改善できる。

Adversarially robust models are locally smooth around each data sample so that small perturbations cannot drastically change model outputs. In modern systems, such smoothness is usually obtained via Adversarial Training, which explicitly enforces models to perform well on perturbed examples. In this work, we show the surprising effectiveness of instead regularizing the gradient with respect to model inputs on natural examples only. Penalizing input Gradient Norm is commonly believed to be a much inferior approach. Our analyses identify that the performance of Gradient Norm regularization critically depends on the smoothness of activation functions, and are in fact extremely effective on modern vision transformers that adopt smooth activations over piecewise linear ones (eg, ReLU), contrary to prior belief. On ImageNet-1k, Gradient Norm training achieves > 90% the performance of state-of-the-art PGD-3 Adversarial Training} (52% vs.~56%), while using only 60% computation cost of the state-of-the-art without complex adversarial optimization. Our analyses also highlight the relationship between model robustness and properties of natural input gradients, such as asymmetric sample and channel statistics. Surprisingly, we find model robustness can be significantly improved by simply regularizing its gradients to concentrate on image edges without explicit conditioning on the gradient norm.
翻訳日:2024-10-02 13:17:59 公開日:2024-09-30
# RISE-SDF:Glossy Object Inverse Renderingのための再生可能な情報共有符号付き距離場

RISE-SDF: a Relightable Information-Shared Signed Distance Field for Glossy Object Inverse Rendering ( http://arxiv.org/abs/2409.20140v1 )

ライセンス: Link先を確認
Deheng Zhang, Jingyu Wang, Shaofei Wang, Marko Mihajlovic, Sergey Prokudin, Hendrik P. A. Lensch, Siyu Tang, (参考訳) 本稿では, 高品質な形状と材料特性の再構成を実現し, 高品質なリライトを実現する, エンド・ツー・エンドなニューラル・リバースレンダリングシステムを提案する。 本手法の基礎は,シーンパラメータのより優れた分解法を学習するための2段階のアプローチである。 第1段階では、形状表現としてニューラルサイン距離場(SDF)を用い、間接照明を推定するためにMLP(multilayer perceptron)を配置する反射型放射場を開発する。 第2段階では,新たな情報共有ネットワーク構造を導入し,ラディアンス場とシーンの物理的因子化を共同で学習する。 モンテカルロサンプリングによるノイズを低減するために,ディズニーBRDFと立方体ミップマップを簡易化した分割サム近似を環境光表現として適用した。 また,光沢オブジェクトの逆レンダリング性能を定量的に評価するためのデータセットやプロトコルは存在しない。 材料復元とリライティングの質を評価するため, BRDFパラメータとリライティング結果を用いた新しいデータセットを構築した。 実験により, 逆レンダリングとリライティングにおいて, 高い反射率を持つ物体の再構成に強い結果が得られた。

In this paper, we propose a novel end-to-end relightable neural inverse rendering system that achieves high-quality reconstruction of geometry and material properties, thus enabling high-quality relighting. The cornerstone of our method is a two-stage approach for learning a better factorization of scene parameters. In the first stage, we develop a reflection-aware radiance field using a neural signed distance field (SDF) as the geometry representation and deploy an MLP (multilayer perceptron) to estimate indirect illumination. In the second stage, we introduce a novel information-sharing network structure to jointly learn the radiance field and the physically based factorization of the scene. For the physically based factorization, to reduce the noise caused by Monte Carlo sampling, we apply a split-sum approximation with a simplified Disney BRDF and cube mipmap as the environment light representation. In the relighting phase, to enhance the quality of indirect illumination, we propose a second split-sum algorithm to trace secondary rays under the split-sum rendering framework.Furthermore, there is no dataset or protocol available to quantitatively evaluate the inverse rendering performance for glossy objects. To assess the quality of material reconstruction and relighting, we have created a new dataset with ground truth BRDF parameters and relighting results. Our experiments demonstrate that our algorithm achieves state-of-the-art performance in inverse rendering and relighting, with particularly strong results in the reconstruction of highly reflective objects.
翻訳日:2024-10-02 13:17:59 公開日:2024-09-30
# VMAD:ゼロショット異常検出のための視覚的マルチモーダル大言語モデル

VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection ( http://arxiv.org/abs/2409.20146v1 )

ライセンス: Link先を確認
Huilin Deng, Hongchen Luo, Wei Zhai, Yang Cao, Yu Kang, (参考訳) ゼロショット異常検出(ZSAD)は、テキストプロンプトと検査画像の特徴マッピングを確立することにより、未確認物体の異常を認識・局所化し、フレキシブルな工業製造において優れた研究価値を示す。 しかし、既存のZSADメソッドはクローズドワールド設定によって制限されており、事前に定義されたプロンプトで欠陥を発見できない。 近年,産業異常検出 (IAD) にMLLM(Multimodal Large Language Models) を適用した手法が提案されている。 固定プロンプト法とは異なり、MLLMは、より適応的な異常解析を可能にするオープンエンドテキスト解釈を備えた生成パラダイムを示す。 しかし、この適応は、しばしば微細な領域に異常が出現し、通常のサンプルと最小限の視差を示すため、固有の課題に直面している。 これらの課題に対処するために、視覚的IAD知識と微粒化認識によりMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案し、同時に、異常の正確な検出と包括的解析を提供する。 具体的には,視覚枝からMLLMにパッチ類似性を伝達し,異常識別を改善する欠陥検出型構造学習手法を設計する。 さらに,局所性向上型Token Compressionという新しいビジュアルプロジェクタを導入し,局所的コンテキストにおけるマルチレベル特徴をマイニングすることで,きめ細かい検出を実現する。 さらに, MLLM ベースの IAD 開発に有用な資源として, 詳細な異常記述と解析を含む総合的な IAD データセットである Real Industrial Anomaly Detection (RIAD) を導入する。 MVTec-AD、Visa、WFDD、RIADデータセットを含むゼロショットベンチマークに関する大規模な実験は、最先端の手法よりも優れたパフォーマンスを示している。 コードとデータセットは近く提供される。

Zero-shot anomaly detection (ZSAD) recognizes and localizes anomalies in previously unseen objects by establishing feature mapping between textual prompts and inspection images, demonstrating excellent research value in flexible industrial manufacturing. However, existing ZSAD methods are limited by closed-world settings, struggling to unseen defects with predefined prompts. Recently, adapting Multimodal Large Language Models (MLLMs) for Industrial Anomaly Detection (IAD) presents a viable solution. Unlike fixed-prompt methods, MLLMs exhibit a generative paradigm with open-ended text interpretation, enabling more adaptive anomaly analysis. However, this adaption faces inherent challenges as anomalies often manifest in fine-grained regions and exhibit minimal visual discrepancies from normal samples. To address these challenges, we propose a novel framework VMAD (Visual-enhanced MLLM Anomaly Detection) that enhances MLLM with visual-based IAD knowledge and fine-grained perception, simultaneously providing precise detection and comprehensive analysis of anomalies. Specifically, we design a Defect-Sensitive Structure Learning scheme that transfers patch-similarities cues from visual branch to our MLLM for improved anomaly discrimination. Besides, we introduce a novel visual projector, Locality-enhanced Token Compression, which mines multi-level features in local contexts to enhance fine-grained detection. Furthermore, we introduce the Real Industrial Anomaly Detection (RIAD), a comprehensive IAD dataset with detailed anomaly descriptions and analyses, offering a valuable resource for MLLM-based IAD development. Extensive experiments on zero-shot benchmarks, including MVTec-AD, Visa, WFDD, and RIAD datasets, demonstrate our superior performance over state-of-the-art methods. The code and dataset will be available soon.
翻訳日:2024-10-02 13:17:59 公開日:2024-09-30
# 非英語における小・不均衡データセットにおける放射線学的テキストの分類

Classification of Radiological Text in Small and Imbalanced Datasets in a Non-English Language ( http://arxiv.org/abs/2409.20147v1 )

ライセンス: Link先を確認
Vincent Beliveau, Helene Kaas, Martin Prener, Claes N. Ladefoged, Desmond Elliott, Gitte M. Knudsen, Lars H. Pinborg, Melanie Ganz, (参考訳) 医学領域における自然言語処理(NLP)は、ラベル付きサンプルが少なく、不均衡なクラスを持つ非英語言語において、小さなデータセットを含む現実世界のアプリケーションでは性能が劣る可能性がある。 この問題にどう対処するかについては、まだ合意が得られていない。 我々は,低リソース言語であるデンマークのてんかん患者の磁気共鳴画像に関する3つの画像データを用いて,BERT様変換器,文変換器を用いた少数ショット学習(SetFit),および大規模言語モデル(LLM)などを含むNLPモデルのセットを評価した。 以上の結果から,放射線学報告の対象領域で事前訓練されたBERT様モデルでは,このシナリオに最適な性能が得られることが示唆された。 特に、SetFitとLLMはBERTのようなモデルに比べて性能が劣り、LLMは最悪だった。 重要な点として、調査対象のどのモデルも十分な正確性を持たず、いかなる監督も受けずにテキスト分類が可能であった。 しかし、これらはデータフィルタリングの可能性を示しており、手動ラベリングの量を減らすことができる。

Natural language processing (NLP) in the medical domain can underperform in real-world applications involving small datasets in a non-English language with few labeled samples and imbalanced classes. There is yet no consensus on how to approach this problem. We evaluated a set of NLP models including BERT-like transformers, few-shot learning with sentence transformers (SetFit), and prompted large language models (LLM), using three datasets of radiology reports on magnetic resonance images of epilepsy patients in Danish, a low-resource language. Our results indicate that BERT-like models pretrained in the target domain of radiology reports currently offer the optimal performances for this scenario. Notably, the SetFit and LLM models underperformed compared to BERT-like models, with LLM performing the worst. Importantly, none of the models investigated was sufficiently accurate to allow for text classification without any supervision. However, they show potential for data filtering, which could reduce the amount of manual labeling required.
翻訳日:2024-10-02 13:17:59 公開日:2024-09-30
# 1 Trillion Token (1TT)プラットフォーム:大規模言語モデルにおける効率的なデータ共有と補償のための新しいフレームワーク

1 Trillion Token (1TT) Platform: A Novel Framework for Efficient Data Sharing and Compensation in Large Language Models ( http://arxiv.org/abs/2409.20149v1 )

ライセンス: Link先を確認
Chanjun Park, Hyunsoo Ha, Jihoo Kim, Yungi Kim, Dahyun Kim, Sukyung Lee, Seonghoon Yang, (参考訳) 本稿では,透過的かつ公平な利益分配機構を備えた効率的なデータ共有を支援する新しいフレームワークである1 Trillion Token Platform (1TT Platform)を提案する。 このプラットフォームは、開示されていないデータセットを提供するデータコントリビュータと、これらのデータセットを使用して独自のサービスを強化するデータコンシューマとのコラボレーションを促進する。 データコントリビュータは金銭的な条件で補償され、データコンシューマのサービスによって生成された収益のシェアを受け取る。 データ消費者は、収益の一部をコントリビュータと共有することを約束している。 1TTプラットフォームは、透明な利益分配パラダイムを取り入れて大規模データ共有のインセンティブを得ることにより、NLPとLLM技術の進歩を促進するための協調環境を構築する。

In this paper, we propose the 1 Trillion Token Platform (1TT Platform), a novel framework designed to facilitate efficient data sharing with a transparent and equitable profit-sharing mechanism. The platform fosters collaboration between data contributors, who provide otherwise non-disclosed datasets, and a data consumer, who utilizes these datasets to enhance their own services. Data contributors are compensated in monetary terms, receiving a share of the revenue generated by the services of the data consumer. The data consumer is committed to sharing a portion of the revenue with contributors, according to predefined profit-sharing arrangements. By incorporating a transparent profit-sharing paradigm to incentivize large-scale data sharing, the 1TT Platform creates a collaborative environment to drive the advancement of NLP and LLM technologies.
翻訳日:2024-10-02 13:17:59 公開日:2024-09-30
# ASTRA: 極端分類器の高精度かつスケーラブルなANNSベーストレーニング

ASTRA: Accurate and Scalable ANNS-based Training of Extreme Classifiers ( http://arxiv.org/abs/2409.20156v1 )

ライセンス: Link先を確認
Sonu Mehta, Jayashree Mohan, Nagarajan Natarajan, Ramachandran Ramjee, Manik Varma, (参考訳) エクストリーム分類' (Extreme Classification', XC) は、検索やレコメンデーションで生じる非常に大きな$L$のラベルセットから、関連するラベル(ドキュメント)とデータポイント(クエリ)をアノテートするタスクである。 過去10年ほどでXCのために登場した最も成功したディープラーニングパラダイムは、ディープエンコーダ(例えば DistilBERT)を使用してクエリ(とラベル)を埋め込み、クエリの埋め込みの上に線形分類器を使用することである。 このアーキテクチャは、近距離探索(ANNS)を用いたミリ秒間推論を可能にするため、魅力的である。 鍵となる疑問は、限られた数のGPU上で、正確なトレーニングアルゴリズムをO(100M)$ラベルにスケールする方法です。 標準データセット上で高い精度(例えば、DEXML、Ren\'ee、DXA)を示す最先端のXC技術は、XCシナリオでは禁止される、$O(L)$または高価な負のサンプリング戦略を使用する、画期的なトレーニング時間を持つ。 本研究では,2つの重要な観測点を持つ高精度でスケーラブルなXCアルゴリズムASTRAを開発する。 (a)分類器ベクトル上にANNSインデックスを構築し、分類器を用いて強負を検索することにより、損失関数に最適化された負のサンプリング戦略を整合させる。 b) 分類器がエポックスを通して変化するにつれてANNSの指標を保ちながら, 安定な負の値(周期的に更新される)を用いることで, 精度が低下する一方で, 重要サンプリングと一様サンプリングの混合を用いた負のサンプリング戦略を提案する。 1億2000万のラベルを持つ標準XCとプロプライエタリなデータセットを広範囲に評価することにより、ASTRAがSOTA精度を実現し、トレーニング時間を第2のベストに比べて4倍から15倍短縮することを示した。

`Extreme Classification'' (or XC) is the task of annotating data points (queries) with relevant labels (documents), from an extremely large set of $L$ possible labels, arising in search and recommendations. The most successful deep learning paradigm that has emerged over the last decade or so for XC is to embed the queries (and labels) using a deep encoder (e.g. DistilBERT), and use linear classifiers on top of the query embeddings. This architecture is of appeal because it enables millisecond-time inference using approximate nearest neighbor search (ANNS). The key question is how do we design training algorithms that are accurate as well as scale to $O(100M)$ labels on a limited number of GPUs. State-of-the-art XC techniques that demonstrate high accuracies (e.g., DEXML, Ren\'ee, DEXA) on standard datasets have per-epoch training time that scales as $O(L)$ or employ expensive negative sampling strategies, which are prohibitive in XC scenarios. In this work, we develop an accurate and scalable XC algorithm ASTRA with two key observations: (a) building ANNS index on the classifier vectors and retrieving hard negatives using the classifiers aligns the negative sampling strategy to the loss function optimized; (b) keeping the ANNS indices current as the classifiers change through the epochs is prohibitively expensive while using stale negatives (refreshed periodically) results in poor accuracy; to remedy this, we propose a negative sampling strategy that uses a mixture of importance sampling and uniform sampling. By extensive evaluation on standard XC as well as proprietary datasets with 120M labels, we demonstrate that ASTRA achieves SOTA precision, while reducing training time by 4x-15x relative to the second best.
翻訳日:2024-10-02 13:17:59 公開日:2024-09-30
# 脳波BCIを非可視的かつロバストなバックドア攻撃で操作する教授X

Professor X: Manipulating EEG BCI with Invisible and Robust Backdoor Attack ( http://arxiv.org/abs/2409.20158v1 )

ライセンス: Link先を確認
Xuan-Hao Liu, Xinhao Song, Dexuan He, Bao-Liang Lu, Wei-Long Zheng, (参考訳) 脳波脳波(EEG)に基づく脳-コンピュータインタフェース(BCI)は、医療診断、医療、デバイス制御に広く用いられているが、脳波BCIの安全性は長い間無視されてきた。 本稿では, バックドア攻撃による脳波BCIの出力を任意に操作できる, 可視かつ堅牢な「ミンド・コントロールラー」である「教授X」を提案し, 脳波コミュニティに潜在的な危険を警告する。 しかし、既存のEEG攻撃は主に単一ターゲットクラス攻撃に焦点を当てており、それらはターゲットBCIのトレーニング段階への関与を必要とするか、高いステルスネスを維持するのに失敗する。 この制限に対処するため、X教授は3段階のクリーンラベル中毒を悪用します。 1) 各クラスに対して1つのトリガを選択する。 2 トリガー毎の脳波電極の最適注入の学習及び強化学習による周波数戦略 3) 予め学習した戦略に従って, 両データのスペクトル振幅を線形に補間することにより, 対応するトリガーの周波数を各クラス毎の有毒データに注入することにより, 有毒サンプルを生成する。 3つの共通脳波タスクのデータセットの実験は、既存のバックドア防御を簡単に回避できる教授Xの有効性と堅牢性を示している。

While electroencephalogram (EEG) based brain-computer interface (BCI) has been widely used for medical diagnosis, health care, and device control, the safety of EEG BCI has long been neglected. In this paper, we propose Professor X, an invisible and robust "mind-controller" that can arbitrarily manipulate the outputs of EEG BCI through backdoor attack, to alert the EEG community of the potential hazard. However, existing EEG attacks mainly focus on single-target class attacks, and they either require engaging the training stage of the target BCI, or fail to maintain high stealthiness. Addressing these limitations, Professor X exploits a three-stage clean label poisoning attack: 1) selecting one trigger for each class; 2) learning optimal injecting EEG electrodes and frequencies strategy with reinforcement learning for each trigger; 3) generating poisoned samples by injecting the corresponding trigger's frequencies into poisoned data for each class by linearly interpolating the spectral amplitude of both data according to previously learned strategies. Experiments on datasets of three common EEG tasks demonstrate the effectiveness and robustness of Professor X, which also easily bypasses existing backdoor defenses.
翻訳日:2024-10-02 13:17:59 公開日:2024-09-30
# MemSim: LLMに基づくパーソナルアシスタントの記憶評価のためのベイズシミュレータ

MemSim: A Bayesian Simulator for Evaluating Memory of LLM-based Personal Assistants ( http://arxiv.org/abs/2409.20163v1 )

ライセンス: Link先を確認
Zeyu Zhang, Quanyu Dai, Luyu Chen, Zeren Jiang, Rui Li, Jieming Zhu, Xu Chen, Yi Xie, Zhenhua Dong, Ji-Rong Wen, (参考訳) LLMベースのエージェントは、ユーザメッセージからの情報を記憶し、パーソナルクエリに応答できるパーソナルアシスタントとして広く採用されている。 しかし、ユーザメッセージによる信頼性の高い質問と回答(QA)を構築する上での課題から、メモリ能力に対する客観的かつ自動的な評価が依然として欠如している。 本稿では,生成したユーザメッセージから信頼性の高いQAを自動構築し,その多様性とスケーラビリティを同時に維持するベイズシミュレータであるMemSimを提案する。 具体的には,ベイズ関係ネットワーク(BRNet)と因果生成機構を導入し,LLM幻覚が実情報に与える影響を緩和し,評価データセットの自動作成を容易にする。 MemSimに基づいて、MemDailyという名前の日常生活シナリオのデータセットを生成し、我々のアプローチの有効性を評価するための広範な実験を行う。 また,LLMをベースとしたエージェントのメモリ機構を,MemDailyデータセットを用いて評価するためのベンチマークも提供する。 リサーチコミュニティに利益をもたらすため、私たちはhttps://github.com/nuster1128/MemSim.comでプロジェクトをリリースしました。

LLM-based agents have been widely applied as personal assistants, capable of memorizing information from user messages and responding to personal queries. However, there still lacks an objective and automatic evaluation on their memory capability, largely due to the challenges in constructing reliable questions and answers (QAs) according to user messages. In this paper, we propose MemSim, a Bayesian simulator designed to automatically construct reliable QAs from generated user messages, simultaneously keeping their diversity and scalability. Specifically, we introduce the Bayesian Relation Network (BRNet) and a causal generation mechanism to mitigate the impact of LLM hallucinations on factual information, facilitating the automatic creation of an evaluation dataset. Based on MemSim, we generate a dataset in the daily-life scenario, named MemDaily, and conduct extensive experiments to assess the effectiveness of our approach. We also provide a benchmark for evaluating different memory mechanisms in LLM-based agents with the MemDaily dataset. To benefit the research community, we have released our project at https://github.com/nuster1128/MemSim.
翻訳日:2024-10-02 13:17:58 公開日:2024-09-30
# Erase, then Redraw:拡散モデルを用いた自由空間検出のための新しいデータ拡張手法

Erase, then Redraw: A Novel Data Augmentation Approach for Free Space Detection Using Diffusion Model ( http://arxiv.org/abs/2409.20164v1 )

ライセンス: Link先を確認
Fulong Ma, Weiqing Qi, Guoyang Zhao, Ming Liu, Jun Ma, (参考訳) データ拡張はディープラーニングにおいて最も一般的なツールの1つであり、分類、検出、セマンティックセグメンテーションといったタスクを含む最近の多くの進歩を支えている。 データ拡張に対する標準的なアプローチは、ローテーションやフリップのような単純な変換によって新しい画像を生成する。 しかし、これらの新しい画像は、しばしばデータ内の主要な意味的次元に沿って多様性を欠いている。 従来のデータ拡張手法では、データの多様性を高めるために、車や木、建物などの高レベルのセマンティック属性を変更することはできない。 近年、生成モデルの急速な発展により、データ拡張の分野に新たな活力が注入されている。 本稿では,事前学習したテキスト・ツー・イメージ拡散モデルを用いて画像・画像変換をパラメータ化することにより,道路検出作業におけるデータ拡張の多様性の欠如に対処する。 本手法では,これらの拡散モデルを用いて画像の編集を行い,セマンティクスを変化させる。 本質的には、この目標を達成するために、元のデータセットから実際のオブジェクトのインスタンスを消去し、拡散モデルを用いて消去された領域に類似したセマンティクスを持つ新しいインスタンスを生成し、元のデータセットを拡張する。 我々は、KITTIロードデータセットに対する我々のアプローチを評価し、提案手法の有効性を示す他のデータ拡張手法と比較して、最良の結果を得る。

Data augmentation is one of the most common tools in deep learning, underpinning many recent advances including tasks such as classification, detection, and semantic segmentation. The standard approach to data augmentation involves simple transformations like rotation and flipping to generate new images. However, these new images often lack diversity along the main semantic dimensions within the data. Traditional data augmentation methods cannot alter high-level semantic attributes such as the presence of vehicles, trees, and buildings in a scene to enhance data diversity. In recent years, the rapid development of generative models has injected new vitality into the field of data augmentation. In this paper, we address the lack of diversity in data augmentation for road detection task by using a pre-trained text-to-image diffusion model to parameterize image-to-image transformations. Our method involves editing images using these diffusion models to change their semantics. In essence, we achieve this goal by erasing instances of real objects from the original dataset and generating new instances with similar semantics in the erased regions using the diffusion model, thereby expanding the original dataset. We evaluate our approach on the KITTI road dataset and achieve the best results compared to other data augmentation methods, which demonstrates the effectiveness of our proposed development.
翻訳日:2024-10-02 13:17:58 公開日:2024-09-30
# ドイツ語の「虚偽」と「虚偽」はどのように絡み合っているか

How Entangled is Factuality and Deception in German? ( http://arxiv.org/abs/2409.20165v1 )

ライセンス: Link先を確認
Aswathy Velutharambath, Amelie Wührl, Roman Klinger, (参考訳) 地球は平らである」という文は事実的に不正確なものであるが、誰かが真に信じ、その好意を主張するなら、それは偽りではない。 偽造検出と事実チェックの研究は、しばしば事実の正確さと文の真偽を混同する。 この仮定は難しい。 (a)両者の微妙な区別と相互作用を研究する (b)下流タスクへの影響を測る。 信念に基づく騙しフレームワークは、人々が何を言っているのか、本当に信じるのかのミスマッチがあるときに、テキストを欺くものとして定義することで、これらの特性を歪めます。 本研究では, 偽造の想定パターンがドイツ語のテキストに一般化されるかどうかを評価する。 確立された信念に基づく議論のコーパスを用いて,嘘検出における計算モデルの有効性を検証した。 最後に, 事実確認の下流課題に対する偽証の影響を評価し, この特性が検証モデルに矛盾するかどうかを考察する。 意外なことに、我々の分析では、確立された偽造の手がかりと相関は見つからない。 これまでの研究では、計算モデルは誤検出精度で人間より優れていると主張したが、我々の実験では、従来のモデルと最先端のモデルの両方がタスクに苦労し、ランダムな推測に勝ることを示した。 事実チェックでは、自然言語推論に基づく検証は、非事実的および偽装的コンテンツに対してより悪く、一方、同じタスクに対して大規模言語モデルを促すことは、これらの特性にはあまり敏感ではない。

The statement "The earth is flat" is factually inaccurate, but if someone truly believes and argues in its favor, it is not deceptive. Research on deception detection and fact checking often conflates factual accuracy with the truthfulness of statements. This assumption makes it difficult to (a) study subtle distinctions and interactions between the two and (b) gauge their effects on downstream tasks. The belief-based deception framework disentangles these properties by defining texts as deceptive when there is a mismatch between what people say and what they truly believe. In this study, we assess if presumed patterns of deception generalize to German language texts. We test the effectiveness of computational models in detecting deception using an established corpus of belief-based argumentation. Finally, we gauge the impact of deception on the downstream task of fact checking and explore if this property confounds verification models. Surprisingly, our analysis finds no correlation with established cues of deception. Previous work claimed that computational models can outperform humans in deception detection accuracy, however, our experiments show that both traditional and state-of-the-art models struggle with the task, performing no better than random guessing. For fact checking, we find that Natural Language Inference-based verification performs worse on non-factual and deceptive content, while prompting Large Language Models for the same task is less sensitive to these properties.
翻訳日:2024-10-02 13:17:58 公開日:2024-09-30
# 乾燥領域検出のためのタスク指向事前訓練

Task-Oriented Pre-Training for Drivable Area Detection ( http://arxiv.org/abs/2409.20166v1 )

ライセンス: Link先を確認
Fulong Ma, Guoyang Zhao, Weiqing Qi, Ming Liu, Jun Ma, (参考訳) 事前トレーニング技術は、ディープラーニングにおいて重要な役割を担い、さまざまなタスクにわたるモデルのパフォーマンスを向上させる。 最初は大規模なデータセットでトレーニングし、その後タスク固有のデータで微調整することで、プレトレーニングはモデルのための強固な基盤を提供し、一般化能力を改善し、収束率を加速する。 このアプローチは自然言語処理とコンピュータビジョンの分野で大きな成功を収めた。 しかし、従来の事前トレーニング手法では、大規模なデータセットと相当量の計算リソースを必要とするため、長いトレーニングとタスク固有のより深い特徴の獲得に苦労することで、共有機能のみを学ぶことができる。 本稿では,Segment Anything(SAM)モデルを用いて,冗長なセグメンテーション提案を生成するタスク指向事前学習手法を提案する。 次に,コントラスト言語-画像事前学習(CLIP)モデルを微調整するための特定カテゴリー強化細調整(SCEF)戦略を導入する。 このアプローチは、手動のアノテートデータを用いてさらに微調整された事前学習モデルの粗いトレーニングデータを生成することができ、モデルの性能が向上する。 KITTIロードデータセットを用いた総合的な実験により,タスク指向の事前学習手法は,事前学習を行わないモデルと比較して,全周的な性能向上を実現することが示された。 さらに,本手法は従来の事前学習手法を超越するだけでなく,最先端の自己学習手法よりも優れた性能を発揮する。

Pre-training techniques play a crucial role in deep learning, enhancing models' performance across a variety of tasks. By initially training on large datasets and subsequently fine-tuning on task-specific data, pre-training provides a solid foundation for models, improving generalization abilities and accelerating convergence rates. This approach has seen significant success in the fields of natural language processing and computer vision. However, traditional pre-training methods necessitate large datasets and substantial computational resources, and they can only learn shared features through prolonged training and struggle to capture deeper, task-specific features. In this paper, we propose a task-oriented pre-training method that begins with generating redundant segmentation proposals using the Segment Anything (SAM) model. We then introduce a Specific Category Enhancement Fine-tuning (SCEF) strategy for fine-tuning the Contrastive Language-Image Pre-training (CLIP) model to select proposals most closely related to the drivable area from those generated by SAM. This approach can generate a lot of coarse training data for pre-training models, which are further fine-tuned using manually annotated data, thereby improving model's performance. Comprehensive experiments conducted on the KITTI road dataset demonstrate that our task-oriented pre-training method achieves an all-around performance improvement compared to models without pre-training. Moreover, our pre-training method not only surpasses traditional pre-training approach but also achieves the best performance compared to state-of-the-art self-training methods.
翻訳日:2024-10-02 13:07:12 公開日:2024-09-30
# 大規模マルチモーダルモデルを用いてマルチメディア質問情報から知識追跡のための知識成分を抽出する

Using Large Multimodal Models to Extract Knowledge Components for Knowledge Tracing from Multimedia Question Information ( http://arxiv.org/abs/2409.20167v1 )

ライセンス: Link先を確認
Hyeongdon Moon, Richard Davis, Seyed Parsa Neshaei, Pierre Dillenbourg, (参考訳) 知識追跡モデルは、学生にフィードバックを提供するために、様々なインテリジェントなチューターシステムを可能にした。 しかし、学習科学における知識追跡のための既存の手法は、統計データやインストラクターが定義した知識コンポーネントに大きく依存しているため、AI生成した教育コンテンツを従来の確立された手法と統合することは困難である。 本稿では,学習内容から知識コンポーネントを自動的に抽出する手法を提案する。 5つのドメインの知識トレースベンチマークに対して総合的に評価することで、このアプローチを検証する。 自動抽出された知識コンポーネントは,人間タグ付きラベルを効果的に置き換え,限られたデータシナリオにおける知的学習システムの強化,教育環境における説明可能な評価の達成,自動評価の基盤となることなどが示唆された。

Knowledge tracing models have enabled a range of intelligent tutoring systems to provide feedback to students. However, existing methods for knowledge tracing in learning sciences are predominantly reliant on statistical data and instructor-defined knowledge components, making it challenging to integrate AI-generated educational content with traditional established methods. We propose a method for automatically extracting knowledge components from educational content using instruction-tuned large multimodal models. We validate this approach by comprehensively evaluating it against knowledge tracing benchmarks in five domains. Our results indicate that the automatically extracted knowledge components can effectively replace human-tagged labels, offering a promising direction for enhancing intelligent tutoring systems in limited-data scenarios, achieving more explainable assessments in educational settings, and laying the groundwork for automated assessment.
翻訳日:2024-10-02 13:07:12 公開日:2024-09-30
# 高度差画像を利用した注釈なしカーブ検出

Annotation-Free Curb Detection Leveraging Altitude Difference Image ( http://arxiv.org/abs/2409.20171v1 )

ライセンス: Link先を確認
Fulong Ma, Peng Hou, Yuxuan Liu, Ming Liu, Jun Ma, (参考訳) 道路封鎖は、自動運転車の安全確保に不可欠である、重要かつユビキタスな交通特徴の1つと考えられている。 縁石検出の現在の方法は、主にカメラ画像やLiDAR点雲に依存している。 画像ベースの手法は照明条件の変動に対して脆弱であり、ロバスト性は低いが、点雲に基づく手法では照明の変動に伴う問題を回避できる。 しかし、点雲データの各フレームに含まれる3Dポイントの発光量により、処理遅延が著しく発生するのが典型例である。 さらに、ポイントクラウドの本質的に非構造的な特徴は、最新のディープラーニングの進歩をポイントクラウドデータアプリケーションに統合する上での課題を引き起こします。 これらの課題に対処するために、上記の課題を効果的に軽減する、Altitude Difference Image (ADI) を利用したアノテーションのないストレッチ検出手法を提案する。 ディープラーニングに基づく手法は一般的に手動で注釈付きデータセットを必要とするが、これは高価で作業集約的なものであるため、自動カーブアノテーション(ACA)モジュールを提示する。 このモジュールは、決定論的ストレッチ検出アルゴリズムを使用して、大量のトレーニングデータを自動生成する。 これにより、データの手動アノテーションを必要とせずに、ストレッチ検出モデルのトレーニングが容易になる。 最後に, 後処理モジュールを組み込むことで, KITTI 3Dスレッチデータセットの処理遅延を大幅に低減し, 検出タスクの抑制に対するアプローチの有効性を実証する。

Road curbs are considered as one of the crucial and ubiquitous traffic features, which are essential for ensuring the safety of autonomous vehicles. Current methods for detecting curbs primarily rely on camera imagery or LiDAR point clouds. Image-based methods are vulnerable to fluctuations in lighting conditions and exhibit poor robustness, while methods based on point clouds circumvent the issues associated with lighting variations. However, it is the typical case that significant processing delays are encountered due to the voluminous amount of 3D points contained in each frame of the point cloud data. Furthermore, the inherently unstructured characteristics of point clouds poses challenges for integrating the latest deep learning advancements into point cloud data applications. To address these issues, this work proposes an annotation-free curb detection method leveraging Altitude Difference Image (ADI), which effectively mitigates the aforementioned challenges. Given that methods based on deep learning generally demand extensive, manually annotated datasets, which are both expensive and labor-intensive to create, we present an Automatic Curb Annotator (ACA) module. This module utilizes a deterministic curb detection algorithm to automatically generate a vast quantity of training data. Consequently, it facilitates the training of the curb detection model without necessitating any manual annotation of data. Finally, by incorporating a post-processing module, we manage to achieve state-of-the-art results on the KITTI 3D curb dataset with considerably reduced processing delays compared to existing methods, which underscores the effectiveness of our approach in curb detection tasks.
翻訳日:2024-10-02 13:07:12 公開日:2024-09-30
# ILeSiA:カメラ入力による状況認識のインタラクティブ学習

ILeSiA: Interactive Learning of Situational Awareness from Camera Input ( http://arxiv.org/abs/2409.20173v1 )

ライセンス: Link先を確認
Petr Vanc, Giovanni Franzese, Jan Kristof Behrens, Cosimo Della Santina, Karla Stepanova, Jens Kober, (参考訳) デモから学ぶことは、ロボットに新しいスキルを教えるための有望な方法だ。 しかし、獲得したスキルを実行する際の中心的な問題は、リスクと失敗を認識することである。 デモは通常、ほとんど成功したケースのみをカバーするため、これは必須である。 実行中の必然的なエラーは、デモでは明らかでない特定の反応を必要とする。 本稿では,自律的なスキル実行を安全あるいは危険とみなすスパースなラベル付けによる,最初のスキルデモンストレーションからロボットの状況認識を教えることに焦点を当てる。 実行時に、ILeSiAと呼ばれるシステムは、認識されたカメラ画像に基づいて、画像を低次元の潜在空間表現に符号化し、符号化と提供されたラベルに基づいて分類器を訓練することにより、リスクを検出する。 このようにして、ILeSiAはロボットスキルの実行の信頼性と安全性を高める。 実験により,少数のユーザ提供データだけで訓練された分類器が,多数のリスクを検知できることが実証された。 リスクケースはデータのラベル付けによって定義されるので、システムは柔軟です。 これはまた、リスクが人間の監督官によって特定されたら、ラベルを追加できることを意味している。 我々は、Imtrob.ciirc.cvut.cz/publications/ilesiaでの実験を再現するために必要なすべてのコードとデータを提供します。

Learning from demonstration is a promising way of teaching robots new skills. However, a central problem when executing acquired skills is to recognize risks and failures. This is essential since the demonstrations usually cover only a few mostly successful cases. Inevitable errors during execution require specific reactions that were not apparent in the demonstrations. In this paper, we focus on teaching the robot situational awareness from an initial skill demonstration via kinesthetic teaching and sparse labeling of autonomous skill executions as safe or risky. At runtime, our system, called ILeSiA, detects risks based on the perceived camera images by encoding the images into a low-dimensional latent space representation and training a classifier based on the encoding and the provided labels. In this way, ILeSiA boosts the confidence and safety with which robotic skills can be executed. Our experiments demonstrate that classifiers, trained with only a small amount of user-provided data, can successfully detect numerous risks. The system is flexible because the risk cases are defined by labeling data. This also means that labels can be added as soon as risks are identified by a human supervisor. We provide all code and data required to reproduce our experiments at imitrob.ciirc.cvut.cz/publications/ilesia.
翻訳日:2024-10-02 13:07:12 公開日:2024-09-30
# 緑内障自然発症遺伝子GPT-2のモデル的プロセオーゼ認知

Modelando procesos cognitivos de la lectura natural con GPT-2 ( http://arxiv.org/abs/2409.20174v1 )

ライセンス: Link先を確認
Bruno Bianchi, Alfredo Umfurer, Juan Esteban Kamienkowski, (参考訳) 自然言語処理分野の進歩により、テキストを生成する能力に優れた言語モデルの開発が可能になった。 近年、神経科学は認知過程をよりよく理解するためにこれらのモデルを用いてきた。 過去の研究では、NgramやLSTMネットワークのようなモデルが、読者の眼球運動を説明するための共変量として使用する場合、予測可能性の一部をモデル化できることが判明した。 本研究は, GPT-2に基づくモデルを用いて, この研究の行を更に進めるものである。 その結果,従来のアーキテクチャよりも優れた結果が得られた。

The advancement of the Natural Language Processing field has enabled the development of language models with a great capacity for generating text. In recent years, Neuroscience has been using these models to better understand cognitive processes. In previous studies, we found that models like Ngrams and LSTM networks can partially model Predictability when used as a co-variable to explain readers' eye movements. In the present work, we further this line of research by using GPT-2 based models. The results show that this architecture achieves better outcomes than its predecessors.
翻訳日:2024-10-02 13:07:12 公開日:2024-09-30
# Ensemble Kalman Diffusion Guidance: 逆問題に対する導出的自由解法

Ensemble Kalman Diffusion Guidance: A Derivative-free Method for Inverse Problems ( http://arxiv.org/abs/2409.20175v1 )

ライセンス: Link先を確認
Hongkai Zheng, Wenda Chu, Austin Wang, Nikola Kovachki, Ricardo Baptista, Yisong Yue, (参考訳) 逆問題を解決する際には、プラグ・アンド・プレイの先行として事前学習した拡散モデルを使うことが一般的である。 このフレームワークは、拡散モデルの生成能力を保ちながら、再学習することなく、異なる前方モデルに対応できる。 多くのイメージング逆問題の成功にもかかわらず、既存のほとんどの手法は微分、擬似逆問題、フォワードモデルに関する完全な知識といった特権情報に依存している。 この依存は、多くの科学的応用のように、そのような情報が利用できない幅広い問題において、それらの使用を制限する重大な制限を生じさせる。 この問題を解決するために,拡散モデルに対するEnsemble Kalman Diffusion Guidance (EnKG) を提案する。 本研究では,流体流や天体の科学的設定など,様々な逆問題に対する提案手法の実証的有効性について検討する。

When solving inverse problems, it is increasingly popular to use pre-trained diffusion models as plug-and-play priors. This framework can accommodate different forward models without re-training while preserving the generative capability of diffusion models. Despite their success in many imaging inverse problems, most existing methods rely on privileged information such as derivative, pseudo-inverse, or full knowledge about the forward model. This reliance poses a substantial limitation that restricts their use in a wide range of problems where such information is unavailable, such as in many scientific applications. To address this issue, we propose Ensemble Kalman Diffusion Guidance (EnKG) for diffusion models, a derivative-free approach that can solve inverse problems by only accessing forward model evaluations and a pre-trained diffusion model prior. We study the empirical effectiveness of our method across various inverse problems, including scientific settings such as inferring fluid flows and astronomical objects, which are highly non-linear inverse problems that often only permit black-box access to the forward model.
翻訳日:2024-10-02 13:07:12 公開日:2024-09-30
# マルチモーダル表現学習による肺癌の生存予測

Survival Prediction in Lung Cancer through Multi-Modal Representation Learning ( http://arxiv.org/abs/2409.20179v1 )

ライセンス: Link先を確認
Aiman Farooq, Deepak Mishra, Santanu Chaudhury, (参考訳) 生存予測は、がんの診断と治療計画にかかわる重要な課題である。 本稿では,CTとPETの包括的情報と関連するゲノムデータを用いた生存予測手法を提案する。 現在の方法は、単一のモダリティまたは複数のモダリティの統合のいずれかに依存しており、患者やモダリティ間の関連を適切に解決しない。 我々は,患者とモダリティの関連性を考慮しつつ,遺伝子情報とマルチモーダルイメージングデータを統合することにより,生存率の堅牢な予測モデルを開発することを目的とする。 我々は,自己監督モジュールを通じて各モダリティの表現を学習し,患者間のセマンティックな類似性を利用して,埋め込みが密に整合していることを確認する。 しかし、腫瘍型のような同様の高レベルな意味論を共有する多くのペアが、埋め込み空間において不注意に分割されるため、グローバルな関連性のみを最適化するのは不十分である。 この問題に対処するために、対象間の対応を利用するために、クロス患者モジュール(CPM)を用いる。 CPMモジュールは、類似した疾患の特徴を持つ患者からの埋め込みをまとめることを目的としている。 NSCLC (Non-Small Cell Lung Cancer) 患者のデータセットを実験的に評価した結果, 生存率の予測, 最先端の方法よりも高い結果が得られた。

Survival prediction is a crucial task associated with cancer diagnosis and treatment planning. This paper presents a novel approach to survival prediction by harnessing comprehensive information from CT and PET scans, along with associated Genomic data. Current methods rely on either a single modality or the integration of multiple modalities for prediction without adequately addressing associations across patients or modalities. We aim to develop a robust predictive model for survival outcomes by integrating multi-modal imaging data with genetic information while accounting for associations across patients and modalities. We learn representations for each modality via a self-supervised module and harness the semantic similarities across the patients to ensure the embeddings are aligned closely. However, optimizing solely for global relevance is inadequate, as many pairs sharing similar high-level semantics, such as tumor type, are inadvertently pushed apart in the embedding space. To address this issue, we use a cross-patient module (CPM) designed to harness inter-subject correspondences. The CPM module aims to bring together embeddings from patients with similar disease characteristics. Our experimental evaluation of the dataset of Non-Small Cell Lung Cancer (NSCLC) patients demonstrates the effectiveness of our approach in predicting survival outcomes, outperforming state-of-the-art methods.
翻訳日:2024-10-02 13:07:12 公開日:2024-09-30
# 参照可能な復号化:大規模言語モデルのためのトレーニング不要拡張パラダイム

Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models ( http://arxiv.org/abs/2409.20181v1 )

ライセンス: Link先を確認
Luohe Shi, Yao Yao, Zuchao Li, Lefei Zhang, Hai Zhao, (参考訳) 大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) とパラメータ効率の良いファインチューニング (PEFT) は、現在、下流タスクにLLMを増強する2つの主要な方法である。 ICLは、手動またはRAG(Retrieval-Augmented Generation)システムを設定することで、モデルパラメータを変更することなく、モデルがドメインの知識や質問応答パターンを素早く把握できるようにする。 しかし、このアプローチには、推論速度の遅さや空間占有率の増加といったトレードオフが伴う。 PEFTは最小限のパラメータ修正によってタスクに適応するモデルを支援するが、トレーニングプロセスは少数のパラメータを伴っても高いハードウェア要件を必要とする。 これらの課題に対処するために、モデルが細調整せずに新しいタスクに迅速に適応し、推論コストを低く抑えるためのパラダイムであるReference Trustable Decoding (RTD)を提案する。 RTDは、提供されるトレーニング例から参照データストアを構築し、入力に基づいて適切な参照を柔軟に選択することで、LLMの最終語彙分布を最適化する。 様々なベンチマークを用いたLLMの実験的評価は、RTDが下流タスクにモデルを拡張するための新しいパラダイムを確立していることを示している。 さらに,本手法は従来の手法と強い直交性を示し,同時使用が可能となった。

Large language models (LLMs) have rapidly advanced and demonstrated impressive capabilities. In-Context Learning (ICL) and Parameter-Efficient Fine-Tuning (PEFT) are currently two mainstream methods for augmenting LLMs to downstream tasks. ICL typically constructs a few-shot learning scenario, either manually or by setting up a Retrieval-Augmented Generation (RAG) system, helping models quickly grasp domain knowledge or question-answering patterns without changing model parameters. However, this approach involves trade-offs, such as slower inference speed and increased space occupancy. PEFT assists the model in adapting to tasks through minimal parameter modifications, but the training process still demands high hardware requirements, even with a small number of parameters involved. To address these challenges, we propose Reference Trustable Decoding (RTD), a paradigm that allows models to quickly adapt to new tasks without fine-tuning, maintaining low inference costs. RTD constructs a reference datastore from the provided training examples and optimizes the LLM's final vocabulary distribution by flexibly selecting suitable references based on the input, resulting in more trustable responses and enabling the model to adapt to downstream tasks at a low cost. Experimental evaluations on various LLMs using different benchmarks demonstrate that RTD establishes a new paradigm for augmenting models to downstream tasks. Furthermore, our method exhibits strong orthogonality with traditional methods, allowing for concurrent usage.
翻訳日:2024-10-02 13:07:12 公開日:2024-09-30
# プライベート情報検索と機能ブートストラップの量子高速実装

Quantum Fast Implementation of Private Information Retrieval and Functional Bootstrapping ( http://arxiv.org/abs/2409.20182v1 )

ライセンス: Link先を確認
Guangsheng Ma, Hongbo Li, (参考訳) 量子計算により、様々な分野の効率とセキュリティが向上した。 1つの量子サーバと、完全に古典的なクライアントしか持たない、短期的なハイブリッドクラウドコンピューティングのシナリオでは、プライバシ保護計算における重要なボトルネックに対処できることが示されている。 まず,古典的アルゴリズムに対する指数的量子スピードアップを提供する,平文サイズで実行時多項式を持つ効率的な量子関数型ブートストラッピングアルゴリズムを提案する。 第2に、対数クエリ時間を持つセキュアで高速な量子プライベート情報検索プロトコルを提案する。 このセキュリティは多項式係数による誤り(LWE)の学習に依存し、超多項式係数を持つ環LWEに基づく古典的高速PIRプロトコルのセキュリティを大幅に改善する。 技術的には、ブラインドローテーションとして知られる重要な古典的準同型演算を、暗号化された条件付き回転法により量子ケースに拡張する。 この技術は量子暗号の幅広い応用を約束する。

Quantum computation has found greater efficiency and security across various fields. We show that, in a near-term hybrid cloud computing scenario with only one single quantum server and an entirely classical client, critical bottlenecks in privacy-preserving computation can be addressed. First, we propose an efficient quantum functional bootstrapping algorithm with a runtime polynomial in the plaintext-size, providing an exponential quantum speedup over classical algorithms. Second, we present a secure and fast quantum private information retrieval protocol with logarithmic query time. The security relies on the learning with errors (LWE) problem with polynomial modulus, greatly improving the security of classical fast PIR protocol based on ring-LWE with super-polynomial modulus. Technically, we extend an important classical homomorphic operation, known as blind rotation, to the quantum case by an encrypted conditional rotation technique. This technique holds promise for broader applications in quantum cryptography.
翻訳日:2024-10-02 13:07:12 公開日:2024-09-30
# 安定化状態の局所同値性:図形的特徴化

Local equivalence of stabilizer states: a graphical characterisation ( http://arxiv.org/abs/2409.20183v1 )

ライセンス: Link先を確認
Nathan Claudet, Simon Perdrix, (参考訳) 安定化剤状態は、グラフ状態形式を通してグラフィカルに表現できる量子状態のユビキタス族を形成する。 グラフ状態の基本的な性質は、局所補完(よく知られ、広く研究されているグラフ変換)を適用すると、元と同じ絡み合いを表すグラフが得られることである。 言い換えれば、対応するグラフ状態はLU同値である。 この性質は、単純なグラフィカルな方法で非自明な量子特性を捉え、量子絡み合いの研究だけでなく、測定ベースの量子コンピューティング、秘密共有、エラー訂正、絡み合い分布などのグラフ状態と安定化状態に基づくプロトコルやモデルの開発にも役立った。 しかし、局所補間は絡み合いを完全に特徴づけるに足りず、LU同値であるが、局所補間により一方を他方に変換することができないグラフ状態のペアが存在する。 局所補間を超えたグラフ状態の同値性については、ごくわずかしか知られていない。 グラフ状態のLU同値性をグラフィカルに特徴付ける局所補完の一般化を導入する。 この特徴付けを用いて、グラフ状態の同値性の厳密な無限階層の存在を示す。 我々のアプローチは最小限の局所集合に基づいており、これは任意のグラフをカバーすることが知られている頂点の部分集合であり、局所補完やLU同値さえも不変である。 これらの構造を用いてグラフの各頂点に型を与えることにより、LU同値が一般化された局所補間によって表現され、キャプチャされるような自然な標準形式へと導かれる。

Stabilizer states form a ubiquitous family of quantum states that can be graphically represented through the graph state formalism. A fundamental property of graph states is that applying a local complementation - a well-known and extensively studied graph transformation - results in a graph that represents the same entanglement as the original. In other words, the corresponding graph states are LU-equivalent. This property served as the cornerstone for capturing non-trivial quantum properties in a simple graphical manner, in the study of quantum entanglement but also for developing protocols and models based on graph states and stabilizer states, such as measurement-based quantum computing, secret sharing, error correction, entanglement distribution... However, local complementation fails short to fully characterise entanglement: there exist pairs of graph states that are LU-equivalent but cannot be transformed one into the other using local complementations. Only few is known about the equivalence of graph states beyond local complementation. We introduce a generalization of local complementation which graphically characterises the LU-equivalence of graph states. We use this characterisation to show the existence of a strict infinite hierarchy of equivalences of graph states. Our approach is based on minimal local sets, which are subsets of vertices that are known to cover any graph, and to be invariant under local complementation and even LU-equivalence. We use these structures to provide a type to each vertex of a graph, leading to a natural standard form in which the LU-equivalence can be exhibited and captured by means of generalised local complementation.
翻訳日:2024-10-02 13:07:12 公開日:2024-09-30
# マルコフと最小エッジ数を用いたDAGモデルの選択

Choosing DAG Models Using Markov and Minimal Edge Count in the Absence of Ground Truth ( http://arxiv.org/abs/2409.20187v1 )

ライセンス: Link先を確認
Joseph D. Ramsey, Bryan Andrews, Peter Spirtes, (参考訳) 我々は、有向非巡回グラフ(DAG)モデルや、データセットを与えられた部分有向非巡回グラフ(CPDAG)モデルに対するマルコフ条件の新しい非パラメトリックな点整合統計テスト(マルコフチェッカー)を行う。 また,マルコフチェッカーテストに合格しないか,エッジ最小限でないDAGモデルに対して,Cross-Algorithm Frugality Search (CAFS)を導入する。 エッジ最小度は以前、Raskutti と Uhler によって非パラメトリックな単純度基準として用いられてきたが、CAFS は他の単純度条件に容易に一般化できる。 基底的真理への参照はCAFSには必要ないため、因果的構造学習アルゴリズムや、与えられたデータセットからほぼ真である因果的モデルを出力するチューニングパラメータ設定を見つけるのに有用である。 我々は、条件付き独立性の高速な一貫したテストが利用可能であれば、非常に大きなモデルや密度の高いモデルにも適する、この分析のためのソフトウェアツールを提供する。 さらに,CAFS法は基礎的事実を知らずにほぼ正しいモデルを選択することができることを示す。

We give a novel nonparametric pointwise consistent statistical test (the Markov Checker) of the Markov condition for directed acyclic graph (DAG) or completed partially directed acyclic graph (CPDAG) models given a dataset. We also introduce the Cross-Algorithm Frugality Search (CAFS) for rejecting DAG models that either do not pass the Markov Checker test or that are not edge minimal. Edge minimality has been used previously by Raskutti and Uhler as a nonparametric simplicity criterion, though CAFS readily generalizes to other simplicity conditions. Reference to the ground truth is not necessary for CAFS, so it is useful for finding causal structure learning algorithms and tuning parameter settings that output causal models that are approximately true from a given data set. We provide a software tool for this analysis that is suitable for even quite large or dense models, provided a suitably fast pointwise consistent test of conditional independence is available. In addition, we show in simulation that the CAFS procedure can pick approximately correct models without knowing the ground truth.
翻訳日:2024-10-02 13:07:12 公開日:2024-09-30
# Taskcomplexity: In-Context Learning, FLAN-T5, GPT-4oベンチマークを用いたタスク複雑度分類用データセット

TaskComplexity: A Dataset for Task Complexity Classification with In-Context Learning, FLAN-T5 and GPT-4o Benchmarks ( http://arxiv.org/abs/2409.20189v1 )

ライセンス: Link先を確認
Areeg Fahad Rasheed, M. Zarkoosh, Safa F. Abbas, Sana Sabah Al-Azzawi, (参考訳) 本稿では,プログラムタスクを専門家に分類・割り当てするという課題に対処する。 この問題に対処するために、様々なウェブサイトからタスクを抽出し、合計4,112のプログラミングタスクを含む新しいデータセットが作成された。 Webスクレイピング技術は、このプログラム問題のデータセットを体系的に収集するために用いられた。 タイトル、問題記述、インプットアウトプット、例、問題クラス、複雑性スコアなど、各問題の主要な要素を抽出するために、特定のHTMLタグが追跡された。 データセットの例は、付属するタスクの多様性と複雑さを説明するために、付録で提供されている。 データセットの有効性は、データセット上でFLAN-T5の小さなモデルを微調整する第一のアプローチと、GPT-4o miniでテキスト内学習(ICL)を使用する第二のアプローチの2つのアプローチで評価され、ベンチマークされている。 パフォーマンスは、精度、リコール、精度、F1スコアといった標準メトリクスを使用して評価された。 その結果, GPT-4o-miniを用いたインコンテクスト学習はFLAN-T5モデルより優れていた。

This paper addresses the challenge of classifying and assigning programming tasks to experts, a process that typically requires significant effort, time, and cost. To tackle this issue, a novel dataset containing a total of 4,112 programming tasks was created by extracting tasks from various websites. Web scraping techniques were employed to collect this dataset of programming problems systematically. Specific HTML tags were tracked to extract key elements of each issue, including the title, problem description, input-output, examples, problem class, and complexity score. Examples from the dataset are provided in the appendix to illustrate the variety and complexity of tasks included. The dataset's effectiveness has been evaluated and benchmarked using two approaches; the first approach involved fine-tuning the FLAN-T5 small model on the dataset, while the second approach used in-context learning (ICL) with the GPT-4o mini. The performance was assessed using standard metrics: accuracy, recall, precision, and F1-score. The results indicated that in-context learning with GPT-4o-mini outperformed the FLAN-T5 model.
翻訳日:2024-10-02 13:07:12 公開日:2024-09-30
# 知識共有のための認知アシスタントに関するファクトリ・オペレーターの視点--課題,リスク,作業への影響

Factory Operators' Perspectives on Cognitive Assistants for Knowledge Sharing: Challenges, Risks, and Impact on Work ( http://arxiv.org/abs/2409.20192v1 )

ライセンス: Link先を確認
Samuel Kernan Freire, Tianhao He, Chaofan Wang, Evangelos Niforatos, Alessandro Bozzon, (参考訳) 2年間の縦断調査では,工場における認知アシスタント(CA)の展開が現実に与える影響について検討した。 CAは工場運営者間の知識共有を容易にするように設計された。 我々はスマートフォンベースの音声アシスタントとLLMを利用したチャットボットに焦点をあて、実世界の工場環境でのユーザビリティと実用性について検討した。 工場におけるCAの展開中に収集した質的なフィードバックに基づいて,ワークフローと知識の共有に対する認識,課題,および全体的な影響について,テーマ分析を行った。 以上の結果から,CAは知識共有と生産問題の迅速な解決を通じて,効率を著しく向上させる可能性がある一方で,職場の監視,共有可能な知識の種類,人間と人間の知識の共有に比較して欠点を生じさせる可能性が示唆された。 さらに,我々は,プライバシ,知識提供の負担,工場運営者とその管理者間の緊張感に対処することの重要性を強調した。

In the shift towards human-centered manufacturing, our two-year longitudinal study investigates the real-world impact of deploying Cognitive Assistants (CAs) in factories. The CAs were designed to facilitate knowledge sharing among factory operators. Our investigation focused on smartphone-based voice assistants and LLM-powered chatbots, examining their usability and utility in a real-world factory setting. Based on the qualitative feedback we collected during the deployments of CAs at the factories, we conducted a thematic analysis to investigate the perceptions, challenges, and overall impact on workflow and knowledge sharing. Our results indicate that while CAs have the potential to significantly improve efficiency through knowledge sharing and quicker resolution of production issues, they also introduce concerns around workplace surveillance, the types of knowledge that can be shared, and shortcomings compared to human-to-human knowledge sharing. Additionally, our findings stress the importance of addressing privacy, knowledge contribution burdens, and tensions between factory operators and their managers.
翻訳日:2024-10-02 13:07:12 公開日:2024-09-30
# 縦隔網膜OCTにおける平行超平面による予測疾患の進展

Forecasting Disease Progression with Parallel Hyperplanes in Longitudinal Retinal OCT ( http://arxiv.org/abs/2409.20195v1 )

ライセンス: Link先を確認
Arunava Chakravarty, Taha Emre, Dmitrii Lachinov, Antoine Rivail, Hendrik Scholl, Lars Fritsche, Sobha Sivaprasad, Daniel Rueckert, Andrew Lotery, Ursula Schmidt-Erfurth, Hrvoje Bogunović, (参考訳) 医用画像から将来の疾患進行リスクを予測することは、患者の異質性、微妙または未知の画像バイオマーカーにより困難である。 さらに、生存分析のためのディープラーニング(DL)手法は、スキャナー間の画像領域シフトの影響を受けやすい。 我々は、網膜CTスキャンによる乾燥後期黄斑変性(dAMD)の発症を予測するための課題として、これらの課題に取り組む。 本稿では,現在スキャンされているリスクスコアから,時間と変換の逆関係と,時間間隔$t$での変換確率を共同で予測する新たなDL手法を提案する。 これは、バイアス項を$t$の関数としてパラメータ化することによって生成される平行超平面の族を用いる。 さらに,オブジェクト内画像ペアによる教師なしの損失を発生させ,リスクスコアが時間とともに増加し,将来的なコンバージョン予測がAMDステージ予測と一致していることを確認する。 このような損失は、異なるスキャナーで取得した新しいラベル付きデータセット上で、トレーニングされたモデルのデータ効率の細かい調整を可能にする。 異なるスキャナーで得られた2つの大きなデータセットの大規模な評価の結果、平均AUROCはDataset-1で0.82、Dataset-2で0.83、予測間隔は6,12,24ヶ月となった。

Predicting future disease progression risk from medical images is challenging due to patient heterogeneity, and subtle or unknown imaging biomarkers. Moreover, deep learning (DL) methods for survival analysis are susceptible to image domain shifts across scanners. We tackle these issues in the task of predicting late dry Age-related Macular Degeneration (dAMD) onset from retinal OCT scans. We propose a novel DL method for survival prediction to jointly predict from the current scan a risk score, inversely related to time-to-conversion, and the probability of conversion within a time interval $t$. It uses a family of parallel hyperplanes generated by parameterizing the bias term as a function of $t$. In addition, we develop unsupervised losses based on intra-subject image pairs to ensure that risk scores increase over time and that future conversion predictions are consistent with AMD stage prediction using actual scans of future visits. Such losses enable data-efficient fine-tuning of the trained model on new unlabeled datasets acquired with a different scanner. Extensive evaluation on two large datasets acquired with different scanners resulted in a mean AUROCs of 0.82 for Dataset-1 and 0.83 for Dataset-2, across prediction intervals of 6,12 and 24 months.
翻訳日:2024-10-02 13:07:12 公開日:2024-09-30
# 音楽のジェネレーションに必要なメロディー

Melody Is All You Need For Music Generation ( http://arxiv.org/abs/2409.20196v1 )

ライセンス: Link先を確認
Shaopeng Wei, Manzhen Wei, Haoyu Wang, Yu Zhao, Gang Kou, (参考訳) 我々は,メロディによる楽曲生成を誘導する最初の新しいアプローチであるメロディガイド音楽生成(MMGen)モデルを提案する。 具体的には、まずメロディを、マルチモーダルアライメントモジュールを用いて、音声波形とその関連する記述と整列する。 その後、学習したメロディ表現に拡散モジュールを条件づける。 これによりMMGenは提供された音声のスタイルに合わせて音楽を生成すると同時に、与えられたテキスト記述の内容を反映した音楽を生成することができる。 高品質なデータの不足に対処するため、メロディ、テキスト、オーディオを含むマルチモーダルデータセットであるMusicSetを構築し、公開します。 本研究では,実験指標と実性能の両面において,提案モデルの優位性を実証する広範囲な実験を行う。

We present the Melody Guided Music Generation (MMGen) model, the first novel approach using melody to guide the music generation that, despite a pretty simple method and extremely limited resources, achieves excellent performance. Specifically, we first align the melody with audio waveforms and their associated descriptions using the multimodal alignment module. Subsequently, we condition the diffusion module on the learned melody representations. This allows MMGen to generate music that matches the style of the provided audio while also producing music that reflects the content of the given text description. To address the scarcity of high-quality data, we construct a multi-modal dataset, MusicSet, which includes melody, text, and audio, and will be made publicly available. We conduct extensive experiments which demonstrate the superiority of the proposed model both in terms of experimental metrics and actual performance quality.
翻訳日:2024-10-02 13:07:12 公開日:2024-09-30
# UIR-LoRA:マルチローランド適応によるユニバーサルイメージ復元の実現

UIR-LoRA: Achieving Universal Image Restoration through Multiple Low-Rank Adaptation ( http://arxiv.org/abs/2409.20197v1 )

ライセンス: Link先を確認
Cheng Zhang, Dong Gong, Jiumei He, Yu Zhu, Jinqiu Sun, Yanning Zhang, (参考訳) 既存の統一的な手法は、一般的にマルチタスク学習問題として、多段劣化画像復元を扱う。 単一劣化復旧法と比較して効果的に機能するにもかかわらず、マルチタスク復元における共通点と特異点の利用を見落とし、モデルの性能を損なう。 深層生成モデルと微調整技術の成功に触発されて,マルチドメイン転送学習からローランクアダプタ(LoRA)を多元化して画像復元を行う手法を提案する。 筆者らのフレームワークは,事前学習した生成モデルを多段劣化復元の共有コンポーネントとして利用し,低ランク適応を用いた特定の劣化画像復元タスクに転送する。 さらに, 学習したLoRAを適応的に組み合わせ, 混合劣化修復に適用可能な, 分解類似性に基づくLoRA合成戦略を導入する。 多重・混合劣化に関する広範囲な実験により,提案手法は高忠実度・知覚的画質を実現するだけでなく,他の統一画像復元モデルよりも優れた一般化能力を有することが示された。 私たちのコードはhttps://github.com/Justones/UIR-LoRAで利用可能です。

Existing unified methods typically treat multi-degradation image restoration as a multi-task learning problem. Despite performing effectively compared to single degradation restoration methods, they overlook the utilization of commonalities and specificities within multi-task restoration, thereby impeding the model's performance. Inspired by the success of deep generative models and fine-tuning techniques, we proposed a universal image restoration framework based on multiple low-rank adapters (LoRA) from multi-domain transfer learning. Our framework leverages the pre-trained generative model as the shared component for multi-degradation restoration and transfers it to specific degradation image restoration tasks using low-rank adaptation. Additionally, we introduce a LoRA composing strategy based on the degradation similarity, which adaptively combines trained LoRAs and enables our model to be applicable for mixed degradation restoration. Extensive experiments on multiple and mixed degradations demonstrate that the proposed universal image restoration method not only achieves higher fidelity and perceptual image quality but also has better generalization ability than other unified image restoration models. Our code is available at https://github.com/Justones/UIR-LoRA.
翻訳日:2024-10-02 12:56:53 公開日:2024-09-30
# AfriHuBERT:アフリカ言語のための自己教師型音声表現モデル

AfriHuBERT: A self-supervised speech representation model for African languages ( http://arxiv.org/abs/2409.20201v1 )

ライセンス: Link先を確認
Jesujoba O. Alabi, Xuechen Liu, Dietrich Klakow, Junichi Yamagishi, (参考訳) 本稿では,mHuBERT-147の拡張であるAfriHuBERTについて述べる。 mHuBERT-147は16のアフリカ言語で事前訓練されているが、新たに23の言語を含む様々なソースから収集された6500時間以上の音声データを事前訓練することで、39のアフリカ言語をカバーするように拡張した。 我々は、FLEURSデータセットを用いて、言語識別(LID)と自動音声認識(ASR)の2つの主要な音声タスクについてAfriHuBERTを評価する。 その結果, LID の平均 F1 スコアは 4% 向上し, ASR の平均 Word Error Rate (WER) は -1.2% 低下した。 さらに分析したところ、AfriHuBERTでトレーニングされたASRモデルでは、クロスコーパスの一般化が改善された。 さらにこの分析は、FLEURSが低リソースのアフリカの言語を評価するのに適したデータ品質に制限があることを示し、これらの言語のより良い評価ベンチマークの必要性を示唆している。

In this work, we present AfriHuBERT, an extension of mHuBERT-147, a state-of-the-art (SOTA) and compact self-supervised learning (SSL) model, originally pretrained on 147 languages. While mHuBERT-147 was pretrained on 16 African languages, we expand this to cover 39 African languages through continued pretraining on 6,500+ hours of speech data aggregated from diverse sources, including 23 newly added languages. We evaluate AfriHuBERT on two key speech tasks: Language Identification (LID) and Automatic Speech Recognition (ASR) using FLEURS dataset. Our results show a +4% F1 score improvement on average for LID and a -1.2% average Word Error Rate (WER) reduction for ASR. Further analysis shows that ASR models trained on AfriHuBERT exhibit improved cross-corpus generalization. Additionally, the analysis indicates that the FLEURS have data quality limitations that may affect their suitability for evaluating low-resource African languages, suggesting the need for better evaluation benchmarks for these languages.
翻訳日:2024-10-02 12:56:53 公開日:2024-09-30
# ボソニックジョセフソン接合を用いた微小加速度の評価

Assessing small accelerations using a bosonic Josephson junction ( http://arxiv.org/abs/2409.20203v1 )

ライセンス: Link先を確認
Rhombik Roy, Ofir E. Alon, (参考訳) ボソニック・ジョセフソン接合は、超低温原子系の量子トンネルとコヒーレンス現象を探索するための汎用的なプラットフォームを提供する。 様々なダブルウェル構成におけるジョセフソン接合のダイナミクスについて広範な研究が行われてきたが、ほとんどの研究は慣性参照フレームに限られている。 本研究では,非慣性参照フレームにジョセフソン接合を配置することは量子トンネルにどのような影響を与えるのかという疑問を提起した。 ヨーゼフソン接合の加速はトンネル力学を変化させることを示す。 逆に、トンネルの挙動はシステムの加速を評価するのに利用できる。 物理特性の変化を解析することにより、二重井戸の加速を評価することができる。 まず、最も単純な非慣性フレーム、すなわち一定加速度で動くことから始める。 トンネル時間は加速が増加するにつれて指数関数的に減少し、より大きな加速を測定するのに有効である。 しかし、加速度を小さくするためには、正確な評価には多体劣化の考慮が必要であり、加速が増加するにつれて直線的に減少する。 次に、加速度が時間に依存するより複雑なシナリオについて検討する。 この場合、加速はトンネル時間と枯渇時間にマッピングされ、再び加速の予測器として機能する。 さらに, トンネル力学の変化を, 一定の加速度あるいはゼロ加速度から逸脱した場合の詳細な解析を行った。 定量的解析により、劣化は定数加速度付近で指数関数的に変化する一方、ゼロ加速度付近では多項式パターンに従って変化することが示されている。 全体として、トンネリングプロセス、および平均場および多体特性が、複雑さを増大させる非慣性システムでどのように進化するかを定量化する。

Bosonic Josephson junctions provide a versatile platform for exploring quantum tunneling and coherence phenomena in ultracold atomic systems. While extensive research has examined the Josephson-junction dynamics in various double-well configurations, most studies have been limited to inertial reference frames. In the present work, we posed the question how placing a Josephson junction in a non-inertial reference frame would impact the quantum tunnelling. Our findings demonstrate that accelerating a Josephson junction alters the tunneling dynamics. Conversely, tunneling behavior can be used to assess the acceleration of the system. By analyzing the changes in physical properties, we can assess the acceleration of the double-well. We begin with the most simple non-inertial frame: moving with constant acceleration. The tunneling time decreases exponentially as acceleration increases, making it effective for measuring larger accelerations. However, for smaller accelerations, accurate assessment requires accounting for many-body depletion, which decreases linearly as acceleration rises. Next, we explore a more complex scenario where the acceleration is time dependent. In this case, the acceleration is mapped onto the tunneling time period and depletion, which again serve as predictors of acceleration. We go further by conducting a detailed analysis of the change in tunnelling dynamics when the system deviates from constant or zero acceleration. The quantitative analysis show that the depletion changes exponentially near constant acceleration, while around zero acceleration, the change follows a polynomial pattern. All in all, we quantify how the tunneling process, as well as the mean-field and many-body properties, evolve in a non-inertial system of increasing complexity.
翻訳日:2024-10-02 12:56:53 公開日:2024-09-30
# 規律によって分断される? 半自動的アプローチによるオンライン性差別と誤認の定量化に関する体系的文献レビュー

Divided by discipline? A systematic literature review on the quantification of online sexism and misogyny using a semi-automated approach ( http://arxiv.org/abs/2409.20204v1 )

ライセンス: Link先を確認
Aditi Dutta, Susan Banducci, Chico Q. Camargo, (参考訳) 近年では、特にオンラインプラットフォーム上で性差別、軽蔑、ジェンダーベースのヘイトスピーチを検出し、識別するためのいくつかの計算ツールが開発されている。 これらのツールは、社会科学とコンピュータ科学の両方から知識を引き出すことを目的としているが、オンライン性差別や誤用を定量化する研究の現状についてはほとんど分かっていない。 オンライン空間における女性差別に対する懸念の高まりや、性差別と誤認のオンライン顕在化を捉える学際的研究の高まりを考えると、研究の実践とその対策に関する体系的な文献レビューは、時間の必要性である。 主な貢献は3つあります。 i) PRISMAフローチャートにおける選択段階の異なる段階における検索結果を絞り込む半自動的な方法を提案する。 二 オンラインジェンダーベースのヘイトスピーチの定量化と測定に焦点を当てた研究論文の体系的な文献レビューを行い、2012年から2022年までのコンピュータ科学及び社会科学の文献を調査した。 (3)ジェンダーベースのオンラインヘイトスピーチを測定するための機会と課題を同定する。 トピック分析から得られた知見から,性差別研究のテーマとミソジニー研究の分離が示唆された。 根拠に基づくレビューでは、知識ギャップを橋渡しするための学際的アプローチを探究した研究者が使用する様々なアプローチを要約する。 従来の社会科学理論と計算モデルの両方の文献と組み合わせて、使用する方法論の利点と欠点について分析する。 最後に、オンライン性差別と誤認を測定することに特化した今後の研究の課題と機会について論じる。

In recent years, several computational tools have been developed to detect and identify sexism, misogyny, and gender-based hate speech, especially on online platforms. Though these tools intend to draw on knowledge from both social science and computer science, little is known about the current state of research in quantifying online sexism or misogyny. Given the growing concern over the discrimination of women in online spaces and the rise in interdisciplinary research on capturing the online manifestation of sexism and misogyny, a systematic literature review on the research practices and their measures is the need of the hour. We make three main contributions: (i) we present a semi-automated way to narrow down the search results in the different phases of selection stage in the PRISMA flowchart; (ii) we perform a systematic literature review of research papers that focus on the quantification and measurement of online gender-based hate speech, examining literature from computer science and the social sciences from 2012 to 2022; and (iii) we identify the opportunities and challenges for measuring gender-based online hate speech. Our findings from topic analysis suggest a disciplinary divide between the themes of research on sexism/misogyny. With evidence-based review, we summarise the different approaches used by the studies who have explored interdisciplinary approaches to bridge the knowledge gap. Coupled with both the existing literature on social science theories and computational modeling, we provide an analysis of the benefits and shortcomings of the methodologies used. Lastly, we discuss the challenges and opportunities for future research dedicated to measuring online sexism and misogyny.
翻訳日:2024-10-02 12:56:53 公開日:2024-09-30
# SetPINNs:Set-based Physics-informed Neural Networks

SetPINNs: Set-based Physics-informed Neural Networks ( http://arxiv.org/abs/2409.20206v1 )

ライセンス: Link先を確認
Mayank Nagda, Phil Ostheimer, Thomas Specht, Frank Rhein, Fabian Jirasek, Marius Kloft, Sophie Fellenz, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、ディープラーニングを用いて偏微分方程式(PDE)の解を近似する有望な方法として登場した。 しかし、PINNは多層パーセプトロン(MLP)に基づいており、時間的または空間的依存関係のような物理的システム内の暗黙的な依存関係を見越して、ポイントワイズ予測を用いることが多い。 これらの依存関係は、CNNやTransformerなど、より複雑なネットワークアーキテクチャを使ってキャプチャできる。 しかし、これらのアーキテクチャは、そのような制約をこれらのフレームワークに組み込むことの進歩がまだ不足しているため、従来の方法では物理的な制約を組み込むことができない。 ポイントワイズ予測を頼りにすると、しばしば自明な解が得られる。 この制限に対処するために、数値解析の分野から有限要素法に着想を得た新しいアプローチであるSetPINNを提案する。 SetPINNは、物理的システムに固有の依存関係を組み込むと同時に、物理的な制約を組み込むことができる。 彼らは領域のPDE解を正確に近似し、その領域内の複数の隣接点間の固有の依存関係をモデル化する。 実験により,SetPINNは様々な物理システムにおいて優れた一般化性能と精度を示し,既存の手法と比較して,障害モードを緩和し,より高速に収束することを示した。 さらに,2つの実世界の物理システムにおけるSetPINNの有用性を実証する。

Physics-Informed Neural Networks (PINNs) have emerged as a promising method for approximating solutions to partial differential equations (PDEs) using deep learning. However, PINNs, based on multilayer perceptrons (MLP), often employ point-wise predictions, overlooking the implicit dependencies within the physical system such as temporal or spatial dependencies. These dependencies can be captured using more complex network architectures, for example CNNs or Transformers. However, these architectures conventionally do not allow for incorporating physical constraints, as advancements in integrating such constraints within these frameworks are still lacking. Relying on point-wise predictions often results in trivial solutions. To address this limitation, we propose SetPINNs, a novel approach inspired by Finite Elements Methods from the field of Numerical Analysis. SetPINNs allow for incorporating the dependencies inherent in the physical system while at the same time allowing for incorporating the physical constraints. They accurately approximate PDE solutions of a region, thereby modeling the inherent dependencies between multiple neighboring points in that region. Our experiments show that SetPINNs demonstrate superior generalization performance and accuracy across diverse physical systems, showing that they mitigate failure modes and converge faster in comparison to existing approaches. Furthermore, we demonstrate the utility of SetPINNs on two real-world physical systems.
翻訳日:2024-10-02 12:56:53 公開日:2024-09-30
# 異常のない領域による異常検出の抑制

Constraining Anomaly Detection with Anomaly-Free Regions ( http://arxiv.org/abs/2409.20208v1 )

ライセンス: Link先を確認
Maximilian Toller, Hussain Hussain, Roman Kern, Bernhard C. Geiger, (参考訳) 本稿では,異常検出を改善するために,AFR(Anomaly-free Region)の概念を提案する。 AFRはデータ空間内の領域であり、ドメイン知識を介してその内部に異常がないことが知られている。 この領域は任意の数の通常のデータポイントを含むことができ、データ空間のどこにでも存在することができる。 AFR内の推定確率質量は、AFR内の通常のデータポイントの数と一致しなければならない。 この知見に基づいて、我々はAFRを用いたアノマリ検出の基本的な理論基盤と参照実装を提供する。 実験の結果, AFRによる異常検出は, 異常検出の非制約により改善することが確認された。 具体的には、推定されたAFRを装着すると、ランダムな推測に基づく効率的なアルゴリズムが、いくつかの広く使われている手法が克服に苦労する強力なベースラインとなることを示す。 AFRが利用可能なデータセットでは、現在の最先端のパフォーマンスが向上している。

We propose the novel concept of anomaly-free regions (AFR) to improve anomaly detection. An AFR is a region in the data space for which it is known that there are no anomalies inside it, e.g., via domain knowledge. This region can contain any number of normal data points and can be anywhere in the data space. AFRs have the key advantage that they constrain the estimation of the distribution of non-anomalies: The estimated probability mass inside the AFR must be consistent with the number of normal data points inside the AFR. Based on this insight, we provide a solid theoretical foundation and a reference implementation of anomaly detection using AFRs. Our empirical results confirm that anomaly detection constrained via AFRs improves upon unconstrained anomaly detection. Specifically, we show that, when equipped with an estimated AFR, an efficient algorithm based on random guessing becomes a strong baseline that several widely-used methods struggle to overcome. On a dataset with a ground-truth AFR available, the current state of the art is outperformed.
翻訳日:2024-10-02 12:56:53 公開日:2024-09-30
# GAPの考え方: Glimpse-based Active Perceptionは視覚的推論の一般化とサンプル効率を改善する

Mind the GAP: Glimpse-based Active Perception improves generalization and sample efficiency of visual reasoning ( http://arxiv.org/abs/2409.20213v1 )

ライセンス: Link先を確認
Oleh Kolner, Thomas Ortner, Stanisław Woźniak, Angeliki Pantazi, (参考訳) 視覚関係を理解する人間の能力は、AIシステムの能力よりもはるかに優れている。 例えば、AIシステムは2つのオブジェクトが視覚的に同じか異なるかを決定するのに苦労するが、人間は簡単にそれを行うことができる。 能動視覚理論は、視覚関係の学習は、目を動かすことによって物体とその部分を修正する行動に基礎を置いていると仮定する。 特に、対応する眼球運動に関する低次元空間情報を仮説化し、異なる画像部分間の関係の表現を容易にする。 これらの理論に触発されて,Glimpse-based Active Perception (GAP) を備えたシステムを開発した。 重要なことは、画像の異なる部分間の関係を表現するために、グリンプ動作から生じる位置と周囲の視覚的内容を活用することである。 その結果,GAPは即時的な視覚内容を超えた視覚関係の抽出に不可欠であることが示唆された。 提案手法は,複数の視覚的推論タスクにおいて,よりサンプリング効率が高く,従来のモデルよりも分布外視覚入力に優れる。

Human capabilities in understanding visual relations are far superior to those of AI systems, especially for previously unseen objects. For example, while AI systems struggle to determine whether two such objects are visually the same or different, humans can do so with ease. Active vision theories postulate that the learning of visual relations is grounded in actions that we take to fixate objects and their parts by moving our eyes. In particular, the low-dimensional spatial information about the corresponding eye movements is hypothesized to facilitate the representation of relations between different image parts. Inspired by these theories, we develop a system equipped with a novel Glimpse-based Active Perception (GAP) that sequentially glimpses at the most salient regions of the input image and processes them at high resolution. Importantly, our system leverages the locations stemming from the glimpsing actions, along with the visual content around them, to represent relations between different parts of the image. The results suggest that the GAP is essential for extracting visual relations that go beyond the immediate visual content. Our approach reaches state-of-the-art performance on several visual reasoning tasks being more sample-efficient, and generalizing better to out-of-distribution visual inputs than prior models.
翻訳日:2024-10-02 12:56:53 公開日:2024-09-30
# ニュートリノ振動の位相空間法:マルチビームへの拡張

Phase-Space methods for neutrino oscillations: extension to multi-beams ( http://arxiv.org/abs/2409.20215v1 )

ライセンス: Link先を確認
Denis Lacroix, Angel Bauge, Bulent Yilmaz, Mariane Mangin-Brinet, Alessandro Roggero, A. Baha Balantekin, (参考訳) The Phase-Space approach (PSA) was introduced in [Lacroix et al , Phys. D 106, 123006 (2022)] to describe neutrino flavor oscillation for interacting neutrinos emission from stellar objects is extended to describe any number of neutrino beams。 PSAは、初期条件をサンプリングし、続いて独立平均場進化によって、量子ゆらぎを統計的処理にマッピングする。 ニュートリノビームの任意の数のニュートリノを処理できる新しいサンプリング法が提案されている。 提案手法の検証に成功し,参照正確な計算が可能となるいくつかの事例において,その予測力を検証した。 ニュートリノ間の相互作用によって引き起こされる絡み合いや散逸などの多体効果を記述できることを示す。 問題の複雑さのため、厳密な解は比較的限られた場合にのみ計算でき、ビーム数やニュートリノは各ビームに限られている。 PSAアプローチは計算コストを大幅に削減し、任意のビーム数を正確にシミュレートする効率的な技術を提供する。 PSAの結果の例としては、時間非依存または時間依存ハミルトニアンを持つ200個のビームがある。 我々はこの手法がニュートリノ振動に使用されるより伝統的な輸送理論で精密な技術に橋渡しするのに有用であると予測している。 また、他の技術が古典的コンピュータに適用できない将来の量子コンピュータアプリケーションに対して重要な参照計算を提供する。

The Phase-Space approach (PSA), which was originally introduced in [Lacroix et al., Phys. Rev. D 106, 123006 (2022)] to describe neutrino flavor oscillations for interacting neutrinos emitted from stellar objects is extended to describe arbitrary numbers of neutrino beams. The PSA is based on mapping the quantum fluctuations into a statistical treatment by sampling initial conditions followed by independent mean-field evolution. A new method is proposed to perform this sampling that allows treating an arbitrary number of neutrinos in each neutrino beam. We validate the technique successfully and confirm its predictive power on several examples where a reference exact calculation is possible. We show that it can describe many-body effects, such as entanglement and dissipation induced by the interaction between neutrinos. Due to the complexity of the problem, exact solutions can only be calculated for rather limited cases, with a limited number of beams and/or neutrinos in each beam. The PSA approach considerably reduces the numerical cost and provides an efficient technique to accurately simulate arbitrary numbers of beams. Examples of PSA results are given here, including up to 200 beams with time-independent or time-dependent Hamiltonian. We anticipate that this approach will be useful to bridge exact microscopic techniques with more traditional transport theories used in neutrino oscillations. It will also provide important reference calculations for future quantum computer applications where other techniques are not applicable to classical computers.
翻訳日:2024-10-02 12:56:53 公開日:2024-09-30
# プロンプトを超えて: 大規模言語モデルの動的会話ベンチマーク

Beyond Prompts: Dynamic Conversational Benchmarking of Large Language Models ( http://arxiv.org/abs/2409.20222v1 )

ライセンス: Link先を確認
David Castillo-Bolado, Joseph Davidson, Finlay Gray, Marek Rosa, (参考訳) 本稿では,対話エージェントに対する動的ベンチマークシステムを導入し,その性能をシミュレーションし,ユーザ$\leftrightarrow$agentインタラクションによって評価する。 インタラクションはユーザとエージェント間の会話であり、複数のタスクが導入され、同時に実行される。 タスクをインターリーブするために定期的にコンテキストスイッチを行い、エージェントの長期記憶、継続的な学習、情報統合機能を評価する現実的なテストシナリオを構築します。 プロプライエタリおよびオープンソースのLarge-Language Modelsの結果、LLMは一般的にシングルタスクのインタラクションでうまく機能するが、インターリーブされると同じタスクで苦労する。 特に、LTMシステムで補足された短いコンテキストのLLMは、より大きなコンテキストを持つものよりもパフォーマンスが良い。 我々のベンチマークは、これまでのベンチマークでは捉えられなかったような、より自然な相互作用に対応するLLMには、他にも課題があることを示唆している。

We introduce a dynamic benchmarking system for conversational agents that evaluates their performance through a single, simulated, and lengthy user$\leftrightarrow$agent interaction. The interaction is a conversation between the user and agent, where multiple tasks are introduced and then undertaken concurrently. We context switch regularly to interleave the tasks, which constructs a realistic testing scenario in which we assess the Long-Term Memory, Continual Learning, and Information Integration capabilities of the agents. Results from both proprietary and open-source Large-Language Models show that LLMs in general perform well on single-task interactions, but they struggle on the same tasks when they are interleaved. Notably, short-context LLMs supplemented with an LTM system perform as well as or better than those with larger contexts. Our benchmark suggests that there are other challenges for LLMs responding to more natural interactions that contemporary benchmarks have heretofore not been able to capture.
翻訳日:2024-10-02 12:56:53 公開日:2024-09-30
# GTransPDM:歩行者交叉意図予測のための位置疎結合グラフ埋め込み変換器

GTransPDM: A Graph-embedded Transformer with Positional Decoupling for Pedestrian Crossing Intention Prediction ( http://arxiv.org/abs/2409.20223v1 )

ライセンス: Link先を確認
Chen Xie, Ciyun Lin, Xiaoyu Zheng, Bowen Gong, Dayong Wu, Antonio M. López, (参考訳) 歩行者横断行動意図の理解と予測は、自動運転車の安全運転にとって不可欠である。 それでも、有望なイメージや環境コンテキストマスクを使用して時系列ネットワークモデリングのさまざまな要因を抽出し、前処理エラーや効率の低下を引き起こすと、課題が生じる。 通常、車載カメラで捉えた歩行者の位置はしばしば歪んでいて、実際の動きを正確に反映しない。 これらの問題に対処するため,多モード特徴を活用して歩行者横断意図予測のためにGTransPDM(位置分離モジュール付きグラフ組込み変圧器)を開発した。 まず、歩行者の側方移動を分解し、画像ビューの深さ変化をシミュレートする位置分離モジュールを提案する。 そして、グラフ埋め込みトランスフォーマーは、人間のポーズ骨格の空間的時間的ダイナミクスを捉え、位置、骨格、エゴ車の動きといった重要な要素を統合するように設計された。 実験の結果,提案手法はPIEデータセットでは92%,JAADデータセットでは87%,処理速度は0.05msであることがわかった。 比較すると、最先端よりも優れています。

Understanding and predicting pedestrian crossing behavioral intention is crucial for autonomous vehicles driving safety. Nonetheless, challenges emerge when using promising images or environmental context masks to extract various factors for time-series network modeling, causing pre-processing errors or a loss in efficiency. Typically, pedestrian positions captured by onboard cameras are often distorted and do not accurately reflect their actual movements. To address these issues, GTransPDM -- a Graph-embedded Transformer with a Position Decoupling Module -- was developed for pedestrian crossing intention prediction by leveraging multi-modal features. First, a positional decoupling module was proposed to decompose the pedestrian lateral movement and simulate depth variations in the image view. Then, a graph-embedded Transformer was designed to capture the spatial-temporal dynamics of human pose skeletons, integrating essential factors such as position, skeleton, and ego-vehicle motion. Experimental results indicate that the proposed method achieves 92% accuracy on the PIE dataset and 87% accuracy on the JAAD dataset, with a processing speed of 0.05ms. It outperforms the state-of-the-art in comparison.
翻訳日:2024-10-02 12:56:53 公開日:2024-09-30
# 予測されたタンパク質リガンドポーズの相互作用回復の評価

Assessing interaction recovery of predicted protein-ligand poses ( http://arxiv.org/abs/2409.20227v1 )

ライセンス: Link先を確認
David Errington, Constantin Schneider, Cédric Bouysset, Frédéric A. Dreyer, (参考訳) タンパク質-リガンドのポーズ予測の分野は近年顕著な進歩を遂げており、機械学習に基づく手法は古典的なドッキング法の代わりに、あるいは全原子タンパク質-リガンド複合体構造を予測するために広く用いられている。 現代のほとんどの研究では、リガンド配置の正確さと物理的妥当性に焦点が当てられ、しばしばタンパク質と観察される相互作用の直接的な評価を無視している。 本研究では,タンパク質-リガンド相互作用指紋を無視するとモデル性能が過大評価されることを示す。

The field of protein-ligand pose prediction has seen significant advances in recent years, with machine learning-based methods now being commonly used in lieu of classical docking methods or even to predict all-atom protein-ligand complex structures. Most contemporary studies focus on the accuracy and physical plausibility of ligand placement to determine pose quality, often neglecting a direct assessment of the interactions observed with the protein. In this work, we demonstrate that ignoring protein-ligand interaction fingerprints can lead to overestimation of model performance, most notably in recent protein-ligand cofolding models which often fail to recapitulate key interactions.
翻訳日:2024-10-02 12:56:53 公開日:2024-09-30
# アルミノシリケート融解粘度の一般機械学習モデルとその乾燥溶岩惑星の表面特性への応用

A general machine learning model of aluminosilicate melt viscosity and its application to the surface properties of dry lava planets ( http://arxiv.org/abs/2409.20235v1 )

ライセンス: Link先を確認
Charles Le Losq, Clément Ferraina, Paolo A. Sossi, Charles-Édouard Boukaré, (参考訳) K2-141 bのような超短周期の太陽系外惑星は、日中はマグマの海があり、惑星内の熱を再分配するのに重要な役割を果たしている。 これは、ジェームズ・ウェッブ宇宙望遠鏡によって測定され、惑星の構造に関する洞察を提供する、暖かい夜の面に繋がる可能性がある。 粘度のような特性の正確なモデルは、桁違いに変化しうるが、そのような研究には不可欠である。 本研究では,溶存マグマの粘度を予測する新しいモデルを提案する。 28,898の粘度測定データベースを用いて,超液体を過冷却温度と30GPaまでの圧力に分散させ,ガウス法で精製したグレーボックス人工ニューラルネットワークを訓練した。 このモデルは高い予測精度(RMSE $\approx 0.4 \log_{10}$ Pa$\cdot$s)を達成し、SiO$_2$から多成分マグマおよび工業用ガラスまでの組成を処理できる。 このモデルを用いて,K2-141 bのマグマの粘度を異なる組成で計算した。 相図計算は、日中は完全に溶けており、極低温が主に粘性を制御することを示唆している。 テンラス大気(0.1バー)は、恒星下点から40{\deg}半径付近に存在する可能性がある。 高経度では大気圧が低下し、90{\deg} では、マグマの粘度は凝固が起こるにつれて急速に増加する。 夜間の表面はおそらく固体であるが、以前推定された400Kを超える表面温度は、部分的に溶融したマントルを意味し、垂直対流を通じて地熱フラックスを供給している。

Ultra-short-period exoplanets like K2-141 b likely have magma oceans on their dayside, which play a critical role in redistributing heat within the planet. This could lead to a warm nightside surface, measurable by the James Webb Space Telescope, offering insights into the planet's structure. Accurate models of properties like viscosity, which can vary by orders of magnitude, are essential for such studies. We present a new model for predicting molten magma viscosity, applicable in diverse scenarios, including magma oceans on lava planets. Using a database of 28,898 viscosity measurements on phospho-alumino-silicate melts, spanning superliquidus to undercooled temperatures and pressures up to 30 GPa, we trained a greybox artificial neural network, refined by a Gaussian process. This model achieves high predictive accuracy (RMSE $\approx 0.4 \log_{10}$ Pa$\cdot$s) and can handle compositions from SiO$_2$ to multicomponent magmatic and industrial glasses, accounting for pressure effects up to 30 GPa for compositions such as peridotite. Applying this model, we calculated the viscosity of K2-141 b's magma ocean under different compositions. Phase diagram calculations suggest that the dayside is fully molten, with extreme temperatures primarily controlling viscosity. A tenuous atmosphere (0.1 bar) might exist around a 40{\deg} radius from the substellar point. At higher longitudes, atmospheric pressure drops, and by 90{\deg}, magma viscosity rapidly increases as solidification occurs. The nightside surface is likely solid, but previously estimated surface temperatures above 400 K imply a partly molten mantle, feeding geothermal flux through vertical convection.
翻訳日:2024-10-02 12:56:53 公開日:2024-09-30
# 適応学習戦略を用いた教室型マルチメンター蒸留

Classroom-Inspired Multi-Mentor Distillation with Adaptive Learning Strategies ( http://arxiv.org/abs/2409.20237v1 )

ライセンス: Link先を確認
Shalini Sarode, Muhammad Saif Ullah Khan, Tahira Shehzadi, Didier Stricker, Muhammad Zeshan Afzal, (参考訳) 教室環境にインスパイアされた新しい多面的知識蒸留フレームワークであるClassroomKDを提案する。 固定的なメンター-学生関係に依存する従来の手法とは異なり、我々のフレームワークは、データサンプル毎の有効性に基づいて、多様なメンターの指導戦略を動的に選択し、適応する。 ClassroomKDは、知識フィルタリング(KF)モジュールとメンタリングモジュールの2つの主要なモジュールから構成されている。 KFモジュールは、各入力のパフォーマンスに基づいてメンターを動的にランク付けし、エラーの蓄積を最小限に抑え、情報損失を防ぐために高品質のメンターのみを活性化する。 メンタリングモジュールは、生徒とメンタのパフォーマンスギャップに応じて各メンタの影響を調整し、学習ペースを効果的に調整することで蒸留戦略を調整する。 画像分類(CIFAR-100とImageNet)と2次元人間のポーズ推定(COCOキーポイントとMPIIヒューマンポース)に関する大規模な実験は、ClassroomKDが既存の知識蒸留法を著しく上回ることを示した。 以上の結果から,メンタの選択と指導に対する動的適応的アプローチが,蒸留によるモデル性能向上の道を開くことにより,より効果的な知識伝達につながることが示唆された。

We propose ClassroomKD, a novel multi-mentor knowledge distillation framework inspired by classroom environments to enhance knowledge transfer between student and multiple mentors. Unlike traditional methods that rely on fixed mentor-student relationships, our framework dynamically selects and adapts the teaching strategies of diverse mentors based on their effectiveness for each data sample. ClassroomKD comprises two main modules: the Knowledge Filtering (KF) Module and the Mentoring Module. The KF Module dynamically ranks mentors based on their performance for each input, activating only high-quality mentors to minimize error accumulation and prevent information loss. The Mentoring Module adjusts the distillation strategy by tuning each mentor's influence according to the performance gap between the student and mentors, effectively modulating the learning pace. Extensive experiments on image classification (CIFAR-100 and ImageNet) and 2D human pose estimation (COCO Keypoints and MPII Human Pose) demonstrate that ClassroomKD significantly outperforms existing knowledge distillation methods. Our results highlight that a dynamic and adaptive approach to mentor selection and guidance leads to more effective knowledge transfer, paving the way for enhanced model performance through distillation.
翻訳日:2024-10-02 12:56:53 公開日:2024-09-30
# 離散および連続確率変数を用いた確率論的解集合プログラミング

Probabilistic Answer Set Programming with Discrete and Continuous Random Variables ( http://arxiv.org/abs/2409.20274v1 )

ライセンス: Link先を確認
Damiano Azzolini, Fabrizio Riguzzi, (参考訳) PASP (Probabilistic Answer Set Programming under the credal semantics) は、不確実な情報を表す確率的事実を用いてAnswer Set Programmingを拡張する。 確率的事実はベルヌーイ分布と離散的である。 しかし、いくつかの実世界のシナリオは離散変数と連続変数の両方の組み合わせを必要とする。 本稿では、連続確率変数をサポートするためにPASPフレームワークを拡張し、HPASP(Hybrid Probabilistic Answer Set Programming)を提案する。 さらに,提案手法は,提案手法の列挙と知識コンパイルに基づく2つの正確なアルゴリズムと,サンプリングに基づく2つの近似アルゴリズムの性能について検討し,実装し,評価する。 経験的結果は、既知の理論的結果と一致し、正確な推論は小さなインスタンスでのみ可能であるが、知識コンパイルはパフォーマンスに大きなポジティブな影響を与えることを示している。 サンプリングにより、より大きなインスタンスを処理できるが、時にはメモリの量を増やす必要がある。 論理プログラミングの理論と実践(TPLP)

Probabilistic Answer Set Programming under the credal semantics (PASP) extends Answer Set Programming with probabilistic facts that represent uncertain information. The probabilistic facts are discrete with Bernoulli distributions. However, several real-world scenarios require a combination of both discrete and continuous random variables. In this paper, we extend the PASP framework to support continuous random variables and propose Hybrid Probabilistic Answer Set Programming (HPASP). Moreover, we discuss, implement, and assess the performance of two exact algorithms based on projected answer set enumeration and knowledge compilation and two approximate algorithms based on sampling. Empirical results, also in line with known theoretical results, show that exact inference is feasible only for small instances, but knowledge compilation has a huge positive impact on the performance. Sampling allows handling larger instances, but sometimes requires an increasing amount of memory. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2024-10-02 12:56:53 公開日:2024-09-30
# フォトニック結晶導波路における量子光子境界状態による波長可変光子散乱

Tunable photon scattering by qubit-photon bound states in a photonic crystal waveguide ( http://arxiv.org/abs/2409.20300v1 )

ライセンス: Link先を確認
Guo-Zhu Song, Lin-Xiong Wang, Jing-Xue Zhang, Hai-Rui Wei, Wei Nie, (参考訳) フォトニック結晶の導波路の近くに閉じ込められた量子放出体は、新しい量子物質-光インターフェースを実現するためのエキサイティングなプラットフォームとして最近登場した。 ここでは、任意の空間分離を持つ一対の2レベル原子に結合したフォトニック結晶導波路における波長可変光子散乱について検討する。 弱い励起状態では、2つの原子間の距離に依存する波形モードにエネルギーレベルと崩壊率を与える。 サブラディアント状態とスーパーラディアント状態が生成され、共鳴で$\pi$の位相シフトを伴う完全透過が生じるブラッグ症例と抗ブラッグ症例に焦点を当てた。 反ブラッグの場合,反射場における光子-光子相関関数の量子ビートを観測した。 さらに、量子ビートの周波数は、構造体の分散工学を通して境界状態のチューニング性によって制御できる。 また、2つの原子間の距離のずれや、原子崩壊速度の非対称性による導波路モードへの偏差を含む、系の不完全性の影響を定量化する。 超伝導マイクロ波伝送線路の最近の実験的進歩により、我々の成果はすぐに実現できるはずである。

Quantum emitters trapped near photonic crystal waveguides have recently emerged as an exciting platform for realizing novel quantum matter-light interfaces. Here we study tunable photon scattering in a photonic crystal waveguide coupled to a pair of two-level atoms with an arbitrary spatial separation. In the weak-excitation regime, we give the energy levels and their decay rates into the waveguide modes in the dressed basis, which both depend on the distance between the two atoms. We focus on the Bragg case and anti-Bragg case, where subradiant and superradiant states are produced and perfect transmission with a $\pi$ phase shift may occur on resonance. We observe quantum beats in the photon-photon correlation function of the reflected field in the anti-Bragg case. Moreover, the frequencies of quantum beats can be controlled due to the tunability of the bound states via the dispersion engineering of the structure. We also quantify the effects of the system imperfections, including the deviation in the distance between the two atoms and the asymmetry in the atomic decay rates into the waveguide modes. With recent experimental advances in the superconducting microwave transmission lines, our results should soon be realizable.
翻訳日:2024-10-02 12:56:53 公開日:2024-09-30
# PsyGUARD:心理学的カウンセリングにおける自殺検出とリスクアセスメントの自動化システム

PsyGUARD: An Automated System for Suicide Detection and Risk Assessment in Psychological Counseling ( http://arxiv.org/abs/2409.20243v1 )

ライセンス: Link先を確認
Huachuan Qiu, Lizhi Ma, Zhenzhong Lan, (参考訳) メンタルヘルス問題に対する認識が高まるにつれ、オンラインカウンセリング支援サービスが世界中に広まっている。 テキストベースのカウンセリングサービスにおいて、ユーザが自殺的思考を表現するかどうかを検出することは、リスクのある個人を特定し優先順位付けするために重要である。 しかし, オンラインカウンセリングにおいて, きめ細かい自殺検知とそれに伴うリスク評価を容易にするドメイン固有システムが欠如していることは, 自殺予防を目的とした自動危機介入にとって大きな課題となっている。 本稿では,自殺を検知し,心理的カウンセリングのリスクを評価するシステムであるPsyGUARDを提案する。 そこで我々はまず,基礎理論に基づく自殺の考えを検出するための詳細な分類法を開発した。 次に、自殺検出のためにPsySUICIDEと呼ばれる大規模で高品質なデータセットをキュレートする。 細粒度自殺検知における自動システムの能力を評価するため,我々は一連のベースラインを構築した。 その後、安全で有用な、適切な応答を提供する自動化サービスを支援するために、リスクアセスメントフレームワークのスイートを構築することを提案する。 本研究は、細粒度自殺検出に基づく自動リスクアセスメントシステムの有効性の洞察に富んだ分析だけでなく、オンラインカウンセリングプラットフォームにおけるメンタルヘルスサービス改善の可能性も浮き彫りにした。 コード、データ、モデルはhttps://github.com/qiuhuachuan/PsyGUARD.comで入手できる。

As awareness of mental health issues grows, online counseling support services are becoming increasingly prevalent worldwide. Detecting whether users express suicidal ideation in text-based counseling services is crucial for identifying and prioritizing at-risk individuals. However, the lack of domain-specific systems to facilitate fine-grained suicide detection and corresponding risk assessment in online counseling poses a significant challenge for automated crisis intervention aimed at suicide prevention. In this paper, we propose PsyGUARD, an automated system for detecting suicide ideation and assessing risk in psychological counseling. To achieve this, we first develop a detailed taxonomy for detecting suicide ideation based on foundational theories. We then curate a large-scale, high-quality dataset called PsySUICIDE for suicide detection. To evaluate the capabilities of automated systems in fine-grained suicide detection, we establish a range of baselines. Subsequently, to assist automated services in providing safe, helpful, and tailored responses for further assessment, we propose to build a suite of risk assessment frameworks. Our study not only provides an insightful analysis of the effectiveness of automated risk assessment systems based on fine-grained suicide detection but also highlights their potential to improve mental health services on online counseling platforms. Code, data, and models are available at https://github.com/qiuhuachuan/PsyGUARD.
翻訳日:2024-10-02 11:58:29 公開日:2024-09-30
# ゼロショット可読性制御文の簡易化解析

Analysing Zero-Shot Readability-Controlled Sentence Simplification ( http://arxiv.org/abs/2409.20246v1 )

ライセンス: Link先を確認
Abdullah Barayan, Jose Camacho-Collados, Fernando Alva-Manchego, (参考訳) 可読性制御されたテキスト単純化(RCTS)は、テキストを低可読性レベルに書き直し、その意味を保っている。 RCTSモデルはソースとターゲットの両方で可読性アノテーションを持つ並列コーパスに依存していることが多い。 このようなデータセットは乏しく、特に文レベルではキュレートが難しい。 並列データへの依存を軽減するため,ゼロショットRCTSのための命令調整型大規模言語モデルについて検討する。 自動的および手動的な評価を通じて,(1)異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力にどのように影響するか,(2)目的の可読性の実現と保存の意味のトレードオフについて検討する。 結果から,全ての試験されたモデルは,適切な書き直しを阻害する原文の制限や特徴のため,文(特に低レベル)を単純化するのに苦労していることがわかった。 また,本実験では,一般的な単純化操作を誤解釈し,可読性や保存の意味を不正確に評価するため,RCTSに適合する優れた自動評価指標の必要性も強調した。

Readability-controlled text simplification (RCTS) rewrites texts to lower readability levels while preserving their meaning. RCTS models often depend on parallel corpora with readability annotations on both source and target sides. Such datasets are scarce and difficult to curate, especially at the sentence level. To reduce reliance on parallel data, we explore using instruction-tuned large language models for zero-shot RCTS. Through automatic and manual evaluations, we examine: (1) how different types of contextual information affect a model's ability to generate sentences with the desired readability, and (2) the trade-off between achieving target readability and preserving meaning. Results show that all tested models struggle to simplify sentences (especially to the lowest levels) due to models' limitations and characteristics of the source sentences that impede adequate rewriting. Our experiments also highlight the need for better automatic evaluation metrics tailored to RCTS, as standard ones often misinterpret common simplification operations, and inaccurately assess readability and meaning preservation.
翻訳日:2024-10-02 11:58:29 公開日:2024-09-30
# モバイルエッジコンピューティングにおける安定LLMトレーニングのための資源配分

Resource Allocation for Stable LLM Training in Mobile Edge Computing ( http://arxiv.org/abs/2409.20247v1 )

ライセンス: Link先を確認
Chang Liu, Jun Zhao, (参考訳) モバイルデバイスが先進的なアプリケーションに焦点を移すにつれ、エッジコンピューティングは、特に大規模言語モデル(LLM)のデプロイにおいて、それら固有の計算制限に対する実行可能なソリューションを提供する。 しかし、エッジコンピューティングの進歩にもかかわらず、これらのモデルに関連する計算要求とデータプライバシの懸念により、LLMの効率的なトレーニングとデプロイには大きな課題が残っている。 本稿では,モバイルユーザとエッジサーバを連携させてリソース割り当てを最適化し,パフォーマンスと効率を両立させる,協調的なトレーニングフレームワークについて検討する。 提案手法では,パラメータ効率のよい微細チューニング(PEFT)手法を用いて,エッジサーバがより要求の高い後者のレイヤを処理している間に,モバイルユーザがLLMの初期レイヤを調整できる。 具体的には,多目的最適化問題を定式化し,訓練時の総エネルギー消費と遅延を最小化する。 また,モデルの安定性向上を目的関数に組み込むことにより,モデル性能の不安定性の共通問題にも対処する。 新たな分数計画法により,定式化問題に対する定常点を実現する。 シミュレーションにより,本手法は遅延とともに省エネ化を図り,様々なモバイル環境におけるLCMの信頼性を高めた。

As mobile devices increasingly become focal points for advanced applications, edge computing presents a viable solution to their inherent computational limitations, particularly in deploying large language models (LLMs). However, despite the advancements in edge computing, significant challenges remain in efficient training and deploying LLMs due to the computational demands and data privacy concerns associated with these models. This paper explores a collaborative training framework that integrates mobile users with edge servers to optimize resource allocation, thereby enhancing both performance and efficiency. Our approach leverages parameter-efficient fine-tuning (PEFT) methods, allowing mobile users to adjust the initial layers of the LLM while edge servers handle the more demanding latter layers. Specifically, we formulate a multi-objective optimization problem to minimize the total energy consumption and delay during training. We also address the common issue of instability in model performance by incorporating stability enhancements into our objective function. Through novel fractional programming technique, we achieve a stationary point for the formulated problem. Simulations demonstrate that our method reduces the energy consumption as well as the latency, and increases the reliability of LLMs across various mobile settings.
翻訳日:2024-10-02 11:58:29 公開日:2024-09-30
# 線形モデル上でのランダム特徴:スパイク共分散データにおける強入力-ラベル相関の影響

Random Features Outperform Linear Models: Effect of Strong Input-Label Correlation in Spiked Covariance Data ( http://arxiv.org/abs/2409.20250v1 )

ライセンス: Link先を確認
Samet Demir, Zafer Dogan, (参考訳) 非線形アクティベーション関数を持つランダム特徴モデル(RFM)は,高次元学習におけるトレーニングと一般化性能の理解に有効である。 既往の研究は、等方的データ仮定の下でのRAMとノイズのある線形モデルのパフォーマンスの漸近的等価性を確立しているが、経験的観測は、RAMが実際的な応用においてしばしば線形モデルを上回ることを示唆している。 このギャップに対処するために、我々は「いつ、どのようにRCMが線形モデルを上回るのか?」と尋ねる。 実際には、入力は学習に大きな影響を与える追加構造を持つことが多い。 そこで, 比例漸近限界におけるスパイク共分散を特徴とする異方性入力データに基づくRCMの探索を行った。 解析の結果,入力とラベルの相関性が高いことが,RAMが線形モデルより優れる重要な要因であることが判明した。 さらに, RFM は雑音多項式モデルと等価であり, 多項式次数は入力とラベルの相関関係の強さに依存することを示す。 我々の数値シミュレーションはこれらの理論的知見を検証し、強い入力-ラベル相関を特徴とするシナリオにおけるRCMの性能的優越性を検証した。

Random Feature Model (RFM) with a nonlinear activation function is instrumental in understanding training and generalization performance in high-dimensional learning. While existing research has established an asymptotic equivalence in performance between the RFM and noisy linear models under isotropic data assumptions, empirical observations indicate that the RFM frequently surpasses linear models in practical applications. To address this gap, we ask, "When and how does the RFM outperform linear models?" In practice, inputs often have additional structures that significantly influence learning. Therefore, we explore the RFM under anisotropic input data characterized by spiked covariance in the proportional asymptotic limit, where dimensions diverge jointly while maintaining finite ratios. Our analysis reveals that a high correlation between inputs and labels is a critical factor enabling the RFM to outperform linear models. Moreover, we show that the RFM performs equivalent to noisy polynomial models, where the polynomial degree depends on the strength of the correlation between inputs and labels. Our numerical simulations validate these theoretical insights, confirming the performance-wise superiority of RFM in scenarios characterized by strong input-label correlation.
翻訳日:2024-10-02 11:58:29 公開日:2024-09-30
# エンドツーエンド学習による3次元FSEにおけるシャープネス, SNR, SARの制御

Controlling sharpness, SNR and SAR for 3D FSE at 7T by end-to-end learning ( http://arxiv.org/abs/2409.20251v1 )

ライセンス: Link先を確認
Peter Dawood, Martin Blaimer, Jürgen Herrler, Patrick Liebig, Simon Weinmüller, Shaihan Malik, Peter M. Jakob, Moritz Zaiss, (参考訳) 目的: 3次元FSEシークエンスにおける多組織のPSF(point-spread function)とSNR( signal-to-noise ratio)に最適化された専用可変フリップ角(VFA)スキームを7Tで非常に長いエコー列で同定すること。 方法: 提案した最適化は,事前定義されたSAR制約と,エンドツーエンドの学習フレームワークを用いた目標コントラストを考慮したものである。 コスト関数はコントラスト忠実度(SNR)とペナルティ項を統合し、複数の組織に対する画像ぼかし(PSF)を最小化する。 PSF/SNRコスト関数の重み付けにより,PSF最適化VFAとSNR最適化VFAを,オープンソースのPulseq標準を2人のボランティアと,3人のボランティアに並列送信拡張した7T MRIシステム上のベンダープロトコルの両方を用いてインビボで導出し,試験した。 結果: PSF最適化VFAは, コントラスト忠実度を維持しながら, T2wの標準VFAに比べて画像のぼかしを著しく低減した。 小さな白と灰色の物質構造と血管は、PSFに最適化されたVFAでよりよく見える。 定量分析により、最適化されたVFAは、標準のVFAよりもシンクのような基準PSFからの偏差が50%少ないことが示された。 SNRを最適化したVFAは、標準値(81.2\pm18.4 vs. 41.2\pm11.5)に対して、白とグレーの物質領域でSNRを大幅に改善した画像を得た。 結論: 本研究は, PSF と SNR の3次元FSE 取得のために, 非常に長いエコー列車における VFA スキームを最適化するエンド・ツー・エンドの学習フレームワークの可能性を示した。 PSFとSNRの3D FSEのトレードオフの迅速かつ柔軟な調整の道を開く。

Purpose: To non-heuristically identify dedicated variable flip angle (VFA) schemes optimized for the point-spread function (PSF) and signal-to-noise ratio (SNR) of multiple tissues in 3D FSE sequences with very long echo trains at 7T. Methods: The proposed optimization considers predefined SAR constraints and target contrast using an end-to-end learning framework. The cost function integrates components for contrast fidelity (SNR) and a penalty term to minimize image blurring (PSF) for multiple tissues. By adjusting the weights of PSF/SNR cost-function components, PSF- and SNR-optimized VFAs were derived and tested in vivo using both the open-source Pulseq standard on two volunteers as well as vendor protocols on a 7T MRI system with parallel transmit extension on three volunteers. Results: PSF-optimized VFAs resulted in significantly reduced image blurring compared to standard VFAs for T2w while maintaining contrast fidelity. Small white and gray matter structures, as well as blood vessels, are more visible with PSF-optimized VFAs. Quantitative analysis shows that the optimized VFA yields 50% less deviation from a sinc-like reference PSF than the standard VFA. The SNR-optimized VFAs yielded images with significantly improved SNR in a white and gray matter region relative to standard (81.2\pm18.4 vs. 41.2\pm11.5, respectively) as trade-off for elevated image blurring. Conclusion: This study demonstrates the potential of end-to-end learning frameworks to optimize VFA schemes in very long echo trains for 3D FSE acquisition at 7T in terms of PSF and SNR. It paves the way for fast and flexible adjustment of the trade-off between PSF and SNR for 3D FSE.
翻訳日:2024-10-02 11:58:29 公開日:2024-09-30
# SAMアノテーションを用いた医用画像分割

Medical Image Segmentation with SAM-generated Annotations ( http://arxiv.org/abs/2409.20253v1 )

ライセンス: Link先を確認
Iira Häkkinen, Iaroslav Melekhov, Erik Englesson, Hossein Azizpour, Juho Kannala, (参考訳) 医用画像のセグメンテーションの分野は、大規模で一般公開された注釈付きデータセットの不足によって妨げられている。 すべてのデータセットがプライバシー上の理由から公開されている訳ではなく、画像内の関心領域(ROI)を正確に識別する専門的な専門知識を必要とするため、大規模なデータセットのアノテーションを作成するのに時間と費用がかかる。 これらの課題に対処するため,医学的セグメンテーション・デカトロン(MSD)計算断層撮影(CT)タスク上で,いわゆる「擬似ラベル」を作成するために医療データのアノテーションツールとしてSegment Anything Model(SAM)の性能を評価する。 擬似ラベルは、弱教師付きでUNetモデルをトレーニングするために、地上の真理ラベルの代わりに使用される。 我々はSAM上で異なるプロンプト型を実験し、バウンディングボックスプロンプトは擬似ラベルを生成するための単純かつ効果的な方法であることを確認した。 本手法により,完全教師付きモデルに適合して機能する弱教師付きモデルの開発が可能となる。

The field of medical image segmentation is hindered by the scarcity of large, publicly available annotated datasets. Not all datasets are made public for privacy reasons, and creating annotations for a large dataset is time-consuming and expensive, as it requires specialized expertise to accurately identify regions of interest (ROIs) within the images. To address these challenges, we evaluate the performance of the Segment Anything Model (SAM) as an annotation tool for medical data by using it to produce so-called "pseudo labels" on the Medical Segmentation Decathlon (MSD) computed tomography (CT) tasks. The pseudo labels are then used in place of ground truth labels to train a UNet model in a weakly-supervised manner. We experiment with different prompt types on SAM and find that the bounding box prompt is a simple yet effective method for generating pseudo labels. This method allows us to develop a weakly-supervised model that performs comparably to a fully supervised model.
翻訳日:2024-10-02 11:58:29 公開日:2024-09-30
# PerCo (SD): オープンパーセプティカル圧縮

PerCo (SD): Open Perceptual Compression ( http://arxiv.org/abs/2409.20255v1 )

ライセンス: Link先を確認
Nikolai Körber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder, Björn Schuller, (参考訳) 本稿では,Stable Diffusion v2.1に基づく知覚画像圧縮手法PerCo(SD)を紹介する。 PerCo (SD) は、GLIDEのプロプライエタリな派生品に依存し、現在も一般公開されている、最先端のPerCoのオープンで競争力のある代替品として機能する。 本論では,PerCoを安定拡散生態系に適用する上での重要な工学的決定を論じ,定量的かつ定性的に総合的な比較を行う。 MSCOCO-30kデータセットでは、PerCo(SD)は高い歪みを犠牲にして知覚特性の改善を示す。 このギャップの一部は、使用中の異なるモデル容量 (866M vs. 1.4B) に起因している。 私たちの研究が、基盤となるメカニズムのより深い理解に寄与し、今後の分野の発展への道を開くことを願っています。 コードとトレーニングされたモデルはhttps://github.com/Nikolai10/PerCo.comでリリースされる。

We introduce PerCo (SD), a perceptual image compression method based on Stable Diffusion v2.1, targeting the ultra-low bit range. PerCo (SD) serves as an open and competitive alternative to the state-of-the-art method PerCo, which relies on a proprietary variant of GLIDE and remains closed to the public. In this work, we review the theoretical foundations, discuss key engineering decisions in adapting PerCo to the Stable Diffusion ecosystem, and provide a comprehensive comparison, both quantitatively and qualitatively. On the MSCOCO-30k dataset, PerCo (SD) demonstrates improved perceptual characteristics at the cost of higher distortion. We partly attribute this gap to the different model capacities being used (866M vs. 1.4B). We hope our work contributes to a deeper understanding of the underlying mechanisms and paves the way for future advancements in the field. Code and trained models will be released at https://github.com/Nikolai10/PerCo.
翻訳日:2024-10-02 11:58:29 公開日:2024-09-30
# 多目的強化学習における実証からの評価

Inferring Preferences from Demonstrations in Multi-objective Reinforcement Learning ( http://arxiv.org/abs/2409.20258v1 )

ライセンス: Link先を確認
Junlin Lu, Patrick Mannion, Karl Mason, (参考訳) 多くの意思決定問題は、異なる目的のために人間やエージェントの意思決定者の好みを知ることが常に可能であるとは限らない複数の目的を特徴としている。 しかし、意思決定者からの実証された行動はしばしば利用可能である。 本研究では,実演から多目的意思決定問題に作用するエージェントの嗜好を推定できる動的重みに基づく選好推定アルゴリズムを提案する。 提案アルゴリズムは, 深海宝物, 交通, アイテム収集の3つの多目的マルコフ決定プロセスを用いて評価し, 既存の選好推論アルゴリズムと比較した。 実験結果から,時間効率と推論精度の両面で,ベースラインアルゴリズムと比較して有意な改善が得られた。 DWPIアルゴリズムは、準最適演示の選好を推測する際にその性能を維持する。 さらに、DWPIアルゴリズムは、推論中にユーザーとのインタラクションを一切必要としない。 本稿では,アルゴリズムの正確性証明と複雑性解析を行い,実演の異なる表現下での性能を統計的に評価する。

Many decision-making problems feature multiple objectives where it is not always possible to know the preferences of a human or agent decision-maker for different objectives. However, demonstrated behaviors from the decision-maker are often available. This research proposes a dynamic weight-based preference inference (DWPI) algorithm that can infer the preferences of agents acting in multi-objective decision-making problems from demonstrations. The proposed algorithm is evaluated on three multi-objective Markov decision processes: Deep Sea Treasure, Traffic, and Item Gathering, and is compared to two existing preference inference algorithms. Empirical results demonstrate significant improvements compared to the baseline algorithms, in terms of both time efficiency and inference accuracy. The DWPI algorithm maintains its performance when inferring preferences for sub-optimal demonstrations. Moreover, the DWPI algorithm does not necessitate any interactions with the user during inference - only demonstrations are required. We provide a correctness proof and complexity analysis of the algorithm and statistically evaluate the performance under different representation of demonstrations.
翻訳日:2024-10-02 11:58:29 公開日:2024-09-30
# 既存の定量化目標への学習

Learning to Ground Existentially Quantified Goals ( http://arxiv.org/abs/2409.20259v1 )

ライセンス: Link先を確認
Martin Funkquist, Simon Ståhlberg, Hector Geffner, (参考訳) 自律的なAIエージェントのためのゴール命令は、オブジェクトがユニークな名前を持っていると仮定することはできない。 代わりに、目標のオブジェクトは適切な記述を提供することで参照されなければならない。 しかし、これは古典的な計画と一般化された計画の両方において問題を引き起こす。 古典的計画において存在量化された目標を扱うための標準的なアプローチは、可能なすべての変数バインディングをエンコードするDNF公式にそれらをコンパイルし、各DNF項を新しいダミーゴールにマッピングするダミーアクションを追加することである。 この前処理は変数の数で指数関数的である。 一般的な政策が初期状況や目標に対処できるとしても、一般的な政策を実行するには、政策特徴に対する価値を定義するために目標を根拠にする必要がある。 ゴール変数をバインドするオブジェクトを見つけるという問題は微妙である:これは古典的な計画の一般化であり、ゴール変数がバインドする特別なケースであり、制約推論であり、アクションが存在しない特別なケースである。 本研究では,新しい教師付き学習手法を用いて目標設定問題に対処する。 小さなドメインインスタンスに対して部分的に定量化された目標のコストを予測するために訓練されたGNNアーキテクチャは、より多くのオブジェクトと異なる定量化された目標を含む大きなインスタンスでテストされる。 提案アーキテクチャは、ゴール変数の数や、そのような変数をバインド可能なオブジェクトを含む、いくつかの次元で一般化がテストされる複数の計画領域で実験的に評価される。 このアプローチのスコープは、GNNとC2ロジックの既知の関係を考慮しても議論される。

Goal instructions for autonomous AI agents cannot assume that objects have unique names. Instead, objects in goals must be referred to by providing suitable descriptions. However, this raises problems in both classical planning and generalized planning. The standard approach to handling existentially quantified goals in classical planning involves compiling them into a DNF formula that encodes all possible variable bindings and adding dummy actions to map each DNF term into the new, dummy goal. This preprocessing is exponential in the number of variables. In generalized planning, the problem is different: even if general policies can deal with any initial situation and goal, executing a general policy requires the goal to be grounded to define a value for the policy features. The problem of grounding goals, namely finding the objects to bind the goal variables, is subtle: it is a generalization of classical planning, which is a special case when there are no goal variables to bind, and constraint reasoning, which is a special case when there are no actions. In this work, we address the goal grounding problem with a novel supervised learning approach. A GNN architecture, trained to predict the cost of partially quantified goals over small domain instances is tested on larger instances involving more objects and different quantified goals. The proposed architecture is evaluated experimentally over several planning domains where generalization is tested along several dimensions including the number of goal variables and objects that can bind such variables. The scope of the approach is also discussed in light of the known relationship between GNNs and C2 logics.
翻訳日:2024-10-02 11:58:29 公開日:2024-09-30
# 脳卒中リハビリテーションに対するコンピュータ治療 : 体系的検討とメタ分析

Computer-mediated therapies for stroke rehabilitation: a systematic review and meta-Analysis ( http://arxiv.org/abs/2409.20260v1 )

ライセンス: Link先を確認
Stanley Mugisha. Mirko Job. Matteo Zoppi, Marco Testa, Rezia Molfino, (参考訳) OBJECTIVE: 脳卒中患者の身体的・心理的状態を改善するために,各種のバーチャルリアリティ(VR)治療の有効性を従来の治療(CT)と比較して,没入型バーチャルリアリティ(IVR)または非没入型バーチャルリアリティ(NIVR)として評価する。 方法: 文献検索は7つのデータベース上で行われた。 ACM Digital Library, Medline (via PubMed), Cochrane, IEEE Xplore, Web of Science, Scopus。 主な結果の効果はコーエンのdを用いて計算した。 ランダム・エフェクト・モデルを用いて, 治療効果の全体評価を行った。 結果: ランダム化対照試験を22回行った。 没入型バーチャルリアリティーは, 上肢活動, 機能, 日常生活の活動をCTに匹敵する形で改善することを示した。18の試験では, NIVRは上肢活動, 機能, バランス, 移動性, 日常生活活動, 参加活動に対して, CTと類似した利点を有することが示された。 異なる形態のVRと比較したところ、IVRは上肢トレーニングや日常生活の活動においてNIVRよりも有益である可能性が示唆された。 結論: 本研究により, IVR 療法は NIVR よりも有効であるが, 上肢活動, 機能, 日常生活活動を改善するには CT よりも有効である可能性が示唆された。 しかし、IVR治療の耐久性の証拠はない。 没入型バーチャルリアリティ技術の長期的な効果と有望な利益を評価するためには、より大きなサンプルによる研究を含むさらなる研究が必要である。

OBJECTIVE: To evaluate the efficacy of different forms of virtual reality (VR) treatments as either immersive virtual reality (IVR) or non-immersive virtual reality (NIVR) in comparison to conventional therapy (CT) in improving physical and psychological status among stroke patients. METHODS: The literature search was conducted on seven databases. ACM Digital Library, Medline (via PubMed), Cochrane, IEEE Xplore, Web of Science, and Scopus. The effect sizes of the main outcomes were calculated using Cohen's d. Pooled results were used to present an overall estimate of the treatment effect using a random-effects model. RESULTS: A total of 22 randomized controlled trials were evaluated. 3 trials demonstrated that immersive virtual reality improved upper limb activity, function and activity of daily life in a way comparable to CT. 18 trials showed that NIVR had similar benefits to CT for upper limb activity and function, balance and mobility, activities of daily living and participation. A comparison between the different forms of VR showed that IVR may be more beneficial than NIVR for upper limb training and activities of daily life. CONCLUSIONS: This study found out that IVR therapies may be more effective than NIVR but not CT to improve upper limb activity, function, and daily life activities. However, there is no evidence of the durability of IVR treatment. More research involving studies with larger samples is needed to assess the long-term effects and promising benefits of immersive virtual reality technology.
翻訳日:2024-10-02 11:58:29 公開日:2024-09-30
# 実社会療法シナリオにおける社会的相互作用認識の欠如

Loose Social-Interaction Recognition in Real-world Therapy Scenarios ( http://arxiv.org/abs/2409.20270v1 )

ライセンス: Link先を確認
Abid Ali, Rui Dai, Ashish Marisetty, Guillaume Astruc, Monique Thonnat, Jean-Marc Odobez, Susanne Thümmler, Francois Bremond, (参考訳) コンピュータビジョンコミュニティは、プッシュ、キャリー・オブジェクトなどの原子的アクションに対するダイアディックな相互作用を探索してきた。 しかし、ディープラーニングモデルの進歩に伴い、疎結合のようなより複雑なダイアドシデントを探求する必要がある。 これらは、例えば料理など、時間的同期や物理的なエンゲージメントに関係なく、2人が特定の原子活動を行い、グローバルなアクションを完成させる相互作用である。 これらのダイアド相互作用の分析は、医療分野における社会的スキル開発と精神保健診断にいくつかの有用な応用をもたらす。 そこで本研究では,2つの個人間の疎結合を捉えるために,新しいデュアルパスアーキテクチャを提案する。 我々のモデルは,CNNのバックボーンを通じて各ストリームからグローバルな抽象的特徴を学習し,クロスアテンション戦略に基づく新しいグローバル・レイヤ・アテンション・モジュールを用いてそれらを融合する。 我々は、ルース・インタラクション・データセットやゆるやかなインタラクションのための公開自閉症・データセットなど、現実世界の自閉症診断モデルを評価する。 本ネットワークは,自閉症データセット上でのルース・インタラクションとSOTAの結果のベースライン化を実現している。 さらに、NTU-RGB+D(NTU-60とNTU-120の両方からの対話型クラス)を公開データセットとして実験することにより、異なる社会的相互作用を研究する。 異なるインタラクションには異なるネットワーク設計が必要です。 また, 時間情報を組み込んでSOTA結果の密接な相互作用に対処することにより, 若干の異なるバージョンを比較した。

The computer vision community has explored dyadic interactions for atomic actions such as pushing, carrying-object, etc. However, with the advancement in deep learning models, there is a need to explore more complex dyadic situations such as loose interactions. These are interactions where two people perform certain atomic activities to complete a global action irrespective of temporal synchronisation and physical engagement, like cooking-together for example. Analysing these types of dyadic-interactions has several useful applications in the medical domain for social-skills development and mental health diagnosis. To achieve this, we propose a novel dual-path architecture to capture the loose interaction between two individuals. Our model learns global abstract features from each stream via a CNNs backbone and fuses them using a new Global-Layer-Attention module based on a cross-attention strategy. We evaluate our model on real-world autism diagnoses such as our Loose-Interaction dataset, and the publicly available Autism dataset for loose interactions. Our network achieves baseline results on the Loose-Interaction and SOTA results on the Autism datasets. Moreover, we study different social interactions by experimenting on a publicly available dataset i.e. NTU-RGB+D (interactive classes from both NTU-60 and NTU-120). We have found that different interactions require different network designs. We also compare a slightly different version of our method by incorporating time information to address tight interactions achieving SOTA results.
翻訳日:2024-10-02 11:58:29 公開日:2024-09-30
# 双方向アライメントによるステレオビデオのマッチング

Match Stereo Videos via Bidirectional Alignment ( http://arxiv.org/abs/2409.20283v1 )

ライセンス: Link先を確認
Junpeng Jing, Ye Mao, Anlan Qiu, Krystian Mikolajczyk, (参考訳) ビデオステレオマッチングは、修正されたステレオビデオから一貫した格差マップを推定するタスクである。 この領域にはデータセットとメソッドの両方の改善の余地がかなりあります。 最近の学習に基づく手法は、独立ステレオペアのパフォーマンスの最適化に重点を置いており、ビデオの時間的矛盾につながる。 既存のビデオ手法では、時間次元のスライディングウインドウ操作が一般的であり、ウィンドウサイズに応じた低周波振動が生じることがある。 これらの課題に対処するために,隣接フレームの双方向アライメント機構を基本動作として提案する。 そこで我々は,新しいビデオ処理フレームワークBiDAStereoとプラグイン安定化ネットワークBiDAStabilizerを導入する。 データセットに関して、現在の合成オブジェクトベースと屋内データセットは、屋外の自然シナリオが欠如しているため、トレーニングとベンチマークに一般的に使用される。 このギャップを埋めるために、我々は自然のシーンに焦点を当てたリアルな合成データセットとベンチマークと、様々な都市のシーンでステレオカメラが捉えた実世界のデータセットを質的評価のために提示する。 ドメイン内、ドメイン外、ロバスト性評価に関する大規模な実験は、我々の手法とデータセットの寄与を示し、予測品質の改善を示し、様々な一般的なベンチマークで最先端の結果を得る。 プロジェクトページ、デモ、コード、データセットは以下の通りである。

Video stereo matching is the task of estimating consistent disparity maps from rectified stereo videos. There is considerable scope for improvement in both datasets and methods within this area. Recent learning-based methods often focus on optimizing performance for independent stereo pairs, leading to temporal inconsistencies in videos. Existing video methods typically employ sliding window operation over time dimension, which can result in low-frequency oscillations corresponding to the window size. To address these challenges, we propose a bidirectional alignment mechanism for adjacent frames as a fundamental operation. Building on this, we introduce a novel video processing framework, BiDAStereo, and a plugin stabilizer network, BiDAStabilizer, compatible with general image-based methods. Regarding datasets, current synthetic object-based and indoor datasets are commonly used for training and benchmarking, with a lack of outdoor nature scenarios. To bridge this gap, we present a realistic synthetic dataset and benchmark focused on natural scenes, along with a real-world dataset captured by a stereo camera in diverse urban scenes for qualitative evaluation. Extensive experiments on in-domain, out-of-domain, and robustness evaluation demonstrate the contribution of our methods and datasets, showcasing improvements in prediction quality and achieving state-of-the-art results on various commonly used benchmarks. The project page, demos, code, and datasets are available at: \url{https://tomtomtommi.github.io/BiDAVideo/}.
翻訳日:2024-10-02 11:58:29 公開日:2024-09-30
# スケールでのアクティブなニューラルマッピング

Active Neural Mapping at Scale ( http://arxiv.org/abs/2409.20276v1 )

ライセンス: Link先を確認
Zijia Kuang, Zike Yan, Hao Zhao, Guyue Zhou, Hongbin Zha, (参考訳) 我々は,大規模な屋内環境の効率的かつ堅牢な探索を可能にする,NeRFベースのアクティブマッピングシステムを導入する。 我々のアプローチの鍵は、継続的に更新されたニューラルマップから一般化されたボロノイグラフ(GVG)を抽出し、シーン幾何学、外観、トポロジー、不確実性の相乗的統合をもたらすことである。 ニューラルマップによって誘導される不確実な領域をGVGの頂点にアンコールすることで、未知の領域を効率的に横断する安全な経路に沿って適応的な粒度を探索することができる。 提案方式は, 大規模屋内環境にスケールアップしても, 再現精度, カバー完全性, 探索効率の両面から競合する結果が得られる。 異なるスケールでの広範囲な結果が提案システムの有効性を検証した。

We introduce a NeRF-based active mapping system that enables efficient and robust exploration of large-scale indoor environments. The key to our approach is the extraction of a generalized Voronoi graph (GVG) from the continually updated neural map, leading to the synergistic integration of scene geometry, appearance, topology, and uncertainty. Anchoring uncertain areas induced by the neural map to the vertices of GVG allows the exploration to undergo adaptive granularity along a safe path that traverses unknown areas efficiently. Harnessing a modern hybrid NeRF representation, the proposed system achieves competitive results in terms of reconstruction accuracy, coverage completeness, and exploration efficiency even when scaling up to large indoor environments. Extensive results at different scales validate the efficacy of the proposed system.
翻訳日:2024-10-02 10:12:47 公開日:2024-09-30
# OOD-CVワークショップ SSB Challenge 2024 (Open-Set Recognition Track) の解法

Solution for OOD-CV Workshop SSB Challenge 2024 (Open-Set Recognition Track) ( http://arxiv.org/abs/2409.20277v1 )

ライセンス: Link先を確認
Mingxu Feng, Dian Chao, Peng Zheng, Yang Yang, (参考訳) 本報告では,ECCV 2024におけるOOD-CVワークショップのOSR Challengeで提案した手法について詳述する。 課題は、テストサンプルが分類器のトレーニングセットであるオープンセット認識(OSR)と呼ばれるタスクのセマンティッククラスに属しているかどうかを特定することであった。 評価にはSemantic Shift Benchmark (SSB) を用いて,ImageNet1k をIn-distriion (ID) データセットとして,ImageNet21k のサブセットをout-of-distriion (OOD) データセットとして用いた。この問題に対処するため,さまざまなポストホック OOD 検出技術とテスト時間拡張 (TTA) 戦略を融合したハイブリッドアプローチを提案した。 さらに、いくつかのベースモデルが最終的なパフォーマンスに与える影響を評価した。 AUROCとFPR95のスコアのバランスを保ちながら,テスト時間拡張とポストホックOODを併用したベストパフォーマンス手法を提案する。 その結果、AUROC:79.77(5位)、FPR95:61.44(2位)となり、総合大会では2位となった。

This report provides a detailed description of the method we explored and proposed in the OSR Challenge at the OOD-CV Workshop during ECCV 2024. The challenge required identifying whether a test sample belonged to the semantic classes of a classifier's training set, a task known as open-set recognition (OSR). Using the Semantic Shift Benchmark (SSB) for evaluation, we focused on ImageNet1k as the in-distribution (ID) dataset and a subset of ImageNet21k as the out-of-distribution (OOD) dataset.To address this, we proposed a hybrid approach, experimenting with the fusion of various post-hoc OOD detection techniques and different Test-Time Augmentation (TTA) strategies. Additionally, we evaluated the impact of several base models on the final performance. Our best-performing method combined Test-Time Augmentation with the post-hoc OOD techniques, achieving a strong balance between AUROC and FPR95 scores. Our approach resulted in AUROC: 79.77 (ranked 5th) and FPR95: 61.44 (ranked 2nd), securing second place in the overall competition.
翻訳日:2024-10-02 10:12:47 公開日:2024-09-30
# 医用セマンティックセグメンテーションのためのCAMアルゴリズムの活用

Leveraging CAM Algorithms for Explaining Medical Semantic Segmentation ( http://arxiv.org/abs/2409.20287v1 )

ライセンス: Link先を確認
Tillmann Rheude, Andreas Wirtz, Arjan Kuijper, Stefan Wesarg, (参考訳) 畳み込みニューラルネットワーク(CNN)は、近年のセグメンテーションタスクにおいて、画像ベース分析の最先端を表現している。 しかし、CNNの正確な意思決定プロセスの理解はよく分かっていない。 説明可能な人工知能(xAI)の研究領域は、主にこのブラックボックスの振る舞いを理解し解釈することに集中している。 CNNを解釈する一つの方法は、CNNの予測に画像領域の重要性を示すヒートマップを表すクラスアクティベーションマップ(CAM)を使用することである。 分類タスクには、様々なCAMアルゴリズムが存在する。 しかし、セグメンテーションタスクでは、CNNの出力を解釈するCAMアルゴリズムは1つしか存在しない。 本稿では, セグメンテーションタスクにおいて, より詳細に説明可能な, 一貫性のある結果を示すために, 既存の分類法とセグメンテーションに基づく手法の相互変換を提案する。 Seg-HiRes-Grad CAMはセグメンテーションベースのSeg-Grad CAMの拡張であり、分類ベースのHiRes CAMに転送される。 提案手法は,最近公開された分類に基づく手法に適応することで,既存のセグメント化手法を改良する。 特に医用画像のセグメンテーションにおいて、この転送は既存の説明可能性の欠点を解消する。

Convolutional neural networks (CNNs) achieve prevailing results in segmentation tasks nowadays and represent the state-of-the-art for image-based analysis. However, the understanding of the accurate decision-making process of a CNN is rather unknown. The research area of explainable artificial intelligence (xAI) primarily revolves around understanding and interpreting this black-box behavior. One way of interpreting a CNN is the use of class activation maps (CAMs) that represent heatmaps to indicate the importance of image areas for the prediction of the CNN. For classification tasks, a variety of CAM algorithms exist. But for segmentation tasks, only one CAM algorithm for the interpretation of the output of a CNN exist. We propose a transfer between existing classification- and segmentation-based methods for more detailed, explainable, and consistent results which show salient pixels in semantic segmentation tasks. The resulting Seg-HiRes-Grad CAM is an extension of the segmentation-based Seg-Grad CAM with the transfer to the classification-based HiRes CAM. Our method improves the previously-mentioned existing segmentation-based method by adjusting it to recently published classification-based methods. Especially for medical image segmentation, this transfer solves existing explainability disadvantages.
翻訳日:2024-10-02 10:12:47 公開日:2024-09-30
# LexEval: 大規模言語モデルを評価するための包括的な中国の法律ベンチマーク

LexEval: A Comprehensive Chinese Legal Benchmark for Evaluating Large Language Models ( http://arxiv.org/abs/2409.20288v1 )

ライセンス: Link先を確認
Haitao Li, You Chen, Qingyao Ai, Yueyue Wu, Ruizhe Zhang, Yiqun Liu, (参考訳) 大規模言語モデル (LLM) は自然言語処理タスクにおいて大きな進歩を遂げており、法的領域においてかなりの可能性を示している。 しかし、法的な応用は高い精度、信頼性、公平性を要求する。 既存のLLMを法制度に適用し、その可能性や限界を慎重に評価することなく適用することは、法律実務において重大なリスクをもたらす可能性がある。 この目的のために、我々は標準化された総合的な中国の法律ベンチマークLexEvalを紹介した。 このベンチマークは,(1)能力モデリング: 異なるタスクを組織化するための,法的認知能力の新しい分類法を提案する。 2) スケール: 私たちの知る限り,LexEvalは現在,23のタスクと14150の質問からなる,中国最大の法的評価データセットである。 (3) 既存のデータセット,試験データセット,新たに注釈付けされたデータセットを法律専門家が活用し,LCMの様々な能力を総合的に評価する。 LexEvalは、LLMの基本的な法的知識の適用能力だけでなく、その応用に関わる倫理的問題を調べる努力にも力を入れている。 オープンソースおよび商用LLMを38種類評価し,いくつかの興味深い知見を得た。 実験と調査結果は、中国の法制度とLLM評価パイプラインを開発する上での課題と潜在的な解決策に関する貴重な洞察を提供する。 LexEvalデータセットとリーダボードは、 \url{https://github.com/CSHaitao/LexEval}で公開されており、継続的に更新される。

Large language models (LLMs) have made significant progress in natural language processing tasks and demonstrate considerable potential in the legal domain. However, legal applications demand high standards of accuracy, reliability, and fairness. Applying existing LLMs to legal systems without careful evaluation of their potential and limitations could pose significant risks in legal practice. To this end, we introduce a standardized comprehensive Chinese legal benchmark LexEval. This benchmark is notable in the following three aspects: (1) Ability Modeling: We propose a new taxonomy of legal cognitive abilities to organize different tasks. (2) Scale: To our knowledge, LexEval is currently the largest Chinese legal evaluation dataset, comprising 23 tasks and 14,150 questions. (3) Data: we utilize formatted existing datasets, exam datasets and newly annotated datasets by legal experts to comprehensively evaluate the various capabilities of LLMs. LexEval not only focuses on the ability of LLMs to apply fundamental legal knowledge but also dedicates efforts to examining the ethical issues involved in their application. We evaluated 38 open-source and commercial LLMs and obtained some interesting findings. The experiments and findings offer valuable insights into the challenges and potential solutions for developing Chinese legal systems and LLM evaluation pipelines. The LexEval dataset and leaderboard are publicly available at \url{https://github.com/CSHaitao/LexEval} and will be continuously updated.
翻訳日:2024-10-02 10:12:47 公開日:2024-09-30
# 協調型マルチロボット知覚のための分散NeRF学習

Distributed NeRF Learning for Collaborative Multi-Robot Perception ( http://arxiv.org/abs/2409.20289v1 )

ライセンス: Link先を確認
Hongrui Zhao, Boris Ivanovic, Negar Mehr, (参考訳) 下流のロボットアプリケーションを実現するためには、効果的な環境認識が不可欠である。 個々のロボットエージェントは、閉塞性や視認性の問題に直面することが多いが、マルチエージェントシステムは、環境のより包括的なマッピング、より高速なカバレッジ、耐障害性の向上を提供することができる。 本稿では,RGB画像からニューラルレイディアンス場(NeRF)を総合的に学習し,シーンを表現できる協調型マルチエージェント認識システムを提案する。 各エージェントは局所的な知覚データを処理し、学習したNeRFモデルのみを他のエージェントと共有し、通信オーバーヘッドを低減する。 NeRFのメモリフットプリントが低いことを考えると、このアプローチは帯域幅が限られているロボットシステムに適している。 我々の分散学習フレームワークはエージェントのローカルNeRFモデル間の一貫性を確保し、統一されたシーン表現への収束を可能にする。 本研究では,本手法の有効性を示すために,課題のある実世界のシーンを含むデータセットの広範な実験を行い,データ処理のために中央サーバに送信される環境の集中型マッピングに匹敵する性能を実現する。 さらに、マルチエージェント学習は正規化の利点を提供し、スパース入力ビューのシナリオにおける幾何的整合性を改善する。 このようなシナリオでは、マルチエージェントマッピングは集中型トレーニングよりも優れています。

Effective environment perception is crucial for enabling downstream robotic applications. Individual robotic agents often face occlusion and limited visibility issues, whereas multi-agent systems can offer a more comprehensive mapping of the environment, quicker coverage, and increased fault tolerance. In this paper, we propose a collaborative multi-agent perception system where agents collectively learn a neural radiance field (NeRF) from posed RGB images to represent a scene. Each agent processes its local sensory data and shares only its learned NeRF model with other agents, reducing communication overhead. Given NeRF's low memory footprint, this approach is well-suited for robotic systems with limited bandwidth, where transmitting all raw data is impractical. Our distributed learning framework ensures consistency across agents' local NeRF models, enabling convergence to a unified scene representation. We show the effectiveness of our method through an extensive set of experiments on datasets containing challenging real-world scenes, achieving performance comparable to centralized mapping of the environment where data is sent to a central server for processing. Additionally, we find that multi-agent learning provides regularization benefits, improving geometric consistency in scenarios with sparse input views. We show that in such scenarios, multi-agent mapping can even outperform centralized training.
翻訳日:2024-10-02 10:12:47 公開日:2024-09-30
# 弱重ショットスーパービジョンを用いたプロンプト学習によるMedSAMの自動化

Automating MedSAM by Learning Prompts with Weak Few-Shot Supervision ( http://arxiv.org/abs/2409.20293v1 )

ライセンス: Link先を確認
Mélanie Gaillochet, Christian Desrosiers, Hervé Lombaert, (参考訳) 最近導入されたSegment Anything Model (SAM)のような基盤モデルは、画像分割タスクにおいて顕著な成果を上げている。 しかしながら、これらのモデルは通常、バウンディングボックスのような手作りのプロンプトによるユーザインタラクションを必要とします。 これらのモデルを完全にラベル付けされたデータで特定のタスクに適応させるには、地味なアノテーションを得るためには、高価な事前ユーザーインタラクションが必要である。 本研究は,入力プロンプトの条件付けを,画像埋め込みから直接プロンプト埋め込みを学習する軽量モジュールに置き換えることを提案する。 学習可能なプロンプトを持つ基盤モデルは、任意の特定の領域を自動的に分割することができる。 1)簡単なモジュールによって予測されるプロンプト埋め込みを通じて入力を変更する。 2) 弱ラベル(タイトバウンディングボックス)と少数ショット監視(10サンプル)を使用する。 医用画像に微調整したSAMのバージョンであるMedSAMを用いて,MRおよび超音波画像の3つの医学データセットを用いて,本手法の有効性を検証した。 私たちのコードはhttps://github.com/Minimel/MedSAMWeakFewShotPromptAutomationで利用可能です。

Foundation models such as the recently introduced Segment Anything Model (SAM) have achieved remarkable results in image segmentation tasks. However, these models typically require user interaction through handcrafted prompts such as bounding boxes, which limits their deployment to downstream tasks. Adapting these models to a specific task with fully labeled data also demands expensive prior user interaction to obtain ground-truth annotations. This work proposes to replace conditioning on input prompts with a lightweight module that directly learns a prompt embedding from the image embedding, both of which are subsequently used by the foundation model to output a segmentation mask. Our foundation models with learnable prompts can automatically segment any specific region by 1) modifying the input through a prompt embedding predicted by a simple module, and 2) using weak labels (tight bounding boxes) and few-shot supervision (10 samples). Our approach is validated on MedSAM, a version of SAM fine-tuned for medical images, with results on three medical datasets in MR and ultrasound imaging. Our code is available on https://github.com/Minimel/MedSAMWeakFewShotPromptAutomation.
翻訳日:2024-10-02 10:12:47 公開日:2024-09-30
# PersonalLLM: LLMを個別に選好する

PersonalLLM: Tailoring LLMs to Individual Preferences ( http://arxiv.org/abs/2409.20296v1 )

ライセンス: Link先を確認
Thomas P. Zollo, Andrew Wei Tung Siah, Naimeng Ye, Ang Li, Hongseok Namkoong, (参考訳) LLMが複雑なタスクをこなすようになるにつれ、ユーザの微妙で慣用的な好みに合わせてパーソナライズされたインタラクションの可能性が高まっている。 我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。 均一な選好を暗黙的に仮定する既存のアライメントベンチマークとは別に、我々は、不均一な潜伏選好を表示することを期待される多くの高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。 人に対して均質な嗜好をもたらす高レベルな属性(例えば、ユーザの人種や応答長)に基づく個人プロンプティング LLM の代わりに、事前学習された報酬モデルから多種多様な嗜好を持つ大規模ユーザベースをシミュレートする手法を開発した。 我々のデータセットと生成されたパーソナリティは、個人化アルゴリズムを開発するための革新的なテストベッドを提供します。 我々は、PersonalLLMの実用性を説明するために、基礎的なコンテキスト内学習とメタラーニングベースラインを探求し、今後の方法論開発の必要性を強調した。 私たちのデータセットはhttps://huggingface.co/datasets/namkoong-lab/PersonalLLMで利用可能です。

As LLMs become capable of complex tasks, there is growing potential for personalized interactions tailored to the subtle and idiosyncratic preferences of the user. We present a public benchmark, PersonalLLM, focusing on adapting LLMs to provide maximal benefits for a particular user. Departing from existing alignment benchmarks that implicitly assume uniform preferences, we curate open-ended prompts paired with many high-quality answers over which users would be expected to display heterogeneous latent preferences. Instead of persona-prompting LLMs based on high-level attributes (e.g., user's race or response length), which yields homogeneous preferences relative to humans, we develop a method that can simulate a large user base with diverse preferences from a set of pre-trained reward models. Our dataset and generated personalities offer an innovative testbed for developing personalization algorithms that grapple with continual data sparsity--few relevant feedback from the particular user--by leveraging historical data from other (similar) users. We explore basic in-context learning and meta-learning baselines to illustrate the utility of PersonalLLM and highlight the need for future methodological development. Our dataset is available at https://huggingface.co/datasets/namkoong-lab/PersonalLLM
翻訳日:2024-10-02 10:12:47 公開日:2024-09-30
# 平易な言語とインデックス言語: 図面, 順調さ, 機会

Explain in Plain Language Questions with Indic Languages: Drawbacks, Affordances, and Opportunities ( http://arxiv.org/abs/2409.20297v1 )

ライセンス: Link先を確認
David H. Smith IV, Viraj Kumar, Paul Denny, (参考訳) 背景: イントロダクティブコンピュータサイエンスコースでは, 学生のコード理解スキルを育成・評価するために, 「平易な英語で説明する」活動を利用しているが, これらの質問に対する効果的なオートグラファーの作成は困難であり, 英語に限られている。 これは、学生が英語の習熟度に限界があるインドのような言語的に多様な国において、特に課題である。 方法: 最近導入されたコード生成ベースグラディング (CGBG) による言語に依存しない「平易な言語での説明 (EiPL) 活動の実現効果を評価した。 ここで、学生のEiPL応答は、記述されていた元の値と機能的等価性をテストするコードを生成する。 目的: インドで最も一般的に話されている10言語のうち、正しいEiPL応答から生成されたコードの正確性を評価する。 本手法の有効性を評価するため,NPTEL(National Programme on Technology Enhanced Learning)コースにおいて,EiPL質問の学生の成功と知覚を評価する。 結果: 正しいEePL応答の翻訳から生成したコードの正当性について, ほとんどの言語が75%以上の正当性を達成するという有望な結果が得られた。 しかし、実際には、多くの学生が英語を専門言語として親しみやすく、母国語で書くのが難しいこと、母国語のプロンプトからコードを生成することができないという認識から、英語で回答することを好んだ。

Background: Introductory computer science courses use ``Explain in Plain English'' (EiPE) activities to develop and assess students' code comprehension skills, but creating effective autograders for these questions is challenging and limited to English. This is a particular challenge in linguistically diverse countries like India where students may have limited proficiency in English. Methods: We evaluate the efficacy of a recently introduced approach called Code Generation Based Grading (CGBG) in enabling language agnostic ``Explain in Plain Language'' (EiPL) activities. Here students' EiPL responses generate code that is tested for functional equivalence to the original which was being described. Objectives: We initially evaluate the correctness of code generated from correct EiPL responses provided in 10 of India's most commonly spoken languages. To evaluate the effectiveness of the approach in practice, we assess student success and perceptions of EiPL questions in a NPTEL (National Programme on Technology Enhanced Learning) course. Results: We find promising results for the correctness of code generated from translations of correct EiPL responses, with most languages achieving a correctness rate of 75% or higher. However, in practice, many students preferred to respond in English due to greater familiarity with English as a technical language, difficulties writing in their native language, and perceptions of the grader being less capable of generating code from prompts in their mother tongue.
翻訳日:2024-10-02 10:12:47 公開日:2024-09-30
# トランスデューサを用いたマルチスケジューラASRのアライメントフリートレーニング

Alignment-Free Training for Transducer-based Multi-Talker ASR ( http://arxiv.org/abs/2409.20301v1 )

ライセンス: Link先を確認
Takafumi Moriya, Shota Horiguchi, Marc Delcroix, Ryo Masumura, Takanori Ashihara, Hiroshi Sato, Kohei Matsuura, Masato Mimura, (参考訳) RNNトランスデューサ(RNNT)を拡張してマルチトーク音声を認識することは、より広い自動音声認識(ASR)アプリケーションに不可欠である。 マルチストーカーRNNT(MT-RNNT)は、フロントエンドのソース分離を犠牲にすることなく、認識を実現することを目的としている。 MT-RNNTは、伝統的に複数のエンコーダやデコーダを持つアーキテクチャを用いて実装されるか、または全ての話者の書き起こしを単一の出力ストリームにシリアライズすることによって実装されている。 最初のアプローチは計算コストが高く、特にマルチエンコーダ処理が必要なためである。 対照的に、第2のアプローチは複雑なラベル生成プロセスであり、外部のASRシステムから得られる全ての話者によって話される全ての単語の正確なタイムスタンプを必要とする。 本稿では,MT-RNNTアーキテクチャを採用したMT-RNNT(MT-RNNT-AFT)のアライメントフリートレーニング手法を提案する。 ターゲットラベルは、書き起こし開始時に各話者に対応するプロンプトトークンを付加し、混合における各話者の出現順序を反映して作成する。 したがって、MT-RNNT-AFTは正確なアライメントに頼ることなく訓練が可能であり、全ての話者の音声を1ラウンドのエンコーダ処理で認識することができる。 実験の結果、MT-RNNT-AFTは最先端の代替品に匹敵する性能を達成し、トレーニングプロセスを大幅に単純化した。

Extending the RNN Transducer (RNNT) to recognize multi-talker speech is essential for wider automatic speech recognition (ASR) applications. Multi-talker RNNT (MT-RNNT) aims to achieve recognition without relying on costly front-end source separation. MT-RNNT is conventionally implemented using architectures with multiple encoders or decoders, or by serializing all speakers' transcriptions into a single output stream. The first approach is computationally expensive, particularly due to the need for multiple encoder processing. In contrast, the second approach involves a complex label generation process, requiring accurate timestamps of all words spoken by all speakers in the mixture, obtained from an external ASR system. In this paper, we propose a novel alignment-free training scheme for the MT-RNNT (MT-RNNT-AFT) that adopts the standard RNNT architecture. The target labels are created by appending a prompt token corresponding to each speaker at the beginning of the transcription, reflecting the order of each speaker's appearance in the mixtures. Thus, MT-RNNT-AFT can be trained without relying on accurate alignments, and it can recognize all speakers' speech with just one round of encoder processing. Experiments show that MT-RNNT-AFT achieves performance comparable to that of the state-of-the-art alternatives, while greatly simplifying the training process.
翻訳日:2024-10-02 10:12:47 公開日:2024-09-30
# OM4OV: オントロジーバージョニングにおけるオントロジーマッチングの活用

OM4OV: Leveraging Ontology Matching for Ontology Versioning ( http://arxiv.org/abs/2409.20302v1 )

ライセンス: Link先を確認
Zhangcheng Qiang, Kerry Taylor, (参考訳) セマンティックウェブの動的な性質のため、オントロジーバージョンコントロールは時間変化情報を取得するために必要であり、特に広く使われているオントロジーにとって重要である。 従来からオントロジーバージョニング(OV)は,効率的なオントロジー管理において重要な要素として認識されてきたが,手作業によるオントロジーの増大と,現在のOVアプローチの過大化による誤りを蓄積する。 本稿では,既存のオントロジーマッチング(OM)技術とシステムを用いてOVを実行する方法を提案する。 統合OM4OVパイプラインを導入する。 OMの観点から、OVタスクのための新しいタスク定式化、性能測定、データセット構築を再構築する。 また,OMからの事前アライメントを再利用し,一致率を効果的に低減し,全体的なOV性能を向上させるための相互参照機構を提案する。 我々は,OM4OVパイプラインとその相互参照機構をアライメント評価イニシアチブ(OAEI)の3つのデータセットを用いて実験的に検証し,OVタスクに使用されるOMの洞察を利用する。

Due to the dynamic nature of the semantic web, ontology version control is required to capture time-varying information, most importantly for widely-used ontologies. Despite the long-standing recognition of ontology versioning (OV) as a crucial component for efficient ontology management, the growing size of ontologies and accumulating errors caused by manual labour overwhelm current OV approaches. In this paper, we propose yet another approach to performing OV using existing ontology matching (OM) techniques and systems. We introduce a unified OM4OV pipeline. From an OM perspective, we reconstruct a new task formulation, performance measurement, and dataset construction for OV tasks. Reusing the prior alignment(s) from OM, we also propose a cross-reference mechanism to effectively reduce the matching candidature and improve overall OV performance. We experimentally validate the OM4OV pipeline and its cross-reference mechanism using three datasets from the Alignment Evaluation Initiative (OAEI) and exploit insights on OM used for OV tasks.
翻訳日:2024-10-02 10:12:47 公開日:2024-09-30
# 言語モデルにおける行動評価における暗黙のレプリケーション危機 : 証拠と解決法

A Looming Replication Crisis in Evaluating Behavior in Language Models? Evidence and Solutions ( http://arxiv.org/abs/2409.20303v1 )

ライセンス: Link先を確認
Laurène Vaugrante, Mathias Niepert, Thilo Hagendorff, (参考訳) 大規模言語モデル (LLMs) が広範囲の日常アプリケーションに統合されつつある時代には、これらのモデルの振る舞いの研究が急増している。 しかし、この分野の新規性から、明確な方法論ガイドラインが欠落している。 このことは、LLMの振る舞いの研究から得られた洞察の複製性と一般化可能性に関する懸念を提起する。 本研究は,LLMの推論能力に影響を及ぼす技術に焦点をあてた一連の複製実験により,複製危機の潜在的なリスクを論じ,我々の懸念を裏付けるものである。 GPT-3.5, GPT-4o, Gemini 1.5 Pro, Claude 3 Opus, Llama 3-8B, Llama 3-70B, on the chain-of-thinkt, EmotionPrompting, ExpertPrompting, Sandbagging, and a re-Reading prompt engineering technique, using manual-checked subsets of reasoning benchmarks including CommonsenseQA, CRT, NumGLUE, ScienceQA, StrategyQA。 以上の結果から, 従来の手法では, ほぼすべての手法で統計的に有意な差が認められなかったことが判明した。 本研究では,LCMの評価,音響ベンチマークの確立,モデル出力の正確かつ確実な評価を保証するための厳密な実験フレームワークの設計など,堅牢な手法の開発を含む,先進的なアプローチを提案する。

In an era where large language models (LLMs) are increasingly integrated into a wide range of everyday applications, research into these models' behavior has surged. However, due to the novelty of the field, clear methodological guidelines are lacking. This raises concerns about the replicability and generalizability of insights gained from research on LLM behavior. In this study, we discuss the potential risk of a replication crisis and support our concerns with a series of replication experiments focused on prompt engineering techniques purported to influence reasoning abilities in LLMs. We tested GPT-3.5, GPT-4o, Gemini 1.5 Pro, Claude 3 Opus, Llama 3-8B, and Llama 3-70B, on the chain-of-thought, EmotionPrompting, ExpertPrompting, Sandbagging, as well as Re-Reading prompt engineering techniques, using manually double-checked subsets of reasoning benchmarks including CommonsenseQA, CRT, NumGLUE, ScienceQA, and StrategyQA. Our findings reveal a general lack of statistically significant differences across nearly all techniques tested, highlighting, among others, several methodological weaknesses in previous research. We propose a forward-looking approach that includes developing robust methodologies for evaluating LLMs, establishing sound benchmarks, and designing rigorous experimental frameworks to ensure accurate and reliable assessments of model outputs.
翻訳日:2024-10-02 10:12:47 公開日:2024-09-30
# 量子リピータネットワークのテレポーテーション忠実性

Teleportation fidelity of quantum repeater networks ( http://arxiv.org/abs/2409.20304v1 )

ライセンス: Link先を確認
Ganesh Mylavarapu, Subrata Ghosh, Chittaranjan Hens, Indranil Chakrabarty, Subhadip Mitra, (参考訳) 大規模量子リピータネットワークにおける全ノード間の最大テレポーテーション忠実度の平均は,ネットワーク全体の資源性の尺度であることを示す。 我々は、単純なヴェルナー状態ベースモデルを用いて、この測度に関して基本的な(ループのない)位相(スター、チェーン、およびいくつかの木)を3つの(半)現実的シナリオで特徴づける。 結果の多くは解析的であり、任意のネットワークサイズに適用できる。 これらのネットワークが量子的優位性を達成できるパラメータ範囲を特定し、大きなNの挙動を示す。

We show that the average of the maximum teleportation fidelities between all pairs of nodes in a large quantum repeater network is a measure of the resourcefulness of the network as a whole. We use simple Werner state-based models to characterise some fundamental (loopless) topologies (star, chain, and some trees) with respect to this measure in three (semi)realistic scenarios. Most of our results are analytic and are applicable for arbitrary network sizes. We identify the parameter ranges where these networks can achieve quantum advantages and show the large-N behaviours.
翻訳日:2024-10-02 10:12:47 公開日:2024-09-30
# SSMは多変量時系列から重合される

A SSM is Polymerized from Multivariate Time Series ( http://arxiv.org/abs/2409.20310v1 )

ライセンス: Link先を確認
Haixiang Wu, (参考訳) 多変量時系列(MTS)タスクでは、以前の状態空間モデル(SSM)はTransformerベースの手法のモデリングパラダイムに従った。 しかし、いずれもMSSの複雑な依存関係を明示的にモデル化するものではない:Channel Dependency variation with Time (CDT)である。 この観点から、直交関数基底による継続的更新関数の近似を含むSSMの導出を掘り下げる。 MTS予測の新しい手法であるPoly-Mambaを開発した。 その中心となる概念は、元の直交関数基底空間を可変混合項を含む多変数直交関数空間に拡張し、重み付き係数でCDTを明示的に記述するために、この空間上に射影することである。 ポリマンバでは,多変数直交多項式近似 (MOPA) をこの概念の簡易な実装として提案する。 チャネル間の単純な線形関係について,Linear Channel Mixing (LCM) を提案し,提案手法により異なるチャネルに対して適応的にCDTパターンを生成する。 6つの実世界のデータセットの実験では、Poly-MambaはSOTAメソッドよりも優れており、特に多数のチャネルと複雑な相関を持つデータセットを扱う場合である。 コードとログファイルは、https://github.com/Joeland4/Poly-Mamba.comでリリースされる。

For multivariate time series (MTS) tasks, previous state space models (SSMs) followed the modeling paradigm of Transformer-based methods. However, none of them explicitly model the complex dependencies of MTS: the Channel Dependency variations with Time (CDT). In view of this, we delve into the derivation of SSM, which involves approximating continuously updated functions by orthogonal function bases. We then develop Poly-Mamba, a novel method for MTS forecasting. Its core concept is to expand the original orthogonal function basis space into a multivariate orthogonal function space containing variable mixing terms, and make a projection on this space so as to explicitly describe the CDT by weighted coefficients. In Poly-Mamba, we propose the Multivariate Orthogonal Polynomial Approximation (MOPA) as a simplified implementation of this concept. For the simple linear relationship between channels, we propose Linear Channel Mixing (LCM) and generate CDT patterns adaptively for different channels through a proposed Order Combining method. Experiments on six real-world datasets demonstrate that Poly-Mamba outperforms the SOTA methods, especially when dealing with datasets having a large number of channels and complex correlations. The codes and log files will be released at: https://github.com/Joeland4/Poly-Mamba.
翻訳日:2024-10-02 10:12:47 公開日:2024-09-30
# 内部音響モデルトレーニングとデュアルブランク閾値を併用したハイブリッド自己回帰トランスデューサを用いたASR

Boosting Hybrid Autoregressive Transducer-based ASR with Internal Acoustic Model Training and Dual Blank Thresholding ( http://arxiv.org/abs/2409.20313v1 )

ライセンス: Link先を確認
Takafumi Moriya, Takanori Ashihara, Masato Mimura, Hiroshi Sato, Kohei Matsuura, Ryo Masumura, Taichi Asami, (参考訳) ハイブリッド自己回帰トランスデューサ(英: hybrid autoregressive Transducer、HAT)は、ブランクと非ブランクの後方分布を別々にモデル化したニューラルトランスデューサの一種である。 本稿では,HATに基づく音声認識を強化するための新しい内部音響モデル(IAM)トレーニング戦略を提案する。 IAMはエンコーダとジョイントネットワークで構成されており、完全に共有され、HATと共同で訓練されている。 この共同トレーニングは、HATトレーニング効率を向上するだけでなく、IAMとHATは同期的にブランクを出力し、より高価な非ブランク計算をスキップする。 実験により、バニラHATと比較してHATとIAMの相対誤差の減少が統計的に有意であることが示された。 さらに,HAT-およびIAM-ブランクしきい値と互換性のある復号アルゴリズムを組み合わせた二重空白しきい値処理を導入する。 その結果、42-75%のデコード速度が向上し、性能が大幅に低下することはなかった。

A hybrid autoregressive transducer (HAT) is a variant of neural transducer that models blank and non-blank posterior distributions separately. In this paper, we propose a novel internal acoustic model (IAM) training strategy to enhance HAT-based speech recognition. IAM consists of encoder and joint networks, which are fully shared and jointly trained with HAT. This joint training not only enhances the HAT training efficiency but also encourages IAM and HAT to emit blanks synchronously which skips the more expensive non-blank computation, resulting in more effective blank thresholding for faster decoding. Experiments demonstrate that the relative error reductions of the HAT with IAM compared to the vanilla HAT are statistically significant. Moreover, we introduce dual blank thresholding, which combines both HAT- and IAM-blank thresholding and a compatible decoding algorithm. This results in a 42-75% decoding speed-up with no major performance degradation.
翻訳日:2024-10-02 07:56:35 公開日:2024-09-30
# ニューラルネットワークを用いたオンライン量子ドット電荷自動調整実験

Experimental Online Quantum Dots Charge Autotuning Using Neural Network ( http://arxiv.org/abs/2409.20320v1 )

ライセンス: Link先を確認
Victor Yon, Bastien Galaup, Claude Rohrbacher, Joffrey Rivard, Alexis Morel, Dominic Leclerc, Clement Godfrin, Ruoyu Li, Stefan Kubicek, Kristiaan De Greve, Eva Dupont-Ferrier, Yann Beilliard, Roger G. Melko, Dominique Drouin, (参考訳) スピンベースの半導体量子ビットはスケーラブルな量子コンピューティングを約束するが、それらは信頼できる自律的なキャリブレーション手順を必要とする。 本研究では,クローズドループキャリブレーションシステムに統合された畳み込みニューラルネットワークを用いたオンライン単ドット電荷自動チューニングの実験的検討を行った。 オートチューニングアルゴリズムはゲートの電圧空間を探索し、電荷遷移線を局所化し、人間の介入なしに1電子状態を分離する。 25mKまで冷却した装置上での20回の試験走行において、目標電子状態の配置において95%の成功率を達成し、オフライントレーニングセットからのノイズや分布シフトに対するこの手法の堅牢性を強調した。 各チューニングランは、主に現在の測定速度の制限のために平均2時間9分持続した。 本研究は,量子ドットデバイスにおける機械学習駆動リアルタイム電荷自動チューニングの実現可能性を検証する。

Spin-based semiconductor qubits hold promise for scalable quantum computing, yet they require reliable autonomous calibration procedures. This study presents an experimental demonstration of online single-dot charge autotuning using a convolutional neural network integrated into a closed-loop calibration system. The autotuning algorithm explores the gates' voltage space to localize charge transition lines, thereby isolating the one-electron regime without human intervention. In 20 experimental runs on a device cooled to 25mK, the method achieved a success rate of 95% in locating the target electron regime, highlighting the robustness of this method against noise and distribution shifts from the offline training set. Each tuning run lasted an average of 2 hours and 9 minutes, primarily due to the limited speed of the current measurement. This work validates the feasibility of machine learning-driven real-time charge autotuning for quantum dot devices, advancing the development toward the control of large qubit arrays.
翻訳日:2024-10-02 07:56:35 公開日:2024-09-30
# HEADS-UP:Blind Assistance Systemにおける軌道予測のためのヘッドマウントエゴセントリックデータセット

HEADS-UP: Head-Mounted Egocentric Dataset for Trajectory Prediction in Blind Assistance Systems ( http://arxiv.org/abs/2409.20324v1 )

ライセンス: Link先を確認
Yasaman Haghighi, Celine Demonsant, Panagiotis Chalimourdas, Maryam Tavasoli Naeini, Jhon Kevin Munoz, Bladimir Bacca, Silvan Suter, Matthieu Gani, Alexandre Alahi, (参考訳) 本稿では,ヘッドマウントカメラから収集された最初のエゴセントリックなデータセットであるHEADS-UPについて紹介する。 視覚障害者や視覚障害者の人口増加に伴い、動的障害物との衝突をリアルタイムに警告するインテリジェント補助ツールの必要性が高まっている。 これらのシステムは、歩行者などの移動物体の軌跡を予測し、タイムリーな危険警報を発行するアルゴリズムに依存している。 しかし、既存のデータセットは、盲目の個人の観点から必要な情報を取得できない。 このギャップに対処するため、HEADS-UPは、このコンテキストにおける軌道予測に焦点を当てた、新しいデータセットを提供する。 このデータセットを活用することで、動的環境下での視覚障害者と歩行者の衝突リスクを評価するための半局所軌道予測手法を提案する。 視覚障害者(エゴエージェント)と歩行者の両方の軌跡を別々に予測する従来の手法とは異なり、本手法は半局所座標系(カメラの座標系の回転バージョン)内で動作し、予測プロセスを容易にする。 提案手法をHEADS-UPデータセット上で検証し,提案手法をROSで実装し,NVIDIA Jetson GPU上で実時間テストを行う。 データセット評価とライブテストの両方の結果は、我々のアプローチの堅牢性と効率を実証している。

In this paper, we introduce HEADS-UP, the first egocentric dataset collected from head-mounted cameras, designed specifically for trajectory prediction in blind assistance systems. With the growing population of blind and visually impaired individuals, the need for intelligent assistive tools that provide real-time warnings about potential collisions with dynamic obstacles is becoming critical. These systems rely on algorithms capable of predicting the trajectories of moving objects, such as pedestrians, to issue timely hazard alerts. However, existing datasets fail to capture the necessary information from the perspective of a blind individual. To address this gap, HEADS-UP offers a novel dataset focused on trajectory prediction in this context. Leveraging this dataset, we propose a semi-local trajectory prediction approach to assess collision risks between blind individuals and pedestrians in dynamic environments. Unlike conventional methods that separately predict the trajectories of both the blind individual (ego agent) and pedestrians, our approach operates within a semi-local coordinate system, a rotated version of the camera's coordinate system, facilitating the prediction process. We validate our method on the HEADS-UP dataset and implement the proposed solution in ROS, performing real-time tests on an NVIDIA Jetson GPU through a user study. Results from both dataset evaluations and live tests demonstrate the robustness and efficiency of our approach.
翻訳日:2024-10-02 07:56:35 公開日:2024-09-30
# 対人顧客を緩和するフェデレーション学習におけるファインチューニングのパーソナライズ

Fine-Tuning Personalization in Federated Learning to Mitigate Adversarial Clients ( http://arxiv.org/abs/2409.20329v1 )

ライセンス: Link先を確認
Youssef Allouah, Abdellah El Mrini, Rachid Guerraoui, Nirupam Gupta, Rafael Pinot, (参考訳) フェデレートラーニング(Federated Learning, FL)は、複数のマシン(例えばクライアント)がデータをローカルに保持しながら一括学習できる、魅力的なパラダイムである。 しかし、クライアントのデータ分布の不均一性のため、FLアルゴリズムを用いて得られたモデルは、一部のクライアントのデータに対して不均一に動作する可能性がある。 パーソナライゼーションは、各クライアントが自身のデータに合わせて異なるモデルを持つと同時に、他のクライアントのデータから利益を得ることを可能にすることで、この問題に対処する。 我々は、一部のクライアントが敵対できるFL設定を検討し、完全なコラボレーションが失敗する条件を導出する。 具体的には、対立するクライアントの存在下で、補間されたパーソナライズされたFLフレームワークの一般化性能を分析し、フルコラボレーションが微調整されたパーソナライゼーションよりもはるかに悪い場合を正確に特徴付ける。 我々の分析は、データの不均一性と耐え難い少数の敵クライアントによって、どの程度のコラボレーションレベルをスケールダウンすべきかを決定する。 合成画像分類データセットとベンチマーク画像分類データセットを考慮し,平均推定と二項分類問題に関する実証的な結果を得た。

Federated learning (FL) is an appealing paradigm that allows a group of machines (a.k.a. clients) to learn collectively while keeping their data local. However, due to the heterogeneity between the clients' data distributions, the model obtained through the use of FL algorithms may perform poorly on some client's data. Personalization addresses this issue by enabling each client to have a different model tailored to their own data while simultaneously benefiting from the other clients' data. We consider an FL setting where some clients can be adversarial, and we derive conditions under which full collaboration fails. Specifically, we analyze the generalization performance of an interpolated personalized FL framework in the presence of adversarial clients, and we precisely characterize situations when full collaboration performs strictly worse than fine-tuned personalization. Our analysis determines how much we should scale down the level of collaboration, according to data heterogeneity and the tolerable fraction of adversarial clients. We support our findings with empirical results on mean estimation and binary classification problems, considering synthetic and benchmark image classification datasets.
翻訳日:2024-10-02 07:56:35 公開日:2024-09-30
# Devil is in details: The Locality-Aware 3D Abdominal CT Volume Generation for Self-Supervised Organ Segmentation (特集 バイオサイバネティックスとバイオサイバネティックス)

Devil is in Details: Locality-Aware 3D Abdominal CT Volume Generation for Self-Supervised Organ Segmentation ( http://arxiv.org/abs/2409.20332v1 )

ライセンス: Link先を確認
Yuran Wang, Zhijing Wan, Yansheng Qiu, Zheng Wang, (参考訳) 医療画像分析の分野では、自己教師付き学習(SSL)技術がラベリング要求を緩和する一方で、リソース要件とプライバシ制約のエスカレートによるデータ不足のトレーニングという課題に直面している。 多くの努力は、多種多様なモダリティと解剖学的領域にわたる高忠実でラベルなしの3Dボリュームを生成するために生成モデルを用いている。 しかし,腹部の複雑な解剖学的構造は,他の解剖学的領域と比較すると,腹部CTボリューム生成に固有の課題となる。 そこで本研究では3次元腹部CTボリューム生成のための新しい手法であるLocality-Aware Diffusion (Lad)を提案する。 我々は,重要な解剖学的領域を洗練させる局所性喪失を設計し,腹部術前を生成に組み込む条件抽出器を考案し,ラベルや放射線検査などの追加データを必要としないSSLタスクに不可欠な高画質の腹部CTボリュームの生成を可能にする。 その結果,AbdomenCT-1KデータセットのFIDスコアは0.0034から0.0002に低下し,真偽データを忠実に反映し,現在の手法を超越した。 その結果,2つの腹部データセットの平均Diceスコアを効果的に向上させることができた。 これらの結果は, 医用画像解析における自己教師あり学習を促進するための合成データの可能性を明らかにするものである。

In the realm of medical image analysis, self-supervised learning (SSL) techniques have emerged to alleviate labeling demands, while still facing the challenge of training data scarcity owing to escalating resource requirements and privacy constraints. Numerous efforts employ generative models to generate high-fidelity, unlabeled 3D volumes across diverse modalities and anatomical regions. However, the intricate and indistinguishable anatomical structures within the abdomen pose a unique challenge to abdominal CT volume generation compared to other anatomical regions. To address the overlooked challenge, we introduce the Locality-Aware Diffusion (Lad), a novel method tailored for exquisite 3D abdominal CT volume generation. We design a locality loss to refine crucial anatomical regions and devise a condition extractor to integrate abdominal priori into generation, thereby enabling the generation of large quantities of high-quality abdominal CT volumes essential for SSL tasks without the need for additional data such as labels or radiology reports. Volumes generated through our method demonstrate remarkable fidelity in reproducing abdominal structures, achieving a decrease in FID score from 0.0034 to 0.0002 on AbdomenCT-1K dataset, closely mirroring authentic data and surpassing current methods. Extensive experiments demonstrate the effectiveness of our method in self-supervised organ segmentation tasks, resulting in an improvement in mean Dice scores on two abdominal datasets effectively. These results underscore the potential of synthetic data to advance self-supervised learning in medical image analysis.
翻訳日:2024-10-02 07:56:35 公開日:2024-09-30
# コントラスト学習に基づく多段階プログレッシブファインタニングSNNとRLに基づく外部最適化によるGANの強化

Enhancing GANs with Contrastive Learning-Based Multistage Progressive Finetuning SNN and RL-Based External Optimization ( http://arxiv.org/abs/2409.20340v1 )

ライセンス: Link先を確認
Osama Mustafa, (参考訳) がん研究、特に早期診断、症例理解、治療戦略設計におけるディープラーニングの応用は、高品質なデータの必要性を強調している。 生成AI、特にGAN(Generative Adversarial Networks)は、患者のプライバシと実際のデータの不足に起因する問題に対処しながら、クラス不均衡、堅牢な学習、モデルトレーニングといった課題に対する主要なソリューションとして登場した。 彼らの約束にもかかわらず、GANは、組織学的データに固有の、いくつかの課題に直面している。 原因となる問題としては、トレーニングの不均衡、モード崩壊、差別化の不十分なフィードバックからの線形学習、厳密なフィードバックによるハードバウンダリ収束などがある。 病理組織学的データは、その複雑な表現、高空間分解能、マルチスケールの特徴でユニークな課題を呈している。 これらの課題に対処するため、我々は2つのコンポーネントからなるフレームワークを提案する。 まず,MFT-SNN(Multi stage Progressive Finetuning Siamese Neural Network)を導入し,病理組織学的パッチの類似性を評価する。 第2に、GANトレーニングループ内に強化学習に基づく外部最適化器(RL-EO)を実装し、報酬信号生成装置として機能する。 改良された判別器損失関数は、重み付けされた報酬を取り入れ、損失を最小化しつつ、この報酬を最大化するためにGANを誘導する。 このアプローチは、ディスクリミネータに対する外部最適化ガイドを提供し、ジェネレータオーバーフィットを防止し、スムーズな収束を保証する。 提案手法は、FIDスコア、KIDスコア、知覚パス長、下流分類タスクなど、様々な指標において、従来のSOTAよりも優れている。

The application of deep learning in cancer research, particularly in early diagnosis, case understanding, and treatment strategy design, emphasizes the need for high-quality data. Generative AI, especially Generative Adversarial Networks (GANs), has emerged as a leading solution to challenges like class imbalance, robust learning, and model training, while addressing issues stemming from patient privacy and the scarcity of real data. Despite their promise, GANs face several challenges, both inherent and specific to histopathology data. Inherent issues include training imbalance, mode collapse, linear learning from insufficient discriminator feedback, and hard boundary convergence due to stringent feedback. Histopathology data presents a unique challenge with its complex representation, high spatial resolution, and multiscale features. To address these challenges, we propose a framework consisting of two components. First, we introduce a contrastive learning-based Multistage Progressive Finetuning Siamese Neural Network (MFT-SNN) for assessing the similarity between histopathology patches. Second, we implement a Reinforcement Learning-based External Optimizer (RL-EO) within the GAN training loop, serving as a reward signal generator. The modified discriminator loss function incorporates a weighted reward, guiding the GAN to maximize this reward while minimizing loss. This approach offers an external optimization guide to the discriminator, preventing generator overfitting and ensuring smooth convergence. Our proposed solution has been benchmarked against state-of-the-art (SOTA) GANs and a Denoising Diffusion Probabilistic model, outperforming previous SOTA across various metrics, including FID score, KID score, Perceptual Path Length, and downstream classification tasks.
翻訳日:2024-10-02 07:56:35 公開日:2024-09-30
# 国立がん研究所イメージングデータコモンズにおける乳腺・脳・肝臓・肺・前立腺癌収集のためのAI生成アノテーション

AI generated annotations for Breast, Brain, Liver, Lungs and Prostate cancer collections in National Cancer Institute Imaging Data Commons ( http://arxiv.org/abs/2409.20342v1 )

ライセンス: Link先を確認
Gowtham Krishnan Murugesan, Diana McCrumb, Rahul Soni, Jithendra Kumar, Leonard Nuernberg, Linmin Pei, Ulrike Wagner, Sutton Granger, Andrey Y. Fedorov, Stephen Moore, Jeff Van Oss, (参考訳) AI in Medical Imagingプロジェクトは、nU-Netモデルを開発し、がん放射線画像のためのAIアシストセグメンテーションを提供することで、国立がん研究所(NCI)イメージデータコモンズ(IDC)を強化することを目的としている。 私たちは、11のIDCコレクションのための高品質なAIアノテーション付き画像データセットを作成しました。 これらのデータセットには、CT(Computed tomography)やMRI(MRI)などの様々なモダリティの画像が含まれており、肺、乳房、脳、腎臓、前立腺、肝臓をカバーしている。 nnU-Netモデルは、オープンソースデータセットを使用してトレーニングされた。 AI生成アノテーションの一部は、放射線学者によってレビューされ、修正された。 AIとラジオロジストアノテーションはいずれも、DICOM(Digital Imaging and Communications in Medicine)標準に従ってエンコードされ、IDCコレクションへのシームレスな統合が保証された。 全てのモデル、画像、アノテーションは公開されており、がん画像のさらなる研究と開発を促進する。 この研究は、包括的な正確な注釈付きデータセットを提供することで、画像ツールとアルゴリズムの進歩を支援する。

AI in Medical Imaging project aims to enhance the National Cancer Institute's (NCI) Image Data Commons (IDC) by developing nnU-Net models and providing AI-assisted segmentations for cancer radiology images. We created high-quality, AI-annotated imaging datasets for 11 IDC collections. These datasets include images from various modalities, such as computed tomography (CT) and magnetic resonance imaging (MRI), covering the lungs, breast, brain, kidneys, prostate, and liver. The nnU-Net models were trained using open-source datasets. A portion of the AI-generated annotations was reviewed and corrected by radiologists. Both the AI and radiologist annotations were encoded in compliance with the the Digital Imaging and Communications in Medicine (DICOM) standard, ensuring seamless integration into the IDC collections. All models, images, and annotations are publicly accessible, facilitating further research and development in cancer imaging. This work supports the advancement of imaging tools and algorithms by providing comprehensive and accurate annotated datasets.
翻訳日:2024-10-02 07:56:35 公開日:2024-09-30
# Javaのデコンパイルにおけるコードの理解可能性の最小化と評価

Demystifying and Assessing Code Understandability in Java Decompilation ( http://arxiv.org/abs/2409.20343v1 )

ライセンス: Link先を確認
Ruixin Qin, Yifan Xiong, Yifei Lu, Minxue Pan, (参考訳) 機械レベルのコードを可読性のあるソースコードに変換するプロセスである逆コンパイルは、リバースエンジニアリングにおいて重要な役割を果たす。 逆コンパイルの主な目的は、ソースコードが利用できないシナリオにおけるコードの理解を促進することにあるので、逆コンパイルの可視性は非常に重要である。 本稿では,Java の非コンパイルコードの可理解性に関する最初の実証的研究を提案し,(1) Java の非コンパイルの可理解性は,その正しさと同じくらい重要であり,非コンパイルの可理解性問題は,非コンパイルの失敗よりもさらに一般的に発生する。 2) Javaデコンパイラでデコンパイルされたコードスニペットの顕著な割合は、元のソースコードと比較して、理解可能性のレベルが著しく低いか高いかを示す。 (3) 残念ながら、認知複雑度は、逆コンパイル中に様々な理解性を示すコードスニペットを認識する際に、低いリコールをしながら比較的受け入れられる精度を示す。 さらに悪いことに、パープレキシティはそのようなコードスニペットを認識する際の精度とリコールのレベルを低くする。 この4つの知見に触発されて、さらに6つのコードパターンと、非コンパイルコードの可読性を評価するための最初の指標を提案しました。 このメトリクスはCognitive Complexityから拡張され、さらに6つのルールが、徹底的なマニュアル分析から1287のソースコードスニペットとそれに対応する逆コンパイルコードに抽出された。 このメトリクスは、元のデータセットと更新されたデータセットを使って検証され、元のデータセットでは0.88、テストセットでは0.86という印象的なマクロF1スコアを得た。

Decompilation, the process of converting machine-level code into readable source code, plays a critical role in reverse engineering. Given that the main purpose of decompilation is to facilitate code comprehension in scenarios where the source code is unavailable, the understandability of decompiled code is of great importance. In this paper, we propose the first empirical study on the understandability of Java decompiled code and obtained the following findings: (1) Understandability of Java decompilation is considered as important as its correctness, and decompilation understandability issues are even more commonly encountered than decompilation failures. (2) A notable percentage of code snippets decompiled by Java decompilers exhibit significantly lower or higher levels of understandability in comparison to their original source code. (3) Unfortunately, Cognitive Complexity demonstrates relatively acceptable precision while low recall in recognizing these code snippets exhibiting diverse understandability during decompilation. (4) Even worse, perplexity demonstrates lower levels of precision and recall in recognizing such code snippets. Inspired by the four findings, we further proposed six code patterns and the first metric for the assessment of decompiled code understandability. This metric was extended from Cognitive Complexity, with six more rules harvested from an exhaustive manual analysis into 1287 pairs of source code snippets and corresponding decompiled code. This metric was also validated using the original and updated dataset, yielding an impressive macro F1-score of 0.88 on the original dataset, and 0.86 on the test set.
翻訳日:2024-10-02 07:56:35 公開日:2024-09-30
# Cable Inspect-AD: エキスパートアノテーションによる異常検出データセット

CableInspect-AD: An Expert-Annotated Anomaly Detection Dataset ( http://arxiv.org/abs/2409.20353v1 )

ライセンス: Link先を確認
Akshatha Arodi, Margaux Luck, Jean-Luc Bedwani, Aldo Zaimi, Ge Li, Nicolas Pouliot, Julien Beaudry, Gaétan Marceau Caron, (参考訳) 機械学習モデルは、現実世界のコンテキストにますますデプロイされている。 しかし, 本研究は, 特定の応用や重要な応用への伝達可能性に関する系統的研究を過小評価している。 重要な例として、ロボット電力線検査のための視覚異常検出(VAD)がある。 既存のVADメソッドは制御された環境では良好に動作しますが、現実のシナリオでは、現在のデータセットがキャプチャできない、多様で予期しない異常が発生します。 このギャップに対処するために、カナダの公共ユーティリティであるHydro-Qu\'ebecのドメインエキスパートが作成した、高品質で公開可能なデータセットである$\textit{CableInspect-AD}$を紹介します。 このデータセットには、現実世界の異常に挑戦する高解像度の画像が含まれており、さまざまな重度レベルの欠陥をカバーしている。 検出しきい値を設定する上で,様々な異常や特異な例を収集する上での課題に対処するため,有名なPatchCoreアルゴリズムの強化を提案する。 この拡張により、ラベル付きデータに制限のあるシナリオでの使用が可能になる。 また,モデルの性能を評価するために,クロスバリデーションに基づく包括的評価プロトコルを提案する。 我々の$\textit{Enhanced-PatchCore}$を、少数ショットおよび多ショット検出に、ゼロショット検出にVision-Language Modelsを評価した。 有望な一方で、これらのモデルはすべての異常を検出するのに苦労し、幅広い研究コミュニティにとって挑戦的なベンチマークとしてデータセットの価値を強調している。 プロジェクトページ: https://mila-iqia.github.io/cableinspect-ad/

Machine learning models are increasingly being deployed in real-world contexts. However, systematic studies on their transferability to specific and critical applications are underrepresented in the research literature. An important example is visual anomaly detection (VAD) for robotic power line inspection. While existing VAD methods perform well in controlled environments, real-world scenarios present diverse and unexpected anomalies that current datasets fail to capture. To address this gap, we introduce $\textit{CableInspect-AD}$, a high-quality, publicly available dataset created and annotated by domain experts from Hydro-Qu\'ebec, a Canadian public utility. This dataset includes high-resolution images with challenging real-world anomalies, covering defects with varying severity levels. To address the challenges of collecting diverse anomalous and nominal examples for setting a detection threshold, we propose an enhancement to the celebrated PatchCore algorithm. This enhancement enables its use in scenarios with limited labeled data. We also present a comprehensive evaluation protocol based on cross-validation to assess models' performances. We evaluate our $\textit{Enhanced-PatchCore}$ for few-shot and many-shot detection, and Vision-Language Models for zero-shot detection. While promising, these models struggle to detect all anomalies, highlighting the dataset's value as a challenging benchmark for the broader research community. Project page: https://mila-iqia.github.io/cableinspect-ad/.
翻訳日:2024-10-02 07:56:35 公開日:2024-09-30
# ニューラル量子カーネルを用いた衛星画像分類

Satellite image classification with neural quantum kernels ( http://arxiv.org/abs/2409.20356v1 )

ライセンス: Link先を確認
Pablo Rodriguez-Grasa, Robert Farzan-Rodriguez, Gabriele Novelli, Yue Ban, Mikel Sanz, (参考訳) 量子機械学習の短期的な実世界のシナリオにおける実践的応用は、重要な理論的努力にもかかわらず、いまだ解明されていない。 古典的モデルの一般的なタスクである画像分類は、単純なデータセットで量子アルゴリズムをベンチマークするために使われてきたが、複雑な実データ分類の課題に取り組む研究はほとんどない。 本研究では,地球観測(EO)産業に特に関心を持つ衛星画像の分類に焦点をあてて,このようなギャップに対処する。 まず,選択した内在的データセットを,その次元性を低減して前処理する。 次に、トレーニングされた量子ニューラルネットワーク(QNN)から構築されたニューラルネットワーク(NQK)組み込み量子カーネル(EQK)を用いて、ソーラーパネルを含む画像の分類を行う。 我々は$$-to-$n$と$n$-to-$NQKsについて調べる。 前者では、単一量子QNNのトレーニングのパラメータは、平均テスト精度を86%以上達成し、3つの特徴を持つ$n$-qubit EQKを構築する。 後者では、拡張性を確保するために$n$-qubit QNNを反復的にトレーニングし、結果のアーキテクチャを使って$n$-qubit EQKを直接生成します。 この場合、3つの特徴、8キュービットに対して88%以上の検定精度が得られる。 さらに,この結果がQNNの準最適トレーニングに対して堅牢であることを示す。

A practical application of quantum machine learning in real-world scenarios in the short term remains elusive, despite significant theoretical efforts. Image classification, a common task for classical models, has been used to benchmark quantum algorithms with simple datasets, but only few studies have tackled complex real-data classification challenges. In this work, we address such a gap by focusing on the classification of satellite images, a task of particular interest to the earth observation (EO) industry. We first preprocess the selected intrincate dataset by reducing its dimensionality. Subsequently, we employ neural quantum kernels (NQKs)- embedding quantum kernels (EQKs) constructed from trained quantum neural networks (QNNs)- to classify images which include solar panels. We explore both $1$-to-$n$ and $n$-to-$n$ NQKs. In the former, parameters from a single-qubit QNN's training construct an $n$-qubit EQK achieving a mean test accuracy over 86% with three features. In the latter, we iteratively train an $n$-qubit QNN to ensure scalability, using the resultant architecture to directly form an $n$-qubit EQK. In this case, a test accuracy over 88% is obtained for three features and 8 qubits. Additionally, we show that the results are robust against a suboptimal training of the QNN.
翻訳日:2024-10-02 07:56:35 公開日:2024-09-30
# Rotated Runtime Smooth: 正確なINT4推論のためのトレーニング不要のActivation Smoother

Rotated Runtime Smooth: Training-Free Activation Smoother for accurate INT4 inference ( http://arxiv.org/abs/2409.20361v1 )

ライセンス: Link先を確認
Ke Yi, Zengke Liu, Jianwei Zhang, Chengyuan Li, Tong Zhang, Junyang Lin, Jingren Zhou, (参考訳) 大規模言語モデルは、パラメータをスケールアップする上で有望な能力を示している。 しかし、大規模な言語モデルを提供すると、大規模な計算とメモリ移動のコストが発生する。 サービスコストとレイテンシを低減するために、量子化手法が採用されている。 それでも、アクティベーションの異常値がINT4の重量活性化量子化を妨げている。 既存のアプローチでは、外れ値と通常の値を2つの行列に分けたり、アクティベーションからウェイトに移行したりしています。 大規模言語モデルからのアクティベーションの観測に基づいて、外れ値はチャネルワイズとスパイク外れ値に分類できる。 本研究では,Rotated Runtime Smooth(RRS)を提案する。これは,Runtime SmoothとRotation操作からなる,量子化のためのプラグアンドプレイアクティベーションスムーサである。 Runtime Smooth (RS)は、実行中にチャネルワイドの最大値でアクティベーションを円滑にすることで、チャネルワイドのアウトリーをなくすために導入された。 回転操作はスパイクアウトレーヤと通常の値とのギャップを狭めることができ、チャネルワイドスムーシングによる犠牲者の影響を軽減することができる。 提案手法は,LLaMAおよびQwenファミリーにおける最先端の手法より優れており,IF4推論におけるWikiText-2の難易度は57.33から6.66に向上している。

Large language models have demonstrated promising capabilities upon scaling up parameters. However, serving large language models incurs substantial computation and memory movement costs due to their large scale. Quantization methods have been employed to reduce service costs and latency. Nevertheless, outliers in activations hinder the development of INT4 weight-activation quantization. Existing approaches separate outliers and normal values into two matrices or migrate outliers from activations to weights, suffering from high latency or accuracy degradation. Based on observing activations from large language models, outliers can be classified into channel-wise and spike outliers. In this work, we propose Rotated Runtime Smooth (RRS), a plug-and-play activation smoother for quantization, consisting of Runtime Smooth and the Rotation operation. Runtime Smooth (RS) is introduced to eliminate channel-wise outliers by smoothing activations with channel-wise maximums during runtime. The rotation operation can narrow the gap between spike outliers and normal values, alleviating the effect of victims caused by channel-wise smoothing. The proposed method outperforms the state-of-the-art method in the LLaMA and Qwen families and improves WikiText-2 perplexity from 57.33 to 6.66 for INT4 inference.
翻訳日:2024-10-02 07:56:35 公開日:2024-09-30
# 大規模言語モデルを用いたエッジデバイス上での効率的な運転行動ナレーションと推論

Efficient Driving Behavior Narration and Reasoning on Edge Device Using Large Language Models ( http://arxiv.org/abs/2409.20364v1 )

ライセンス: Link先を確認
Yizhou Huang, Yihua Cheng, Kezhi Wang, (参考訳) 強力な推論能力を持つディープラーニングアーキテクチャは、自動運転技術の大幅な進歩を促している。 この分野に応用された大規模言語モデル(LLM)は、特に視覚的タスクにおいて、人間の知覚に類似したレベルの精度で、運転シーンや行動を記述することができる。 一方、エッジコンピューティングの急速な発展は、データソースに近接する利点を生かして、エッジデバイスが自律運転においてますます重要になっている。 エッジデバイスはデータをローカルに処理し、送信遅延と帯域幅の使用量を削減し、応答時間を短縮する。 本研究では,LLMをエッジデバイスに適用した運転行動ナレーションと推論フレームワークを提案する。 フレームワークは複数のロードサイドユニットで構成され、各ユニットにLSMが配置されている。 これらの道路ユニットは道路データを収集し、5G NSR/NRネットワークを介して通信する。 実験により,エッジデバイスに展開したLCMは,応答速度が良好であることが確認された。 さらに,システムのナレーションと推論性能を高めるための迅速な戦略を提案する。 この戦略は、環境、エージェント、モーションデータを含むマルチモーダル情報を統合する。 OpenDV-Youtubeデータセットで行った実験は、我々のアプローチが両タスク間で性能を大幅に改善することを示した。

Deep learning architectures with powerful reasoning capabilities have driven significant advancements in autonomous driving technology. Large language models (LLMs) applied in this field can describe driving scenes and behaviors with a level of accuracy similar to human perception, particularly in visual tasks. Meanwhile, the rapid development of edge computing, with its advantage of proximity to data sources, has made edge devices increasingly important in autonomous driving. Edge devices process data locally, reducing transmission delays and bandwidth usage, and achieving faster response times. In this work, we propose a driving behavior narration and reasoning framework that applies LLMs to edge devices. The framework consists of multiple roadside units, with LLMs deployed on each unit. These roadside units collect road data and communicate via 5G NSR/NR networks. Our experiments show that LLMs deployed on edge devices can achieve satisfactory response speeds. Additionally, we propose a prompt strategy to enhance the narration and reasoning performance of the system. This strategy integrates multi-modal information, including environmental, agent, and motion data. Experiments conducted on the OpenDV-Youtube dataset demonstrate that our approach significantly improves performance across both tasks.
翻訳日:2024-10-02 07:56:35 公開日:2024-09-30
# VideoINSTA: LLMを用いたインフォーマティブ空間時間推論によるゼロショット長ビデオ理解

VideoINSTA: Zero-shot Long Video Understanding via Informative Spatial-Temporal Reasoning with LLMs ( http://arxiv.org/abs/2409.20365v1 )

ライセンス: Link先を確認
Ruotong Liao, Max Erler, Huiyu Wang, Guangyao Zhai, Gengyuan Zhang, Yunpu Ma, Volker Tresp, (参考訳) ビデオ言語領域では、ビデオ理解のためのゼロショットのLarge Language Modelベースの推論を利用した最近の研究が、従来のエンドツーエンドモデルと競合する問題となっている。 しかし、長いビデオ理解は、ゼロショットLCMベースのアプローチであっても、拡張タイムパンに対する推論の複雑さのために、ユニークな課題を呈している。 長ビデオにおける情報冗長性の課題は、大規模言語モデル(LLM)にどのような情報が必要なのか、そしてそれを長期ビデオ解析における複雑な時空間推論にどのように活用するかという問題を引き起こす。 Informative Spatial-TemporAl Reasoning for zero-shot long-form video understanding。 VideoINSTAは,(1)LLMを用いた長時間ビデオ理解のためのゼロショットフレームワーク,(2)ビデオ内の空間的時間的情報を引き出すイベントベースの時間的推論とコンテンツに基づく空間的推論アプローチ,(3)情報充足性と予測信頼度に基づく時間的要因のバランスをとる自己反射的情報推論スキームを提供する。 EgoSchema、NextQA、IntentQAの3つの長いビデオ質問応答ベンチマークと、オープンな質問応答データセットActivityNetQA。 コードは、https://github.com/mayhugotong/VideoINSTA.comで公開されている。

In the video-language domain, recent works in leveraging zero-shot Large Language Model-based reasoning for video understanding have become competitive challengers to previous end-to-end models. However, long video understanding presents unique challenges due to the complexity of reasoning over extended timespans, even for zero-shot LLM-based approaches. The challenge of information redundancy in long videos prompts the question of what specific information is essential for large language models (LLMs) and how to leverage them for complex spatial-temporal reasoning in long-form video analysis. We propose a framework VideoINSTA, i.e. INformative Spatial-TemporAl Reasoning for zero-shot long-form video understanding. VideoINSTA contributes (1) a zero-shot framework for long video understanding using LLMs; (2) an event-based temporal reasoning and content-based spatial reasoning approach for LLMs to reason over spatial-temporal information in videos; (3) a self-reflective information reasoning scheme balancing temporal factors based on information sufficiency and prediction confidence. Our model significantly improves the state-of-the-art on three long video question-answering benchmarks: EgoSchema, NextQA, and IntentQA, and the open question answering dataset ActivityNetQA. The code is released here: https://github.com/mayhugotong/VideoINSTA.
翻訳日:2024-10-02 07:56:35 公開日:2024-09-30
# タスク駆動表現による散在するSinglish談話粒子

Disentangling Singlish Discourse Particles with Task-Driven Representation ( http://arxiv.org/abs/2409.20366v1 )

ライセンス: Link先を確認
Linus Tze En Foo, Lynnette Hui Xian Ng, (参考訳) シングリッシュ(英語: Singlish、正式にはコロキール・シンガポール英語)は、南東アジアのシンガポールを起源とするクレオール語である。 この言語は、中国語の方言、マレー語、タミル語などのシナ語の影響を受けている。 シングリッシュを理解するための基本的な課題は、まずその言説粒子の実用的機能を理解することである。 この研究は、Singlishの談話粒子(lah, meh, hor)をタスク駆動表現学習で解き放つための予備的な努力を提供する。 解離後、これらの談話粒子をクラスタリングし、実効性を識別し、Singlish-to- English 機械翻訳を行う。 我々の研究は、Singlishの談話粒子を理解するための計算方法を提供し、言語とその使用法をより深く理解するための道を開く。

Singlish, or formally Colloquial Singapore English, is an English-based creole language originating from the SouthEast Asian country Singapore. The language contains influences from Sinitic languages such as Chinese dialects, Malay, Tamil and so forth. A fundamental task to understanding Singlish is to first understand the pragmatic functions of its discourse particles, upon which Singlish relies heavily to convey meaning. This work offers a preliminary effort to disentangle the Singlish discourse particles (lah, meh and hor) with task-driven representation learning. After disentanglement, we cluster these discourse particles to differentiate their pragmatic functions, and perform Singlish-to-English machine translation. Our work provides a computational method to understanding Singlish discourse particles, and opens avenues towards a deeper comprehension of the language and its usage.
翻訳日:2024-10-02 07:56:35 公開日:2024-09-30
# 脳腫瘍局所化のための物理規則化多重モード画像同化法

Physics-Regularized Multi-Modal Image Assimilation for Brain Tumor Localization ( http://arxiv.org/abs/2409.20409v1 )

ライセンス: Link先を確認
Michal Balcerak, Tamaz Amiranashvili, Andreas Wagner, Jonas Weidner, Petr Karnakov, Johannes C. Paetzold, Ivan Ezhov, Petros Koumoutsakos, Benedikt Wiestler, Bjoern Menze, (参考訳) 偏微分方程式の形での物理モデルは、多くの非制約問題において重要な先行を表現している。 1つの例は腫瘍治療計画であり、患者の解剖学における腫瘍細胞の空間分布の正確な推定に大きく依存している。 医用画像スキャンは腫瘍の大部分を識別できるが、その全空間分布を明らかにすることはできない。 低濃度の腫瘍細胞は、例えば、最も頻度の高い一次脳腫瘍であるグリオ芽腫において、検出不能である。 ディープラーニングベースのアプローチでは、信頼できるトレーニングデータがないため、完全な腫瘍細胞の分布を推定できない。 したがって、既存のほとんどの研究は観察された腫瘍と一致させるために物理学に基づくシミュレーションに依存しており、解剖学的および生理学的に推定できる。 しかし、これらのアプローチは複雑で未知の初期条件に悩まされ、過度に厳密な物理モデルによって制限される。 本研究では,データ駆動と物理に基づくコスト関数のバランスをとる新しい手法を提案する。 特に,我々の学習した時空間腫瘍と脳組織分布の対応する成長・弾性方程式への付着度を定量化する独自の離散化手法を提案する。 この定量化は、ハード制約ではなく正規化用語として機能し、既存のモデルよりも患者データを同化する際の柔軟性と習熟性を高める。 症例のコホートから得られた実世界データに対する既存手法と比較して,腫瘍再発領域のカバー範囲の改善が示された。 この方法は、グリオ芽腫に対するモデル駆動治療計画の臨床的導入を促進する可能性を秘めている。

Physical models in the form of partial differential equations represent an important prior for many under-constrained problems. One example is tumor treatment planning, which heavily depends on accurate estimates of the spatial distribution of tumor cells in a patient's anatomy. Medical imaging scans can identify the bulk of the tumor, but they cannot reveal its full spatial distribution. Tumor cells at low concentrations remain undetectable, for example, in the most frequent type of primary brain tumors, glioblastoma. Deep-learning-based approaches fail to estimate the complete tumor cell distribution due to a lack of reliable training data. Most existing works therefore rely on physics-based simulations to match observed tumors, providing anatomically and physiologically plausible estimations. However, these approaches struggle with complex and unknown initial conditions and are limited by overly rigid physical models. In this work, we present a novel method that balances data-driven and physics-based cost functions. In particular, we propose a unique discretization scheme that quantifies the adherence of our learned spatiotemporal tumor and brain tissue distributions to their corresponding growth and elasticity equations. This quantification, serving as a regularization term rather than a hard constraint, enables greater flexibility and proficiency in assimilating patient data than existing models. We demonstrate improved coverage of tumor recurrence areas compared to existing techniques on real-world data from a cohort of patients. The method holds the potential to enhance clinical adoption of model-driven treatment planning for glioblastoma.
翻訳日:2024-10-02 07:56:35 公開日:2024-09-30
# 完璧なブレンド:RLHFの再定義と裁判官の混成

The Perfect Blend: Redefining RLHF with Mixture of Judges ( http://arxiv.org/abs/2409.20370v1 )

ライセンス: Link先を確認
Tengyu Xu, Eryk Helenowski, Karthik Abinav Sankararaman, Di Jin, Kaiyan Peng, Eric Han, Shaoliang Nie, Chen Zhu, Hejia Zhang, Wenxuan Zhou, Zhouhao Zeng, Yun He, Karishma Mandyam, Arya Talabzadeh, Madian Khabsa, Gabriel Cohen, Yuandong Tian, Hao Ma, Sinong Wang, Han Fang, (参考訳) 人間のフィードバックからの強化学習(RLHF)は,大規模言語モデル(LLM)の指導的アプローチとなっている。 しかし、RLHFは、報酬ハックと極端な多目的最適化(複数または時には矛盾する目的のトレードオフ)の課題のため、マルチタスク学習(MTL)に制限がある。 MTLにRLHFを適用するには、現在、報酬モデルとデータの組み合わせに対する重み付けを慎重に調整する必要がある。 これはしばしば人間の直観によって行われ、一般化しない。 本稿では,CGPO(Constrained Generative Policy Optimization)と呼ばれる新しいポストトレーニングパラダイムを紹介する。 CGPOの中核は、コスト効率の制約された政策最適化と成層化を併用したMixture of Judges (MoJ)であり、RLHFの完全ブレンドを原則的に識別することができる。 理論的な保証とともに強い実験結果を示し、広範囲なハイパーパラメータチューニングを必要とせず、一般的なポストトレーニングパイプラインではプラグアンドプレイである。 同時に、非常に多くの目的にまたがる最適地点に到達しながら、報酬のハッキング行動を検出し、緩和することができる。 実験により,CGPOは汎用チャット,STEM質問,命令追従,コーディングなど,PPOやDPOなどの標準RLHFアルゴリズムを著しく上回っていることが示された。 具体的には、AlpacaEval-2(一般的なチャット)の7.4%の改善、Arena-Hard(STEMと推論)の12.5%の改善、数学やコーディングなどの他の領域での一貫性のある向上を示している。 特に、一般的に使われているPPOは、CGPOがうまく対処する一般的なコーディングベンチマークにおいて、深刻な報酬のハッキングの傾向にある。 RLHFにおけるこのブレークスルーは、報酬ハッキングと極端な多目的最適化の課題に取り組むだけでなく、多様なアプリケーションのために汎用LLMを整合させる最先端技術にも取り組みます。

Reinforcement learning from human feedback (RLHF) has become the leading approach for fine-tuning large language models (LLM). However, RLHF has limitations in multi-task learning (MTL) due to challenges of reward hacking and extreme multi-objective optimization (i.e., trade-off of multiple and/or sometimes conflicting objectives). Applying RLHF for MTL currently requires careful tuning of the weights for reward model and data combinations. This is often done via human intuition and does not generalize. In this work, we introduce a novel post-training paradigm which we called Constrained Generative Policy Optimization (CGPO). The core of CGPO is Mixture of Judges (MoJ) with cost-efficient constrained policy optimization with stratification, which can identify the perfect blend in RLHF in a principled manner. It shows strong empirical results with theoretical guarantees, does not require extensive hyper-parameter tuning, and is plug-and-play in common post-training pipelines. Together, this can detect and mitigate reward hacking behaviors while reaching a pareto-optimal point across an extremely large number of objectives. Our empirical evaluations demonstrate that CGPO significantly outperforms standard RLHF algorithms like PPO and DPO across various tasks including general chat, STEM questions, instruction following, and coding. Specifically, CGPO shows improvements of 7.4% in AlpacaEval-2 (general chat), 12.5% in Arena-Hard (STEM & reasoning), and consistent gains in other domains like math and coding. Notably, PPO, while commonly used, is prone to severe reward hacking in popular coding benchmarks, which CGPO successfully addresses. This breakthrough in RLHF not only tackles reward hacking and extreme multi-objective optimization challenges but also advances the state-of-the-art in aligning general-purpose LLMs for diverse applications.
翻訳日:2024-10-02 07:46:26 公開日:2024-09-30
# 非定常時系列予測のための周波数適応正規化

Frequency Adaptive Normalization For Non-stationary Time Series Forecasting ( http://arxiv.org/abs/2409.20371v1 )

ライセンス: Link先を確認
Weiwei Ye, Songgaojun Deng, Qiaosha Zou, Ning Gui, (参考訳) 時系列予測は通常、トレンドと季節パターンを進化させる非定常データに対処する必要がある。 非定常性に対処するために、可逆的なインスタンス正規化が最近提案され、ある統計測度、例えば平均と分散による影響を緩和している。 予測精度は向上したものの、基本的な傾向を表現することに限定されており、季節パターンを扱えない。 この制限に対処するために,周波数適応正規化(FAN)と呼ばれる,動的傾向と季節パターンの両方を扱うインスタンス正規化を拡張した新しいインスタンス正規化ソリューションを提案する。 具体的には、Fourier変換を用いて、ほとんどの非定常因子をカバーするインスタンス単位の頻繁な成分を同定する。 さらに、入力と出力間の周波数成分の相違を、単純なMLPモデルによる予測タスクとして明示的にモデル化する。 FANは任意の予測バックボーンに適用できるモデルに依存しない手法である。 我々は、広く使われている4つの予測モデルのFANをバックボーンとしてインスタンス化し、8つのベンチマークデータセットにおける予測性能の改善を評価する。 FANは、MSEの7.76%から37.90%の平均的な改善を達成している。

Time series forecasting typically needs to address non-stationary data with evolving trend and seasonal patterns. To address the non-stationarity, reversible instance normalization has been recently proposed to alleviate impacts from the trend with certain statistical measures, e.g., mean and variance. Although they demonstrate improved predictive accuracy, they are limited to expressing basic trends and are incapable of handling seasonal patterns. To address this limitation, this paper proposes a new instance normalization solution, called frequency adaptive normalization (FAN), which extends instance normalization in handling both dynamic trend and seasonal patterns. Specifically, we employ the Fourier transform to identify instance-wise predominant frequent components that cover most non-stationary factors. Furthermore, the discrepancy of those frequency components between inputs and outputs is explicitly modeled as a prediction task with a simple MLP model. FAN is a model-agnostic method that can be applied to arbitrary predictive backbones. We instantiate FAN on four widely used forecasting models as the backbone and evaluate their prediction performance improvements on eight benchmark datasets. FAN demonstrates significant performance advancement, achieving 7.76% ~ 37.90% average improvements in MSE.
翻訳日:2024-10-02 07:46:26 公開日:2024-09-30
# 言語間TSシステムのための単語ワイドインネーションモデル

Word-wise intonation model for cross-language TTS systems ( http://arxiv.org/abs/2409.20374v1 )

ライセンス: Link先を確認
Tomilov A. A., Gromova A. Y., Svischev A. N, (参考訳) 本稿では,ロシア語の単語単位のイントネーションモデルを提案し,他の言語に対してどのように一般化できるかを示す。 提案手法は,自動データマークアップとテキスト音声合成システムへの応用に適している。 規則ベースのアルゴリズムや言語モデルで輪郭を予測することで、インネーション輪郭モデリングのために実装することもできる。 キーとなるアイデアは、単語中の強勢音節の異なる配置と結びついた変動性の部分的除去である。 ピッチ単純化と動的時間ワープクラスタリングを同時に適用することで実現した。 提案手法は, テキスト音声合成システムにおいて, 研究のインスピレーションや韻律記述のバックボーンとして利用することができる。 このモデルの利点として、既存のイントネーションシステムとの関係と、韻律予測に言語モデルを使用する可能性を示す。 最後に,パラメータ変動に対するシステムのロバスト性を示す実例を示す。

In this paper we propose a word-wise intonation model for Russian language and show how it can be generalized for other languages. The proposed model is suitable for automatic data markup and its extended application to text-to-speech systems. It can also be implemented for an intonation contour modeling by using rule-based algorithms or by predicting contours with language models. The key idea is a partial elimination of the variability connected with different placements of a stressed syllable in a word. It is achieved with simultaneous applying of pitch simplification with a dynamic time warping clustering. The proposed model could be used as a tool for intonation research or as a backbone for prosody description in text-to-speech systems. As the advantage of the model, we show its relations with the existing intonation systems as well as the possibility of using language models for prosody prediction. Finally, we demonstrate some practical evidence of the system robustness to parameter variations.
翻訳日:2024-10-02 07:46:26 公開日:2024-09-30
# 放射線分野におけるアコヒーレンス検出

Detecting Acoherence in Radiation Fields ( http://arxiv.org/abs/2409.20378v1 )

ライセンス: Link先を確認
Sreenath K. Manikandan, Frank Wilczek, (参考訳) 放射場の量子力学的特性を探索する共振型高調波検出器の統計量に基づく簡易な定量的基準を提案する。 特に、与えられた体が ` `maximally classical'' である、すなわちコヒーレント状態によって正確に記述されたような null 仮説をテストする実践的な手段を提供する。 我々は、この仮説が確実に失敗する状況、特に非線形もしくは確率的ソーシングを含む重力放射について提案する。

We propose simple quantitative criteria, based on counting statistics in resonant harmonic detectors, that probe the quantum mechanical character of radiation fields. They provide, in particular, practical means to test the null hypothesis that a given field is ``maximally classical'', i.e., accurately described by a coherent state. We suggest circumstances in which that hypothesis plausibly fails, notably including gravitational radiation involving non-linear or stochastic sourcing.
翻訳日:2024-10-02 07:46:26 公開日:2024-09-30
# PINNの派生的病理を越えて:収束解析を用いた可変分割戦略

Beyond Derivative Pathology of PINNs: Variable Splitting Strategy with Convergence Analysis ( http://arxiv.org/abs/2409.20383v1 )

ライセンス: Link先を確認
Yesom Park, Changhoon Song, Myungjoo Kang, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、最近、様々な問題において偏微分方程式(PDE)を解く効果的な方法として登場した。 実質的な研究は、予測における頻繁な不正確さのため、PINNの障害モードに焦点を当てている。 しかしながら、損失関数をゼロに最小化することは、ネットワークを支配的PDEの解に収束させるという前提に基づいている。 本研究では,PINNが前提が無効であるという根本的な問題に直面していることを証明する。 また、この問題は、予測された解の微分の挙動を制御できないことに起因することも明らかにした。 PINNの「textit{deivative pathology}」に着想を得て,解の勾配を補助変数としてパラメータ化することでこの問題に対処する「textit{variable splitting}」戦略を提案する。 本研究では, 補助変数を用いることで, 予測された解の勾配の直接モニタリングと制御を可能にし, 微分病理学を解明できることを実証する。 さらに,提案手法は2次線形PDEに対する一般化解の収束を保証することを保証するとともに,様々な問題に適用可能であることを示す。

Physics-informed neural networks (PINNs) have recently emerged as effective methods for solving partial differential equations (PDEs) in various problems. Substantial research focuses on the failure modes of PINNs due to their frequent inaccuracies in predictions. However, most are based on the premise that minimizing the loss function to zero causes the network to converge to a solution of the governing PDE. In this study, we prove that PINNs encounter a fundamental issue that the premise is invalid. We also reveal that this issue stems from the inability to regulate the behavior of the derivatives of the predicted solution. Inspired by the \textit{derivative pathology} of PINNs, we propose a \textit{variable splitting} strategy that addresses this issue by parameterizing the gradient of the solution as an auxiliary variable. We demonstrate that using the auxiliary variable eludes derivative pathology by enabling direct monitoring and regulation of the gradient of the predicted solution. Moreover, we prove that the proposed method guarantees convergence to a generalized solution for second-order linear PDEs, indicating its applicability to various problems.
翻訳日:2024-10-02 07:46:26 公開日:2024-09-30
# FireLite:資源制約環境における効率的な火災検知のための伝達学習

FireLite: Leveraging Transfer Learning for Efficient Fire Detection in Resource-Constrained Environments ( http://arxiv.org/abs/2409.20384v1 )

ライセンス: Link先を確認
Mahamudul Hasan, Md Maruf Al Hossain Prince, Mohammad Samar Ansari, Sabrina Jahan, Abu Saleh Musa Miah, Jungpil Shin, (参考訳) 火災の危険は非常に危険であり、特に輸送産業のような分野では、政治的不安が発生の可能性を増大させる。 輸送車両の火災検知システムの設置を容易にするためにIPカメラを利用することで、火災による被害を積極的に防止することができる。 しかし,これらのカメラ内の組込みシステムの計算制約により,軽量火災検知モデルの開発が求められている。 本稿では,この難易度に対応するために,限られたリソースを持つ状況下での迅速な火災検知を目的とした低パラメータ畳み込みニューラルネットワーク(CNN)であるFireLiteを紹介する。 98.77\%の精度で、トレーニング可能なパラメータがわずか34,978しか持たない我々のモデルは、顕著なパフォーマンス数を達成する。 また、精度、リコール、F1スコア測定で8.74の検証損失と98.77のピークも示している。 その精度と効率のため、FireLiteはリソース制約のある環境での火災検知のための有望なソリューションである。

Fire hazards are extremely dangerous, particularly in sectors such as the transportation industry, where political unrest increases the likelihood of their occurrence. By employing IP cameras to facilitate the setup of fire detection systems on transport vehicles, losses from fire events may be prevented proactively. However, the development of lightweight fire detection models is required due to the computational constraints of the embedded systems within these cameras. We introduce FireLite, a low-parameter convolutional neural network (CNN) designed for quick fire detection in contexts with limited resources, in response to this difficulty. With an accuracy of 98.77\%, our model -- which has just 34,978 trainable parameters achieves remarkable performance numbers. It also shows a validation loss of 8.74 and peaks at 98.77 for precision, recall, and F1-score measures. Because of its precision and efficiency, FireLite is a promising solution for fire detection in resource-constrained environments.
翻訳日:2024-10-02 07:46:26 公開日:2024-09-30
# チレノールはアセトアミノフェンである... 言語モデルの調査と改善

Wait, but Tylenol is Acetaminophen... Investigating and Improving Language Models' Ability to Resist Requests for Misinformation ( http://arxiv.org/abs/2409.20385v1 )

ライセンス: Link先を確認
Shan Chen, Mingye Gao, Kuleen Sasse, Thomas Hartvigsen, Brian Anthony, Lizhou Fan, Hugo Aerts, Jack Gallifant, Danielle Bitterman, (参考訳) 背景: 大規模言語モデル(LLM)は指示に従うように訓練されているが、誤った情報を生成しても、ユーザの要求に盲目的に準拠する脆弱性が生じる。 医学では、これは人間の健康に影響を与える誤報の発生を加速させる可能性がある。 目的/方法: 要求が非論理的であることをモデルが知っている設定において、医薬品に関する誤解を招くコンテンツを生成するために、要求に対するコンプライアンスを分析した。 コンプライアンスよりも論理的推論を優先するLLMのコンテキスト内方向と命令調整が誤情報リスクを低減させるかどうかを検討した。 結果:全てのフロンティアLSMは誤報要求を遵守するが,プロンプトベースとパラメータベースの両方のアプローチは,要求における論理的欠陥の検出を改善し,医療的誤報の拡散を防止する。 結論: コンプライアンスよりもロジックを優先するようにLCMをシフトすることで、医療上の誤情報に対する搾取のリスクを低減できる。

Background: Large language models (LLMs) are trained to follow directions, but this introduces a vulnerability to blindly comply with user requests even if they generate wrong information. In medicine, this could accelerate the generation of misinformation that impacts human well-being. Objectives/Methods: We analyzed compliance to requests to generate misleading content about medications in settings where models know the request is illogical. We investigated whether in-context directions and instruction-tuning of LLMs to prioritize logical reasoning over compliance reduced misinformation risk. Results: While all frontier LLMs complied with misinformation requests, both prompt-based and parameter-based approaches can improve the detection of logic flaws in requests and prevent the dissemination of medical misinformation. Conclusion: Shifting LLMs to prioritize logic over compliance could reduce risks of exploitation for medical misinformation.
翻訳日:2024-10-02 07:46:26 公開日:2024-09-30
# 反ステレオタイプ予測テキストは、信頼できない反ステレオタイプテキストを提示する

Anti-stereotypical Predictive Text Suggestions Do Not Reliably Yield Anti-stereotypical Writing ( http://arxiv.org/abs/2409.20390v1 )

ライセンス: Link先を確認
Connor Baumler, Hal Daumé III, (参考訳) 言語モデルのようなAIベースのシステムは、トレーニングデータに反映された社会的バイアスを複製し、増幅することができる。 その他の疑わしい行動の中で、これは、標準的に不適切なステレオタイプ関係を含む、LM生成のテキストとテキストの提案につながる可能性がある。 本稿では,言語モデルが,その言語モデルを用いて予測テキストシナリオで記述した物語にどのように影響するかを考察する。 特定のシナリオにおいて、共通の社会的ステレオタイプと整合する言語モデルの提案は、人間によって受け入れられる可能性が高い。 逆に、反ステレオタイプ的言語モデルの提案は時として反ステレオタイプ的ストーリーの増加につながるが、この影響は「完全に嫌悪された」ストーリーにつながるにはほど遠い。

AI-based systems such as language models can replicate and amplify social biases reflected in their training data. Among other questionable behavior, this can lead to LM-generated text--and text suggestions--that contain normatively inappropriate stereotypical associations. In this paper, we consider the question of how "debiasing" a language model impacts stories that people write using that language model in a predictive text scenario. We find that (n=414), in certain scenarios, language model suggestions that align with common social stereotypes are more likely to be accepted by human authors. Conversely, although anti-stereotypical language model suggestions sometimes lead to an increased rate of anti-stereotypical stories, this influence is far from sufficient to lead to "fully debiased" stories.
翻訳日:2024-10-02 07:46:26 公開日:2024-09-30
# AUCSeg: AUC指向のLong-tail Semantic Segmentation

AUCSeg: AUC-oriented Pixel-level Long-tail Semantic Segmentation ( http://arxiv.org/abs/2409.20398v1 )

ライセンス: Link先を確認
Boyu Han, Qianqian Xu, Zhiyong Yang, Shilong Bao, Peisong Wen, Yangbangyan Jiang, Qingming Huang, (参考訳) The Area Under the ROC Curve (AUC)は、インスタンスレベルのロングテール学習問題を評価するためのよく知られた指標である。 過去20年間に,長期分布下でのモデル性能向上のために,多くのAUC最適化手法が提案されてきた。 本稿では,より複雑なシナリオである画素レベルの長テールセマンティックセマンティックセマンティックセグメンテーションの文脈におけるAUC最適化手法について検討する。 この課題は、AUC最適化技術における2つの大きな課題を提起する。 一方、画素レベルのタスクにおけるAUC最適化は、構造的内像と対角的相互像の依存関係を持つ損失項間の複雑な結合を伴い、理論的解析を複雑化する。 一方,この場合のAUC損失の最小バッチ推定にはバッチサイズが大きすぎるため,スペースの複雑さが生じることが判明した。 これらの問題に対処するため,画素レベルのAUC損失関数を開発し,アルゴリズムの一般化能力に関する依存性グラフに基づく理論的解析を行う。 さらに,Tail-Classes Memory Bank (T-Memory Bank) を設計し,重要なメモリ需要を管理する。 最後に,AUCSeg法の有効性を様々なベンチマークで検証した。 コードはhttps://github.com/boyuh/AUCSegで入手できる。

The Area Under the ROC Curve (AUC) is a well-known metric for evaluating instance-level long-tail learning problems. In the past two decades, many AUC optimization methods have been proposed to improve model performance under long-tail distributions. In this paper, we explore AUC optimization methods in the context of pixel-level long-tail semantic segmentation, a much more complicated scenario. This task introduces two major challenges for AUC optimization techniques. On one hand, AUC optimization in a pixel-level task involves complex coupling across loss terms, with structured inner-image and pairwise inter-image dependencies, complicating theoretical analysis. On the other hand, we find that mini-batch estimation of AUC loss in this case requires a larger batch size, resulting in an unaffordable space complexity. To address these issues, we develop a pixel-level AUC loss function and conduct a dependency-graph-based theoretical analysis of the algorithm's generalization ability. Additionally, we design a Tail-Classes Memory Bank (T-Memory Bank) to manage the significant memory demand. Finally, comprehensive experiments across various benchmarks confirm the effectiveness of our proposed AUCSeg method. The code is available at https://github.com/boyuh/AUCSeg.
翻訳日:2024-10-02 07:46:26 公開日:2024-09-30
# 眼科応用のためのオープンソース周辺部セグメンテーションデータセット

Open-Source Periorbital Segmentation Dataset for Ophthalmic Applications ( http://arxiv.org/abs/2409.20407v1 )

ライセンス: Link先を確認
George R. Nahass, Emma Koehler, Nicholas Tomaras, Danny Lopez, Madison Cheung, Alexander Palacios, Jefferey Peterson, Sacha Hubschman, Kelsey Green, Chad A. Purnell, Pete Setabutr, Ann Q. Tran, Darvin Yi, (参考訳) 深層学習を用いた眼窩周囲のセグメンテーションと距離予測は、疾患状態の客観的定量化、治療モニタリング、遠隔医療を可能にする。 しかし、現在、深層学習モデルの訓練を目的としたセグメンテーションデータセットの報告は、目の周りの領域で、サブミリの精度で報告されていない。 すべての画像 (n=2842) には虹彩, 硬化, 蓋, 結節, 額が5つのアノテータで区切られていた。 本稿では,このデータセットをイントラグレータ内信頼性試験およびイントラグレータ間信頼性試験により検証し,軌道周辺セグメンテーションネットワークのトレーニングにおけるデータの有用性を示す。 すべてのアノテーションは、無料でダウンロードできる。 オキュロプラスティック手術用に設計されたセグメンテーションデータセットへのアクセスは、眼窩周辺距離の予測や疾患の分類に活用可能な、臨床的に有用なセグメンテーションネットワークのより迅速な開発を可能にする。 アノテーションに加えて,セグメンテーションマスクからの距離予測を行うオープンソースツールキットも提供する。 すべてのモデルの重みもオープンソースとして公開されており、コミュニティで使用することができる。

Periorbital segmentation and distance prediction using deep learning allows for the objective quantification of disease state, treatment monitoring, and remote medicine. However, there are currently no reports of segmentation datasets for the purposes of training deep learning models with sub mm accuracy on the regions around the eyes. All images (n=2842) had the iris, sclera, lid, caruncle, and brow segmented by five trained annotators. Here, we validate this dataset through intra and intergrader reliability tests and show the utility of the data in training periorbital segmentation networks. All the annotations are publicly available for free download. Having access to segmentation datasets designed specifically for oculoplastic surgery will permit more rapid development of clinically useful segmentation networks which can be leveraged for periorbital distance prediction and disease classification. In addition to the annotations, we also provide an open-source toolkit for periorbital distance prediction from segmentation masks. The weights of all models have also been open-sourced and are publicly available for use by the community.
翻訳日:2024-10-02 07:46:26 公開日:2024-09-30
# 連続処理を伴う線量応答モデルの等角予測

Conformal Prediction for Dose-Response Models with Continuous Treatments ( http://arxiv.org/abs/2409.20412v1 )

ライセンス: Link先を確認
Jarne Verhaeghe, Jef Jonkers, Sofie Van Hoecke, (参考訳) 継続的な治療と個人の結果の間の線量と反応の関係を理解することは、特にパーソナライズされた薬物服用やパーソナライズされた医療介入のような分野において、意思決定を著しく促進させる。 これらのリスクの高い環境ではしばしばポイント推定が不十分であり、情報的決定を支援するための不確実性定量化の必要性を強調している。 不確実性定量化のための分布のないモデルに依存しないモデル予測法であるコンフォーマル予測は、連続処理や線量応答モデルに限られている。 このギャップに対処するために、重み付き共形予測を利用して因果線量応答問題を共変シフトとする新しい手法を提案する。 確率推定, 共形予測システム, 確率比を組み込むことで, 線量応答モデルに対する予測区間を生成するための実用的な解法を提案する。 さらに,重み付き共形予測においてカーネル関数を重みとして適用することにより,各処理値の局所的カバレッジを近似する。 最後に,線量応答モデルに対するロバストな予測間隔を達成する上で,共変量シフト仮定の意義を示すために,新しいベンチマークデータセットを用いた。

Understanding the dose-response relation between a continuous treatment and the outcome for an individual can greatly drive decision-making, particularly in areas like personalized drug dosing and personalized healthcare interventions. Point estimates are often insufficient in these high-risk environments, highlighting the need for uncertainty quantification to support informed decisions. Conformal prediction, a distribution-free and model-agnostic method for uncertainty quantification, has seen limited application in continuous treatments or dose-response models. To address this gap, we propose a novel methodology that frames the causal dose-response problem as a covariate shift, leveraging weighted conformal prediction. By incorporating propensity estimation, conformal predictive systems, and likelihood ratios, we present a practical solution for generating prediction intervals for dose-response models. Additionally, our method approximates local coverage for every treatment value by applying kernel functions as weights in weighted conformal prediction. Finally, we use a new synthetic benchmark dataset to demonstrate the significance of covariate shift assumptions in achieving robust prediction intervals for dose-response models.
翻訳日:2024-10-02 07:46:26 公開日:2024-09-30
# KanDU-Net:医療画像セグメンテーションのためのkan付きデュアルチャネルU-Net

KANDU-Net:A Dual-Channel U-Net with KAN for Medical Image Segmentation ( http://arxiv.org/abs/2409.20414v1 )

ライセンス: Link先を確認
Chenglin Fang, Kaigui Wu, (参考訳) U-Netモデルは、医用画像セグメンテーションの分野で一貫して強力な性能を示しており、導入以来様々な改善と改善がなされている。 本稿では,kanネットワークとU-Netを統合し,U-Netの確立した強みとともに,kanネットワークの強力な非線形表現能力を活用するアーキテクチャを提案する。 局所的特徴と大域的特徴の両方をより効果的に捉えることが可能なカン畳み込み二重チャネル構造を提案する。 我々は,この統合プロセスを容易にするために補助的ネットワークを用いて,感性によって抽出された特徴と畳み込み層を通して得られた特徴とを融合する効果的な手法を探索する。 複数のデータセットにまたがる実験により, 精度の面から, 医用画像分割作業においてkan-convolution dual-channelアプローチが有意な可能性を示唆した。

The U-Net model has consistently demonstrated strong performance in the field of medical image segmentation, with various improvements and enhancements made since its introduction. This paper presents a novel architecture that integrates KAN networks with U-Net, leveraging the powerful nonlinear representation capabilities of KAN networks alongside the established strengths of U-Net. We introduce a KAN-convolution dual-channel structure that enables the model to more effectively capture both local and global features. We explore effective methods for fusing features extracted by KAN with those obtained through convolutional layers, utilizing an auxiliary network to facilitate this integration process. Experiments conducted across multiple datasets show that our model performs well in terms of accuracy, indicating that the KAN-convolution dual-channel approach has significant potential in medical image segmentation tasks.
翻訳日:2024-10-02 07:46:26 公開日:2024-09-30
# 小児高眼症における網膜血管形態のAIによる自動解析

AI-Based Fully Automatic Analysis of Retinal Vascular Morphology in Pediatric High Myopia ( http://arxiv.org/abs/2409.20419v1 )

ライセンス: Link先を確認
Yinzheng Zhao, Zhihao Zhao, Junjie Yang, Li Li, M. Ali Nasseri, Daniel Zapp, (参考訳) 目的: 人工的なソフトウェアを人工的な知能モデルに基づいて設計し, 網膜血管構造の変化と近視のさまざまな段階について検討すること。 方法:中国国立小児医療センター1324名を対象に,高画質網膜像2366点とコレスポン屈折率パラメータを検索,解析した。 球面等価屈折率(SER)を計算した。 本研究では,畳み込みニューラルネットワーク(CNN)モデルとアッターモジュールの組み合わせを用いて,画像,セグメント血管構造を分類し,主角(MA),分岐角(BA),分岐縁(BEA),分岐縁係数(BEC)などの血管パラメータを測定する。 片側ANOVAは, 正常眼底, 低筋痛, モデレートミオピア, 高ミオピア群の比較を行った。 結果: 正常群は279例 (12.38%) , 高近視群は384例(16.23%) であった。 健常群と比較すると, 異なる筋性難治群 (P = 0.006, P = 0.004, P = 0.019) の基底血管のMAは有意に減少し, 静脈系の性能は顕著であった(P<0.001。 SA時間にBECは不均等に低下した(P<0.001。 以上の結果から, BAと分岐係数 (BC) に有意差が認められた。 その結果, 高近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側近位側はP :P : 0.032。 BEC値は低中等度近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近位近 データ分類モデルの損失関数が0.09に収束すると、モデルの精度は94.19%に達した。

Purpose: To investigate the changes in retinal vascular structures associated various stages of myopia by designing automated software based on an artif intelligencemodel. Methods: The study involved 1324 pediatric participants from the National Childr Medical Center in China, and 2366 high-quality retinal images and correspon refractive parameters were obtained and analyzed. Spherical equivalent refrac(SER) degree was calculated. We proposed a data analysis model based c combination of the Convolutional Neural Networks (CNN) model and the atter module to classify images, segment vascular structures, and measure vasc parameters, such as main angle (MA), branching angle (BA), bifurcation edge al(BEA) and bifurcation edge coefficient (BEC). One-way ANOVA compared param measurements betweenthenormalfundus,lowmyopia,moderate myopia,and high myopia group. Results: There were 279 (12.38%) images in normal group and 384 (16.23%) images in the high myopia group. Compared normal fundus, the MA of fundus vessels in different myopic refractive groups significantly reduced (P = 0.006, P = 0.004, P = 0.019, respectively), and performance of the venous system was particularly obvious (P<0.001). At the sa time, the BEC decreased disproportionately (P<0.001). Further analysis of fundus vascular parameters at different degrees of myopia showed that there were also significant differences in BA and branching coefficient (BC). The arterial BA value of the fundus vessel in the high myopia group was lower than that of other groups (P : 0.032, 95% confidence interval [Ci], 0.22-4.86), while the venous BA values increased(P = 0.026). The BEC values of high myopia were higher than those of low and moderate myopia groups. When the loss function of our data classification model converged to 0.09,the model accuracy reached 94.19%
翻訳日:2024-10-02 07:46:26 公開日:2024-09-30
# POMONAG:Pareto-Optimal Many-Objective Neural Architecture Generator

POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator ( http://arxiv.org/abs/2409.20447v1 )

ライセンス: Link先を確認
Eugenio Lomurno, Samuele Mariani, Matteo Monti, Matteo Matteucci, (参考訳) ニューラルネットワーク検索(NAS)は、ニューラルネットワーク設計を自動化し、人間の専門知識への依存を減らす。 NAS法は計算集約的でデータセット固有の手法であるが、補助予測器は訓練を必要とするモデルを減らし、探索時間を短縮する。 この戦略は、複数の計算制約を満たすアーキテクチャを生成するために使用される。 最近、Transferable NASが登場し、データセット依存からタスク依存への探索プロセスを一般化している。 この分野では、DiffusionNAGは最先端の手法である。 この拡散ベースのアプローチは計算を合理化し、未確認データセットの精度に最適化されたアーキテクチャを生成する。 しかし、DiffusionNAGは正確性にのみ焦点をあてることで、モデル複雑さ、計算効率、推論遅延など、リソース制約のある環境にモデルをデプロイするのに不可欠な要素など、その他の重要な目標を見落としている。 本稿では多目的拡散プロセスを通じて拡散NAGを拡張したパレート最適多目的ニューラルアーキテクチャジェネレータ(POMONAG)を提案する。 POMONAGは精度、パラメータ数、乗算累積演算(MAC)、推論遅延を同時に考慮している。 パフォーマンス予測モデルを統合して、これらのメトリクスを推定し、拡散勾配を導出する。 POMONAGの最適化は、トレーニングのMeta-Datasetを拡張し、Pareto Front Filteringを適用し、条件生成のための埋め込みを洗練することによって強化されている。 これらの拡張により、POMONAGはパレート最適化アーキテクチャを生成できる。 結果は、NASBench201とMobileNetV3の2つの検索スペースで検証され、15の画像分類データセットで評価された。

Neural Architecture Search (NAS) automates neural network design, reducing dependence on human expertise. While NAS methods are computationally intensive and dataset-specific, auxiliary predictors reduce the models needing training, decreasing search time. This strategy is used to generate architectures satisfying multiple computational constraints. Recently, Transferable NAS has emerged, generalizing the search process from dataset-dependent to task-dependent. In this field, DiffusionNAG is a state-of-the-art method. This diffusion-based approach streamlines computation, generating architectures optimized for accuracy on unseen datasets without further adaptation. However, by focusing solely on accuracy, DiffusionNAG overlooks other crucial objectives like model complexity, computational efficiency, and inference latency -- factors essential for deploying models in resource-constrained environments. This paper introduces the Pareto-Optimal Many-Objective Neural Architecture Generator (POMONAG), extending DiffusionNAG via a many-objective diffusion process. POMONAG simultaneously considers accuracy, number of parameters, multiply-accumulate operations (MACs), and inference latency. It integrates Performance Predictor models to estimate these metrics and guide diffusion gradients. POMONAG's optimization is enhanced by expanding its training Meta-Dataset, applying Pareto Front Filtering, and refining embeddings for conditional generation. These enhancements enable POMONAG to generate Pareto-optimal architectures that outperform the previous state-of-the-art in performance and efficiency. Results were validated on two search spaces -- NASBench201 and MobileNetV3 -- and evaluated across 15 image classification datasets.
翻訳日:2024-10-02 07:46:26 公開日:2024-09-30
# ベイズ決定論の観点からのストリームレベルの流れマッチング

Stream-level flow matching from a Bayesian decision theoretic perspective ( http://arxiv.org/abs/2409.20423v1 )

ライセンス: Link先を確認
Ganchao Wei, Li Ma, (参考訳) フローマッチング(英: Flow matching、FM)は、連続正規化フロー(CNF)を適合させる訓練アルゴリズムの一群である。 FMに対する標準的なアプローチである条件付きフローマッチング(CFM)は、CNFの辺ベクトル場がフローパスの一方または両側に指定されたいわゆる条件付きベクトル場に最小二乗回帰を加えることによって学習できるという事実を利用する。 我々は,パラメータ推定におけるベイズ決定論的な視点からCFMトレーニングを観ることによって,CFMアルゴリズムの一般化への扉を開くことを示す。 雑音と観測データのペアを接続する潜在確率経路の例である「ストリーム」と呼ばれる条件付き確率経路を定義することに基づくCFMアルゴリズムを導入することにより、そのような拡張を提案する。 さらに、ガウス過程(GP)を用いたこれらの潜在ストリームのモデリングを提唱する。 GPの独特な分布特性、特にGPの速度がまだGPであるという事実は、実際のストリームをシミュレートすることなく、ストリーム拡張された条件付き確率経路からサンプルを描画することができるので、CFMトレーニングの「シミュレーション不要」な性質は保存される。 本研究では, CFMの一般化により, 推定限界ベクトル場の分散を適度な計算コストで大幅に低減できることを示す。 さらに、ストリームにGPを採用することで、複数の関連するトレーニングデータポイント(例えば、時系列)を柔軟にリンクし、追加の事前情報を組み込むことができることを示す。 我々は、シミュレーションと2つの手書き画像データセットへの応用を通して、我々の主張を実証的に検証する。

Flow matching (FM) is a family of training algorithms for fitting continuous normalizing flows (CNFs). A standard approach to FM, called conditional flow matching (CFM), exploits the fact that the marginal vector field of a CNF can be learned by fitting least-square regression to the so-called conditional vector field specified given one or both ends of the flow path. We show that viewing CFM training from a Bayesian decision theoretic perspective on parameter estimation opens the door to generalizations of CFM algorithms. We propose one such extension by introducing a CFM algorithm based on defining conditional probability paths given what we refer to as ``streams'', instances of latent stochastic paths that connect pairs of noise and observed data. Further, we advocates the modeling of these latent streams using Gaussian processes (GPs). The unique distributional properties of GPs, and in particular the fact that the velocities of a GP is still a GP, allows drawing samples from the resulting stream-augmented conditional probability path without simulating the actual streams, and hence the ``simulation-free" nature of CFM training is preserved. We show that this generalization of the CFM can substantially reduce the variance in the estimated marginal vector field at a moderate computational cost, thereby improving the quality of the generated samples under common metrics. Additionally, we show that adopting the GP on the streams allows for flexibly linking multiple related training data points (e.g., time series) and incorporating additional prior information. We empirically validate our claim through both simulations and applications to two hand-written image datasets.
翻訳日:2024-10-02 06:50:32 公開日:2024-09-30
# World to Code: 自己指示型合成キャプションとフィルタリングによるマルチモーダルデータ生成

World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering ( http://arxiv.org/abs/2409.20424v1 )

ライセンス: Link先を確認
Jiacong Wang, Bohong Wu, Haiyong Jiang, Xun Zhou, Xin Xiao, Haoyuan Guo, Jun Xiao, (参考訳) VLM(Vision-Language Models)の最近の進歩と、高品質なマルチモーダルアライメントデータの不足は、合成VLMデータ生成に関する多くの研究に影響を与えた。 VLMデータ構築における従来の標準は、キャプション内のスペシャリストとOCR、あるいはより強力なVLM APIと高価な人間のアノテーションが混在している。 本稿では,Python コード形式に最終生成出力を整理する,厳密にキュレートされたマルチモーダルデータ構築パイプライン World to Code (W2C) を提案する。 パイプラインはVLM自体を活用して、異なるプロンプトを介してクロスモーダル情報を抽出し、一貫性のあるフィルタリング戦略を通じて出力を再度フィルタリングする。 実験では、様々なVLMにわたる様々な視覚的質問応答と視覚的接地ベンチマークを改善して、W2Cの質を実証している。 さらなる分析により、VLMの新しいコード解析能力は、一般的に使用されるディテールキャプション能力よりも、モーダルな相互同値性を示すことが示されている。 私たちのコードはhttps://github.com/foundation-multimodal-models/World2Codeで利用可能です。

Recent advances in Vision-Language Models (VLMs) and the scarcity of high-quality multi-modal alignment data have inspired numerous researches on synthetic VLM data generation. The conventional norm in VLM data construction uses a mixture of specialists in caption and OCR, or stronger VLM APIs and expensive human annotation. In this paper, we present World to Code (W2C), a meticulously curated multi-modal data construction pipeline that organizes the final generation output into a Python code format. The pipeline leverages the VLM itself to extract cross-modal information via different prompts and filter the generated outputs again via a consistency filtering strategy. Experiments have demonstrated the high quality of W2C by improving various existing visual question answering and visual grounding benchmarks across different VLMs. Further analysis also demonstrates that the new code parsing ability of VLMs presents better cross-modal equivalence than the commonly used detail caption ability. Our code is available at https://github.com/foundation-multimodal-models/World2Code.
翻訳日:2024-10-02 06:50:32 公開日:2024-09-30
# ナビゲーション脅威: 自律走行車におけるLiDAR知覚システムに対する物理的敵対攻撃に関する調査

Navigating Threats: A Survey of Physical Adversarial Attacks on LiDAR Perception Systems in Autonomous Vehicles ( http://arxiv.org/abs/2409.20426v1 )

ライセンス: Link先を確認
Amira Guesmi, Muhammad Shafique, (参考訳) 自律走行車(AV)は、正確な認識とナビゲーションのためにLiDAR(Light Detection and Ranging)システムに大きく依存しており、物体の検出と分類に不可欠な高解像度の3D環境データを提供する。 しかし、LiDARシステムは敵の攻撃に弱いため、AVの安全性と堅牢性に大きな課題が生じる。 本調査では,LiDARに基づく知覚システムを対象とした身体的敵意攻撃の実態を概観し,単一モダリティと多モダリティの両状況について概説する。 我々は、スプーフィングや物理的敵対的物体攻撃、それらの方法論、影響、潜在的な現実世界への影響など、様々な攻撃タイプを分類、分析する。 詳細なケーススタディと分析を通じて、LiDARベースのシステムに対する既存の攻撃において重要な課題を特定し、ギャップを浮き彫りにする。 さらに,これらのシステムの安全性とレジリエンスを高めるための今後の研究指針を提案し,最終的には自動運転車のより安全な展開に寄与する。

Autonomous vehicles (AVs) rely heavily on LiDAR (Light Detection and Ranging) systems for accurate perception and navigation, providing high-resolution 3D environmental data that is crucial for object detection and classification. However, LiDAR systems are vulnerable to adversarial attacks, which pose significant challenges to the safety and robustness of AVs. This survey presents a thorough review of the current research landscape on physical adversarial attacks targeting LiDAR-based perception systems, covering both single-modality and multi-modality contexts. We categorize and analyze various attack types, including spoofing and physical adversarial object attacks, detailing their methodologies, impacts, and potential real-world implications. Through detailed case studies and analyses, we identify critical challenges and highlight gaps in existing attacks for LiDAR-based systems. Additionally, we propose future research directions to enhance the security and resilience of these systems, ultimately contributing to the safer deployment of autonomous vehicles.
翻訳日:2024-10-02 06:50:32 公開日:2024-09-30
# 十分で必要な説明(そしてその中間にあるもの)

Sufficient and Necessary Explanations (and What Lies in Between) ( http://arxiv.org/abs/2409.20427v1 )

ライセンス: Link先を確認
Beepul Bharti, Paul Yi, Jeremias Sulam, (参考訳) 複雑な機械学習モデルは、高い意思決定シナリオにおけるアプリケーションを見つけ続けるため、これらの予測を説明し、理解することが不可欠である。 ポストホックな説明法は、入力 $\mathbf{x}$ の重要な特徴をモデル出力 $f(\mathbf{x})$ に関して識別することで有用な洞察を提供する。 本研究では,汎用機械学習モデルにおける特徴重要度という2つの正確な概念を定式化し,研究する。 これらの2つのタイプの説明(直感的かつ単純ではあるが)は、モデルが重要とみなす特徴の完全なイメージを提供するのに不足する可能性があることを実証する。 そこで本研究では,必要十分軸に沿って連続体を探索することによって,これらの制約を回避することの重要性の統一概念を提案する。 私たちの統一概念は、条件付き独立やShapley値のようなゲーム理論量に基づくものなど、他の一般的な機能の重要性の定義と強く結びついています。 重要なことは、統合された視点が、以前のアプローチだけで見逃される可能性のある重要な特徴をどうやって検出できるかを実証する。

As complex machine learning models continue to find applications in high-stakes decision-making scenarios, it is crucial that we can explain and understand their predictions. Post-hoc explanation methods provide useful insights by identifying important features in an input $\mathbf{x}$ with respect to the model output $f(\mathbf{x})$. In this work, we formalize and study two precise notions of feature importance for general machine learning models: sufficiency and necessity. We demonstrate how these two types of explanations, albeit intuitive and simple, can fall short in providing a complete picture of which features a model finds important. To this end, we propose a unified notion of importance that circumvents these limitations by exploring a continuum along a necessity-sufficiency axis. Our unified notion, we show, has strong ties to other popular definitions of feature importance, like those based on conditional independence and game-theoretic quantities like Shapley values. Crucially, we demonstrate how a unified perspective allows us to detect important features that could be missed by either of the previous approaches alone.
翻訳日:2024-10-02 06:50:32 公開日:2024-09-30
# fMRIから視のエコーを復号する:過去のセマンティック情報のためのメモリアンタングリング

Decoding the Echoes of Vision from fMRI: Memory Disentangling for Past Semantic Information ( http://arxiv.org/abs/2409.20428v1 )

ライセンス: Link先を確認
Runze Xia, Congchi Yin, Piji Li, (参考訳) 人間の視覚システムは、視覚情報の連続的なストリームを処理できるが、脳が、連続的な視覚処理中に最近の視覚記憶をエンコードし、どのように取り出すかは、未解明のままである。 本研究では,連続的な視覚刺激下での過去の情報を維持するための作業記憶能力について検討した。 そして,fMRI信号から過去の情報を抽出・復号するタスクメモリディスタングルを提案する。 過去の記憶情報からの干渉問題に対処するため,前向きな干渉現象に着想を得た非絡み合ったコントラスト学習手法を設計する。 この方法は、隣接するfMRI信号間の情報を現在のコンポーネントと過去のコンポーネントに分離し、それらを画像記述にデコードする。 実験により,fMRI信号内の情報を効果的に切り離すことが実証された。 この研究は脳とコンピュータのインターフェースを進化させ、fMRIにおける低時間分解能の問題を緩和する可能性がある。

The human visual system is capable of processing continuous streams of visual information, but how the brain encodes and retrieves recent visual memories during continuous visual processing remains unexplored. This study investigates the capacity of working memory to retain past information under continuous visual stimuli. And then we propose a new task Memory Disentangling, which aims to extract and decode past information from fMRI signals. To address the issue of interference from past memory information, we design a disentangled contrastive learning method inspired by the phenomenon of proactive interference. This method separates the information between adjacent fMRI signals into current and past components and decodes them into image descriptions. Experimental results demonstrate that this method effectively disentangles the information within fMRI signals. This research could advance brain-computer interfaces and mitigate the problem of low temporal resolution in fMRI.
翻訳日:2024-10-02 06:50:32 公開日:2024-09-30
# HELPD:視覚強調ペナルティ復号による階層的フィードバック学習によるLVLMの幻覚の軽減

HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding ( http://arxiv.org/abs/2409.20429v1 )

ライセンス: Link先を確認
Fan Yuan, Chi Qin, Xiaogang Xu, Piji Li, (参考訳) LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を示した。 しかし、これらのモデルはまだマルチモーダル幻覚に悩まされており、それは画像に反するオブジェクトやコンテンツの生成を意味する。 多くの既存の研究は、物体が画像の中に存在するかどうかを直接判断し、物体と意味論の関係を見渡すことによって幻覚を検出する。 この問題に対処するために,視力強化されたペナルティ復号法(HELPD)を用いた階層的フィードバック学習を提案する。 このフレームワークには、オブジェクトと文のセマンティックレベルの両方で幻覚フィードバックが組み込まれている。 注意すべきは、たとえ訓練の限界があるとしても、このアプローチは幻覚の15%以上を軽減することができるということだ。 同時に、HELPDは、画像注意ウィンドウに従って出力ロジットをペナルティ化し、生成されたテキストの過度な影響を避ける。 HELPDは任意のLVLMとシームレスに統合できる。 実験により,提案フレームワークは複数の幻覚ベンチマークで良好な結果が得られることが示された。 異なるLVLMに対する幻覚を効果的に緩和し、テキスト生成品質を同時に改善する。

Large Vision-Language Models (LVLMs) have shown remarkable performance on many visual-language tasks. However, these models still suffer from multimodal hallucination, which means the generation of objects or content that violates the images. Many existing work detects hallucination by directly judging whether an object exists in an image, overlooking the association between the object and semantics. To address this issue, we propose Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding (HELPD). This framework incorporates hallucination feedback at both object and sentence semantic levels. Remarkably, even with a marginal degree of training, this approach can alleviate over 15% of hallucination. Simultaneously, HELPD penalizes the output logits according to the image attention window to avoid being overly affected by generated text. HELPD can be seamlessly integrated with any LVLMs. Our experiments demonstrate that the proposed framework yields favorable results across multiple hallucination benchmarks. It effectively mitigates hallucination for different LVLMs and concurrently improves their text generation quality.
翻訳日:2024-10-02 06:50:32 公開日:2024-09-30
# QAEncoder:質問応答システムにおける適応表現学習を目指して

QAEncoder: Towards Aligned Representation Learning in Question Answering System ( http://arxiv.org/abs/2409.20434v1 )

ライセンス: Link先を確認
Zhengren Wang, Qinhan Yu, Shida Wei, Zhiyu Li, Feiyu Xiong, Xiaoxing Wang, Simin Niu, Hao Liang, Wentao Zhang, (参考訳) 現代のQAシステムは、正確で信頼性の高い応答に対して、検索拡張生成(RAG)を必要とする。 しかし、ユーザクエリと関連するドキュメントの本質的にのギャップは、正確なマッチングを妨げる。 埋め込み空間において,潜在的クエリやドキュメントがコーンのような構造を形成することを仮定した円錐分布仮説に動機づけられたQAEncoderを導入し,このギャップを埋める学習自由なアプローチを提案する。 具体的には、QAEncoderは、埋め込み空間における潜在的クエリの期待を文書埋め込みの堅牢なサロゲートとして推定し、これらの埋め込みを効果的に区別するために文書指紋を添付する。 6つの言語と8つのデータセットにまたがる14の埋め込みモデルに関する大規模な実験は、既存のRAGアーキテクチャとトレーニングベースのメソッドをシームレスに統合するプラグイン・アンド・プレイソリューションを提供するQAEncoderのアライメント能力を検証する。

Modern QA systems entail retrieval-augmented generation (RAG) for accurate and trustworthy responses. However, the inherent gap between user queries and relevant documents hinders precise matching. Motivated by our conical distribution hypothesis, which posits that potential queries and documents form a cone-like structure in the embedding space, we introduce QAEncoder, a training-free approach to bridge this gap. Specifically, QAEncoder estimates the expectation of potential queries in the embedding space as a robust surrogate for the document embedding, and attaches document fingerprints to effectively distinguish these embeddings. Extensive experiments on fourteen embedding models across six languages and eight datasets validate QAEncoder's alignment capability, which offers a plug-and-play solution that seamlessly integrates with existing RAG architectures and training-based methods.
翻訳日:2024-10-02 06:50:32 公開日:2024-09-30
# 直交状態に基づく独立量子通信デバイス

Orthogonal-state-based Measurement Device Independent Quantum Communication ( http://arxiv.org/abs/2409.20438v1 )

ライセンス: Link先を確認
Chitra Shukla, Abhishek Shukla, Symeon Chatzinotas, Milos Nesladek, (参考訳) 本稿では,計測デバイスに依存しない量子セキュアな直接通信と,単一ベースを用いた量子対話,すなわち盗聴検出のためのデコイキュービットとしてベルベースを用いた最初の直交状態ベースのプロトコルを提案する。 直交状態ベースのプロトコルは、本来は従来の共役符号化プロトコルとは異なるものであり、絡み合いの双対性と一夫一婦制に由来する無条件のセキュリティを提供する。 特に、これらの直交状態ベースのプロトコルは、特定のノイズ環境下で共役符号ベースのプロトコルよりも優れた性能を示し、集団雑音下でのセキュアな量子通信のために、デコイキュービットの最良の基底選択を選択することの重要性を強調している。 さらに,情報漏洩攻撃,フリップ攻撃,外乱や修正攻撃など,様々な盗難防止策に対して提案手法のセキュリティを厳格に分析する。 また, 適切な修正により, 提案した直交状態に基づく計測デバイス非依存型量子セキュア通信プロトコルを, 直交状態に基づく計測デバイス非依存型の量子鍵分布プロトコルに変換し, 適用性を高めた。 提案プロトコルは,従来の量子通信方式と比較して,安全なダイレクトメッセージ送信のための距離を2倍にし,測定装置に関連付けられたセキュリティの抜け穴を塞ぐために,根本的に異なるリソースを活用する。

We attempt to propose the first orthogonal-state-based protocols of measurement-device-independent quantum secure direct communication and quantum dialogue employing single basis, i.e., Bell basis as decoy qubits for eavesdropping detection. Orthogonal-state-based protocols are inherently distinct from conventional conjugate-coding protocols, offering unconditional security derived from the duality and monogamy of entanglement. Notably, these orthogonal-state-based protocols demonstrate improved performance over conjugate-coding based protocols under certain noisy environments, highlighting the significance of selecting the best basis choice of decoy qubits for secure quantum communication under collective noise. Furthermore, we rigorously analyze the security of the proposed protocols against various eavesdropping strategies, including intercept-and-resend attack, entangle-and-measure attack, information leakage attack, flip attack, and disturbance or modification attack. Our findings also show that, with appropriate modifications, the proposed orthogonal-state-based measurement-device-independent quantum secure direct communication protocol can be transformed into orthogonal-state-based measurement-device-independent versions of quantum key distribution protocols, expanding their applicability. Our protocols leverage fundamentally distinct resources to close the security loopholes linked to measurement devices, while also effectively doubling the distance for secure direct message transmission compared to traditional quantum communication methods.
翻訳日:2024-10-02 06:50:32 公開日:2024-09-30
# マルチアーマッドバンドにおけるあいまいさ原理の面における最適化

Optimism in the Face of Ambiguity Principle for Multi-Armed Bandits ( http://arxiv.org/abs/2409.20440v1 )

ライセンス: Link先を確認
Mengmeng Li, Daniel Kuhn, Bahar Taskesen, (参考訳) FTRL(Follow-The-Regularized-Leader)アルゴリズムは、しばしば逆数や確率的バンディット問題に対して最適な後悔を味わう。 それでも、FTRLアルゴリズムは各イテレーションで最適化問題の解を必要とするため、計算的に困難である。 対照的に、Follow-The-Perturbed-Leader (FTPL)アルゴリズムは、腕の報酬の見積もりを摂動させることで計算効率を向上するが、その残念な分析は困難である。 本稿では,逆方向と確率方向の両方のマルチアームバンディットに対して最適なポリシを生成する新しいFTPLアルゴリズムを提案する。 FTRLと同様に、我々のアルゴリズムは再帰解析を統一しており、FTPLと同様、計算コストが低い。 既存の FTPL アルゴリズムは、独立な加法的外乱を \textit{known} 分布に支配しているのとは異なり、与えられた集合に属することしか知られていない \textit{ambiguous} 分布に支配される外乱を許容し、あいまいさに直面して楽観主義の原理を提案する。 その結果,既存のFTPLアルゴリズムを一般化した。 また、現在のFTPLメソッドでは不可能と思われるいくつかの最適なメソッドを含む、FTRLメソッドを特別なケースとしてカプセル化している。 最後に、離散選択理論の手法を用いて、楽観的なアームサンプリング確率を計算するための効率的な分岐アルゴリズムを考案する。 このアルゴリズムは、イテレーション毎に最適化問題を解く標準のFTRLアルゴリズムの最大10^4$倍高速である。 以上の結果から,FTRLからFTPLへの写像による摂動の影響に関する新たな知見が得られた。

Follow-The-Regularized-Leader (FTRL) algorithms often enjoy optimal regret for adversarial as well as stochastic bandit problems and allow for a streamlined analysis. Nonetheless, FTRL algorithms require the solution of an optimization problem in every iteration and are thus computationally challenging. In contrast, Follow-The-Perturbed-Leader (FTPL) algorithms achieve computational efficiency by perturbing the estimates of the rewards of the arms, but their regret analysis is cumbersome. We propose a new FTPL algorithm that generates optimal policies for both adversarial and stochastic multi-armed bandits. Like FTRL, our algorithm admits a unified regret analysis, and similar to FTPL, it offers low computational costs. Unlike existing FTPL algorithms that rely on independent additive disturbances governed by a \textit{known} distribution, we allow for disturbances governed by an \textit{ambiguous} distribution that is only known to belong to a given set and propose a principle of optimism in the face of ambiguity. Consequently, our framework generalizes existing FTPL algorithms. It also encapsulates a broad range of FTRL methods as special cases, including several optimal ones, which appears to be impossible with current FTPL methods. Finally, we use techniques from discrete choice theory to devise an efficient bisection algorithm for computing the optimistic arm sampling probabilities. This algorithm is up to $10^4$ times faster than standard FTRL algorithms that solve an optimization problem in every iteration. Our results not only settle existing conjectures but also provide new insights into the impact of perturbations by mapping FTRL to FTPL.
翻訳日:2024-10-02 06:50:32 公開日:2024-09-30
# インスタンス適応型ゼロショットチェーン・オブ・サート・プロンプティング

Instance-adaptive Zero-shot Chain-of-Thought Prompting ( http://arxiv.org/abs/2409.20441v1 )

ライセンス: Link先を確認
Xiaosong Yuan, Chen Shen, Shaotian Yan, Xiaofeng Zhang, Liang Xie, Wenxiao Wang, Renchu Guan, Ying Wang, Jieping Ye, (参考訳) Zero-shot Chain-of-Thought (CoT) は,実世界の推論タスクにおける大規模言語モデル(LLM)の性能向上のための,シンプルかつ効果的な戦略として出現する。 それでも、単一のタスクレベルのプロンプトがインスタンス全体に一様に適用されることは、本質的に制限されている。 この研究は、良いプロンプトと悪いプロンプトを適応的に微分することで、代替のゼロショットCoT推論スキームとして、インスタンス適応プロンプトアルゴリズムを導入する。 具体的には、まず情報フローのレンズを通してLCMの分析を用い、ゼロショットCoT推論のメカニズムを検出する。 より優れたゼロショットCoT推論では、質問から意味情報を取得するためのプロンプトが必要であることに気付く。 それとは対照的に、これらのいずれかが欠落すると、おそらく悪い結果がもたらされるだろう。 そこから、ゼロショットCoT推論のためのインスタンス適応的プロンプト戦略(IAP)をさらに提案する。 LLaMA-2, LLaMA-3, Qwenで行った数学・論理・コモンセンス推論タスク(例えば、GSM8K, MMLU, Causal Judgement)の実験では、インスタンス適応型ゼロショットCoTプロンプトは、いくつかのプロンプトや高度な手順で他のタスクレベルメソッドよりも優れた性能を示し、ゼロショットCoT推論機構における我々の発見の重要性を示している。

Zero-shot Chain-of-Thought (CoT) prompting emerges as a simple and effective strategy for enhancing the performance of large language models (LLMs) in real-world reasoning tasks. Nonetheless, the efficacy of a singular, task-level prompt uniformly applied across the whole of instances is inherently limited since one prompt cannot be a good partner for all, a more appropriate approach should consider the interaction between the prompt and each instance meticulously. This work introduces an instance-adaptive prompting algorithm as an alternative zero-shot CoT reasoning scheme by adaptively differentiating good and bad prompts. Concretely, we first employ analysis on LLMs through the lens of information flow to detect the mechanism under zero-shot CoT reasoning, in which we discover that information flows from question to prompt and question to rationale jointly influence the reasoning results most. We notice that a better zero-shot CoT reasoning needs the prompt to obtain semantic information from the question then the rationale aggregates sufficient information from the question directly and via the prompt indirectly. On the contrary, lacking any of those would probably lead to a bad one. Stem from that, we further propose an instance-adaptive prompting strategy (IAP) for zero-shot CoT reasoning. Experiments conducted with LLaMA-2, LLaMA-3, and Qwen on math, logic, and commonsense reasoning tasks (e.g., GSM8K, MMLU, Causal Judgement) obtain consistent improvement, demonstrating that the instance-adaptive zero-shot CoT prompting performs better than other task-level methods with some curated prompts or sophisticated procedures, showing the significance of our findings in the zero-shot CoT reasoning mechanism.
翻訳日:2024-10-02 06:50:32 公開日:2024-09-30
# 数級蒸留における教師の埋め込みの線形投影

Linear Projections of Teacher Embeddings for Few-Class Distillation ( http://arxiv.org/abs/2409.20449v1 )

ライセンス: Link先を確認
Noel Loo, Fotis Iliopoulos, Wei Hu, Erik Vee, (参考訳) 知識蒸留(KD)は、より大規模で複雑な教師モデルからより小さな学生モデルへ知識を移行するための有望なアプローチとして登場した。 伝統的に、KDは教師の出力確率を模倣するために学生を訓練するが、より高度な技術は教師の内部表現を採用するよう指導する。 広く成功したにもかかわらず、二項分類と少数クラス問題におけるKDの性能は不十分である。 これは、教師モデルの一般化パターンに関する情報が、クラス数と直接的にスケールするためである。 さらに、いくつかの高度な蒸留法は、コンピュータビジョン以外のデータタイプに普遍的に適用できないか、有効でない可能性がある。 その結果, 感情分析, 検索クエリ理解, 広告クエリ関連性評価など, 実世界の重要な応用分野において, 有効蒸留技術はいまだ解明されていない。 これらの観察を考慮に入れ,教師のモデル表現から知識を抽出する新たな手法を導入し,Learning Embedding Linear Projections (LELP) と呼ぶ。 最終層表現の構造に関する最近の知見に触発されて、LELPは教師の埋め込み空間における情報的線形部分空間を特定し、それらを擬似サブクラスに分割することで機能する。 学生モデルはこれらの擬似クラスを複製するように訓練される。 Amazon ReviewsやSentiment140のような大規模NLPベンチマークに関する我々の実験的評価では、LELPは、ほとんどのKDメソッドが苦しむバイナリおよび少数クラスの問題に対して、既存の最先端の蒸留アルゴリズムと一貫して競合し、典型的には優れていることが示されている。

Knowledge Distillation (KD) has emerged as a promising approach for transferring knowledge from a larger, more complex teacher model to a smaller student model. Traditionally, KD involves training the student to mimic the teacher's output probabilities, while more advanced techniques have explored guiding the student to adopt the teacher's internal representations. Despite its widespread success, the performance of KD in binary classification and few-class problems has been less satisfactory. This is because the information about the teacher model's generalization patterns scales directly with the number of classes. Moreover, several sophisticated distillation methods may not be universally applicable or effective for data types beyond Computer Vision. Consequently, effective distillation techniques remain elusive for a range of key real-world applications, such as sentiment analysis, search query understanding, and advertisement-query relevance assessment. Taking these observations into account, we introduce a novel method for distilling knowledge from the teacher's model representations, which we term Learning Embedding Linear Projections (LELP). Inspired by recent findings about the structure of final-layer representations, LELP works by identifying informative linear subspaces in the teacher's embedding space, and splitting them into pseudo-subclasses. The student model is then trained to replicate these pseudo-classes. Our experimental evaluation on large-scale NLP benchmarks like Amazon Reviews and Sentiment140 demonstrate the LELP is consistently competitive with, and typically superior to, existing state-of-the-art distillation algorithms for binary and few-class problems, where most KD methods suffer.
翻訳日:2024-10-02 06:50:32 公開日:2024-09-30
# スペイン語の言語資源を用いたドメイン間テキストの簡易化

Language Resources in Spanish for Automatic Text Simplification across Domains ( http://arxiv.org/abs/2409.20466v1 )

ライセンス: Link先を確認
Antonio Moreno-Sandoval, Leonardo Campillos-Llanos, Ana García-Serrano, (参考訳) 本研究は, 3つの領域(財務, 医学, 歴史研究)におけるスペイン語テキストの自動簡略化のために開発された言語資源とモデルについて述べる。 我々は、各ドメインにいくつかのコーパス、アノテーションと単純化ガイドライン、技術的および単純化された医療用語の語彙、金融ドメインの共有タスクで使用されるデータセット、そして2つの単純化ツールを作成しました。 方法論、リソース、関連出版物は、Webサイトで公開されています。

This work describes the language resources and models developed for automatic simplification of Spanish texts in three domains: Finance, Medicine and History studies. We created several corpora in each domain, annotation and simplification guidelines, a lexicon of technical and simplified medical terms, datasets used in shared tasks for the financial domain, and two simplification tools. The methodology, resources and companion publications are shared publicly on the web-site: https://clara-nlp.uned.es/.
翻訳日:2024-10-02 06:50:32 公開日:2024-09-30
# キーポイントとポース変動の漸進的統合のための連続的人文推定

Continual Human Pose Estimation for Incremental Integration of Keypoints and Pose Variations ( http://arxiv.org/abs/2409.20469v1 )

ライセンス: Link先を確認
Muhammad Saif Ullah Khan, Muhammad Ahmed Ullah Khan, Muhammad Zeshan Afzal, Didier Stricker, (参考訳) 本稿では,従来の学習データセットの精度を損なうことなく,新たなキーポイントを統合し,既存モデルにバリエーションを付加することを目的とした,連続的な学習課題として,データセット間のポーズ推定を再構築する。 本定式化は,EWC,LFL,LwFなどの破滅的忘れを緩和するための確立された正規化に基づく手法と比較した。 また, 従来のLwFを付加し, レイヤーワイド蒸留法と動的温度調整法を導入することで, 従来のLwFを向上するImportance-Weighted Distillation (IWD) という新しい正則化手法を提案する。 これにより、継続的な学習において重要な安定性と塑性のバランスを尊重する新しいタスクへの制御された適応が可能になる。 3つのデータセットにわたる広範な実験を通して、我々のアプローチが既存の正規化に基づく継続的な学習戦略より優れていることを実証する。 IWDは最先端のLwF法よりも平均3.60\%改善している。 その結果、過去の知識を忘れずにモデルが新しいデータで進化しなければならない現実世界のアプリケーションのための堅牢なフレームワークとして機能する手法の可能性を強調した。

This paper reformulates cross-dataset human pose estimation as a continual learning task, aiming to integrate new keypoints and pose variations into existing models without losing accuracy on previously learned datasets. We benchmark this formulation against established regularization-based methods for mitigating catastrophic forgetting, including EWC, LFL, and LwF. Moreover, we propose a novel regularization method called Importance-Weighted Distillation (IWD), which enhances conventional LwF by introducing a layer-wise distillation penalty and dynamic temperature adjustment based on layer importance for previously learned knowledge. This allows for a controlled adaptation to new tasks that respects the stability-plasticity balance critical in continual learning. Through extensive experiments across three datasets, we demonstrate that our approach outperforms existing regularization-based continual learning strategies. IWD shows an average improvement of 3.60\% over the state-of-the-art LwF method. The results highlight the potential of our method to serve as a robust framework for real-world applications where models must evolve with new data without forgetting past knowledge.
翻訳日:2024-10-02 06:50:32 公開日:2024-09-30
# 普遍量子論はツイスト論理を含む

Universal quantum theory contains twisted logic ( http://arxiv.org/abs/2409.20480v1 )

ライセンス: Link先を確認
Francesco Atzori, Enrico Rebufello, Maria Violaris, Laura T. Knoll, Abdulla Alhajri, Alessio Avella, Marco Gramegna, Chiara Marletto, Vlatko Vedral, Fabrizio Piacentini, Ivo Pietro Degiovanni, Marco Genovese, (参考訳) 量子論は直観に反し悪名高いが、普遍的に適用しても完全に自己整合的である。 ここでは、その異常な結果の新しい徴候を明らかにする。 理論上、(偏光符号化された単一光子量子ビットを用いて)実験的に、ハイゼンベルクの不確実性原理は連続した非互換の測定結果に関する論理的推論を紐付けることができないことを実証する。 この現象はペンローズ三角形の幾何学に似ており、各角は局所的に一貫し、大域構造は不可能である。 これに加えて、この非自明な論理構造を見越すことが、単一の測定で非直交状態を識別する誤った可能性をもたらすことを示す。

Quantum theory is notoriously counterintuitive, and yet remains entirely self-consistent when applied universally. Here we uncover a new manifestation of its unusual consequences. We demonstrate, theoretically and experimentally (by means of polarization-encoded single-photon qubits), that Heisenberg's uncertainty principle leads to the impossibility of stringing together logical deductions about outcomes of consecutive non-compatible measurements. This phenomenon resembles the geometry of a Penrose triangle, where each corner is locally consistent while the global structure is impossible. Besides this, we show how overlooking this non-trivial logical structure leads to the erroneous possibility of distinguishing non-orthogonal states with a single measurement.
翻訳日:2024-10-02 06:50:32 公開日:2024-09-30
# 負の熱力学圧力:ノーゴー定理とyes-go例

Negative thermodynamic pressure: no-go theorem and yes-go examples ( http://arxiv.org/abs/2409.20454v1 )

ライセンス: Link先を確認
Varazdat Stepanyan, (参考訳) 理論と実験は長い間負の熱力学的圧力状態について論じてきたが、その微視的な起源は不明である。 量子熱力学の枠組みの中でこの問題に対処する。 境界との相互作用がない場合に境界に作用する圧力が正であることを示します。 これは任意の量子状態を保持するノーゴー定理によって定式化される。 安定な負圧状態は気体には存在しないと考えられている。 境界壁との適切な結合により負の圧力が達成される量子および古典気体の可解な例を示す。

Theory and experiment have long discussed negative thermodynamic pressure states, but their microscopic origins are unclear. I address this problem within the framework of quantum thermodynamics. I show that the pressure exerted on the boundary is positive when there is no interaction with the boundary. This is formalized via a no-go theorem that holds for any quantum state. It is believed that stable negative pressure states cannot exist in gases. I provide solvable examples of quantum and classical gases, where negative pressure is achieved due to a suitable coupling with the boundary walls.
翻訳日:2024-10-02 05:36:48 公開日:2024-09-30
# ベトナムのソーシャルメディアにおける機械語彙正規化のための弱監視データラベリングフレームワーク

A Weakly Supervised Data Labeling Framework for Machine Lexical Normalization in Vietnamese Social Media ( http://arxiv.org/abs/2409.20467v1 )

ライセンス: Link先を確認
Dung Ha Nguyen, Anh Thi Hoang Nguyen, Kiet Van Nguyen, (参考訳) 本研究では,ベトナム語のような低リソース言語を対象としたソーシャルメディアテキストにおける語彙正規化の課題に対処する,革新的な自動ラベリングフレームワークを提案する。 ソーシャルメディアのデータは豊かで多様であるが、これらの文脈で使用される多様で多様な言語は、手作業による労働集約的かつ高価である。 これらの課題に対処するために,半教師付き学習と弱監督技術を統合する枠組みを提案する。 このアプローチはトレーニングデータセットの品質を高め、手動ラベリング作業を最小化しながらサイズを拡大する。 本フレームワークは,非標準語彙を標準化形式に変換することにより,学習データの精度と一貫性を向上させる。 ベトナム語テキストの正規化における弱監督フレームワークの有効性,特に事前学習言語モデルを用いた場合について実験的に検証した。 提案されたフレームワークは、82.72%の印象的なF1スコアを獲得し、99.22%の精度で語彙の整合性を維持している。 さらに、様々な条件下では、非記述テキストを効果的に処理する。 このフレームワークは自然言語の正規化品質を大幅に向上させ、様々なNLPタスクの精度を改善し、平均精度を1-3%向上させる。

This study introduces an innovative automatic labeling framework to address the challenges of lexical normalization in social media texts for low-resource languages like Vietnamese. Social media data is rich and diverse, but the evolving and varied language used in these contexts makes manual labeling labor-intensive and expensive. To tackle these issues, we propose a framework that integrates semi-supervised learning with weak supervision techniques. This approach enhances the quality of training dataset and expands its size while minimizing manual labeling efforts. Our framework automatically labels raw data, converting non-standard vocabulary into standardized forms, thereby improving the accuracy and consistency of the training data. Experimental results demonstrate the effectiveness of our weak supervision framework in normalizing Vietnamese text, especially when utilizing Pre-trained Language Models. The proposed framework achieves an impressive F1-score of 82.72% and maintains vocabulary integrity with an accuracy of up to 99.22%. Additionally, it effectively handles undiacritized text under various conditions. This framework significantly enhances natural language normalization quality and improves the accuracy of various NLP tasks, leading to an average accuracy increase of 1-3%.
翻訳日:2024-10-02 05:36:48 公開日:2024-09-30
# IRFusionFormer:RGB-T核融合とトポロジカル・ベース・ロスによる舗装クラック・セグメンテーションの促進

IRFusionFormer: Enhancing Pavement Crack Segmentation with RGB-T Fusion and Topological-Based Loss ( http://arxiv.org/abs/2409.20474v1 )

ライセンス: Link先を確認
Ruiqiang Xiao, Xiaohu Chen, (参考訳) ひび割れのセグメンテーションは、特に舗装の整合性を評価し、インフラの耐久性を確保するために、土木工学において重要である。 ディープラーニングはRGBベースのセグメンテーションを進歩させたが、照度や動きのぼかしなどの悪条件下では性能が低下する。 熱イメージングは、放射される放射線を捕捉し、挑戦的な環境における亀裂検出を改善することで補完的な情報を提供する。 クラックセグメンテーションのためのRGBとサーマルイメージ(RGB-T)を組み合わせることで、悪天候などの複雑な現実世界の状況が保証されるが、この分野の研究は限られている。 現在のRGB-Tセグメンテーション法は、様々なレベルの相互作用におけるモダリティ間の補完関係を完全に活用できないことが多い。 そこで本研究では,RGBと熱データを効果的に統合したひび割れセグメンテーションの新しいモデルであるIRFusionFormerを提案する。 我々の効率的なRGB-Tクロスフュージョンモジュールは、計算オーバーヘッドを伴わずに、モーダル間のマルチスケール関係と長距離依存関係をキャプチャする。 さらに,統合管理を伴う枝に融合した特徴を分散させることにより,モダリティ間の相互作用を強化するInteraction-Hybrid-Branch-Supervisionフレームワークを導入する。 ひび割れのトポロジ的構造を維持するために,トレーニング中の接続性を維持する新しいトポロジに基づく損失関数を導入する。 本手法は,90.01%のDiceスコアと81.83%のIoUで最先端性能を実現し,各種環境条件におけるロバスト性および精度を著しく向上させる。 これらの進歩は、舗装クラックセグメンテーションにおける重要な課題に対処し、より信頼性が高く効率的なソリューションを提供する。 この研究からコード、データ、モデルにアクセスするには、https://github.com/sheauhuu/IRFusionFormerを参照してください。

Crack segmentation is crucial in civil engineering, particularly for assessing pavement integrity and ensuring the durability of infrastructure. While deep learning has advanced RGB-based segmentation, performance degrades under adverse conditions like low illumination or motion blur. Thermal imaging offers complementary information by capturing emitted radiation, improving crack detection in challenging environments. Combining RGB and thermal images (RGB-T) for crack segmentation shows promise in complex real-world conditions, such as adverse weather, yet research in this area remains limited. Current RGB-T segmentation methods often fail to fully exploit the complementary relationships between modalities at various levels of interaction. To address this, we propose IRFusionFormer, a novel model for crack segmentation that effectively integrates RGB and thermal data. Our Efficient RGB-T Cross Fusion Module captures multi-scale relationships and long-range dependencies between modalities without significant computational overhead. Additionally, we introduce the Interaction-Hybrid-Branch-Supervision framework, which enhances interaction between modalities by distributing fused features across branches with joint supervision. To maintain the topological structure of cracks, we introduce a novel topology-based loss function that preserves connectivity during training. Our method achieves state-of-the-art performance, with a Dice score of 90.01% and an IoU of 81.83%, significantly improving robustness and accuracy in varying environmental conditions. These advancements address key challenges in pavement crack segmentation, offering a more reliable and efficient solution. For access to the codes, data, and models from this study, visit https://github.com/sheauhuu/IRFusionFormer
翻訳日:2024-10-02 05:36:48 公開日:2024-09-30
# Dicke および Tavis-Cummings 量子電池における単原子散逸と劣化

Single-atom dissipation and dephasing in Dicke and Tavis-Cummings quantum batteries ( http://arxiv.org/abs/2409.20475v1 )

ライセンス: Link先を確認
Andrea Canzio, Vasco Cavina, Marco Polini, Vittorio Giovannetti, (参考訳) 単原子散逸と減圧ノイズがDickeおよびTavis-Cummings量子電池の性能に及ぼす影響について検討した。 これらのモデルでは、真に充電される過程は過渡的な状態に限られる。 実際、環境との相互作用が遮断されない限り、電池の漸近エネルギーは環境によってのみ決定され、電磁場の初期エネルギーに依存しない。 本稿では,電池が最大エルゴトロピーに達する時間,平均エネルギー,電池と充電器の相互作用をオン/オフするために必要なエネルギーなど,モデルの基本的メリットを数値的に推定する。 充電器とバッテリの結合のスケーリングによっては、モデルが依然として過大な充電時間を示すことを示す。 しかし、Dickeのバッテリーの場合、この効果はバッテリーと充電器の相互作用をオン/オフに切り替える際のコストが高くなる。 また、電池成分の数が増加するにつれて、DickeモデルとTavis-Cummingsモデルの両方が漸近的に自由になり、一元的に抽出できないエネルギーの量は無視できることを示す。 この結果は数値的に得られ、モデルの置換の下での対称性の結果であることを解析的に証明する。 最後に,Dickeバッテリの最適状態は,Tavis-Cummingsの場合とは対照的に,デチューニングの異なる値に対するシミュレーションを行った。

We study the influence of single-atom dissipation and dephasing noise on the performance of Dicke and Tavis-Cummings quantum batteries, where the electromagnetic field of the cavity hosting the system acts as a charger. For these models a genuine charging process can only occur in the transient regime. Indeed, unless the interaction with the environment is cut off, the asymptotic energy of the battery is solely determined by the environment and does not depend on the initial energy of the electromagnetic field. We numerically estimate the fundamental figures of merit for the model, including the time at which the battery reaches its maximum ergotropy, the average energy, and the energy that needs to be used to switch the battery-charger interaction on and off. Depending on the scaling of the coupling between the battery and the charger, we show that the model can still exhibit a subextensive charging time. However, for the Dicke battery, this effect comes with a higher cost when switching the battery-charger interaction on and off. We also show that as the number of battery constituents increases, both the Dicke and Tavis-Cummings models become asymptotically free, meaning the amount of energy that is not unitarily extractable becomes negligible. We obtain this result numerically and demonstrate analytically that it is a consequence of the symmetry under permutation of the model. Finally, we perform simulations for different values of the detuning, showing that the optimal regime for the Dicke battery is off-resonance, in contrast to what is observed in the Tavis-Cummings case.
翻訳日:2024-10-02 05:36:48 公開日:2024-09-30
# RecSys Challenge 2024:ニュースレコメンデーションにおける正確さと編集価値のバランス

RecSys Challenge 2024: Balancing Accuracy and Editorial Values in News Recommendations ( http://arxiv.org/abs/2409.20483v1 )

ライセンス: Link先を確認
Johannes Kruse, Kasper Lindskow, Saikishore Kalloori, Marco Polignano, Claudio Pomo, Abhishek Srivastava, Anshuk Uppal, Michael Riis Andersen, Jes Frellsen, (参考訳) RecSys Challenge 2024は、効果的で責任あるレコメンデーションシステムの設計に固有の技術的課題と規範的課題の両方に対処することで、ニュースレコメンデーションを進めることを目的としている。 本稿は、デンマークのニュース出版社Ekstra BladetとJP/Politikens Media Group(Ekstra Bladet)が提供するデータセットを含む課題について述べる。 この課題は、行動に基づくユーザの嗜好をモデル化したり、ニュースアジェンダがユーザーの興味に与える影響を考慮に入れたり、ニュースアイテムの急激な衰退を管理するといった、ニュースレコメンデーションのユニークな側面を探求するものである。 さらに、この課題は規範的な複雑さを受け入れ、レコメンダシステムのニュースフローへの影響と、それらの編集値との整合性を調査している。 課題設定、データセットの特徴、評価指標を要約する。 最後に、勝者を発表し、彼らの貢献を強調します。 データセットは以下の通りである。

The RecSys Challenge 2024 aims to advance news recommendation by addressing both the technical and normative challenges inherent in designing effective and responsible recommender systems for news publishing. This paper describes the challenge, including its objectives, problem setting, and the dataset provided by the Danish news publishers Ekstra Bladet and JP/Politikens Media Group ("Ekstra Bladet"). The challenge explores the unique aspects of news recommendation, such as modeling user preferences based on behavior, accounting for the influence of the news agenda on user interests, and managing the rapid decay of news items. Additionally, the challenge embraces normative complexities, investigating the effects of recommender systems on news flow and their alignment with editorial values. We summarize the challenge setup, dataset characteristics, and evaluation metrics. Finally, we announce the winners and highlight their contributions. The dataset is available at: https://recsys.eb.dk.
翻訳日:2024-10-02 05:36:48 公開日:2024-09-30
# ラプラス・ニューラル・マニフォールドを用いた「何」×「いつ」動作記憶表現

"What" x "When" working memory representations using Laplace Neural Manifolds ( http://arxiv.org/abs/2409.20484v1 )

ライセンス: Link先を確認
Aakash Sarkar, Chenyu Wang, Shangfu Zuo, Marc W. Howard, (参考訳) ワーキングメモリ $\unicode{x2013}$ 最近のイベントを記憶する機能。 この性質は、混合選択性を示すためにニューロンが動作メモリをコーディングし、刺激と時間の共役受容場(RF)が'What'$\times$ 'when'の表現を形成する必要がある。 単一刺激を短時間に記憶しなければならない簡単な実験において、そのような動作記憶の特性について検討する。 共役受容場の要求により、ネットワークの共分散行列は適切に分離することができ、集団の低次元力学を理解できるようになる。 時間基底関数の異なる選択は質的に異なるダイナミクスをもたらす。 時間に対する指数基底関数を持つラプラス空間を「逆ラプラス」空間に結合した特定の選択を$\unicode{x2013}$で検討する。 我々は、この選択をラプラス・ニューラルマニフォールド(Laplace Neural Manifold)として均等にタイルログ時間を持つ基底関数で参照する。 線形射影によってそれらが互いに関連しているにもかかわらず、ラプラスの個体群は安定な刺激特異的部分空間を示すのに対し、逆ラプラスの個体群は回転ダイナミクスを示す。 時間による共分散行列の階数の成長は時間的基底集合の密度に依存するが、対数的タイリングはデータとよく一致している。 ラプラス・ニューラル・マニフォールドを構成する連続アトラクションCANNをスケッチする。 ラプラス空間の引力はエッジとして現れ、逆空間の引力はバンプとして現れる。 この研究は、WMのより抽象的な認知モデルから、連続的なアトラクタニューラルネットワークを用いた回路レベルの実装へ移行するためのマップを提供し、ワーキングメモリをサポートするニューラルダイナミクスのタイプに制約を課す。

Working memory $\unicode{x2013}$ the ability to remember recent events as they recede continuously into the past $\unicode{x2013}$ requires the ability to represent any stimulus at any time delay. This property requires neurons coding working memory to show mixed selectivity, with conjunctive receptive fields (RFs) for stimuli and time, forming a representation of 'what' $\times$ 'when'. We study the properties of such a working memory in simple experiments where a single stimulus must be remembered for a short time. The requirement of conjunctive receptive fields allows the covariance matrix of the network to decouple neatly, allowing an understanding of the low-dimensional dynamics of the population. Different choices of temporal basis functions lead to qualitatively different dynamics. We study a specific choice $\unicode{x2013}$ a Laplace space with exponential basis functions for time coupled to an "Inverse Laplace" space with circumscribed basis functions in time. We refer to this choice with basis functions that evenly tile log time as a Laplace Neural Manifold. Despite the fact that they are related to one another by a linear projection, the Laplace population shows a stable stimulus-specific subspace whereas the Inverse Laplace population shows rotational dynamics. The growth of the rank of the covariance matrix with time depends on the density of the temporal basis set; logarithmic tiling shows good agreement with data. We sketch a continuous attractor CANN that constructs a Laplace Neural Manifold. The attractor in the Laplace space appears as an edge; the attractor for the inverse space appears as a bump. This work provides a map for going from more abstract cognitive models of WM to circuit-level implementation using continuous attractor neural networks, and places constraints on the types of neural dynamics that support working memory.
翻訳日:2024-10-02 05:36:48 公開日:2024-09-30
# 予算制約下におけるオンライン意思決定デフレ

Online Decision Deferral under Budget Constraints ( http://arxiv.org/abs/2409.20489v1 )

ライセンス: Link先を確認
Mirabel Reid, Tom Sühr, Claire Vernade, Samira Samadi, (参考訳) 機械学習(ML)モデルは、意思決定のサポートや代替にますます使われています。 熟練した専門家が限られたリソースであるアプリケーションでは、MLモデルの性能が少なくとも同等の品質である場合、その負担を減らし、意思決定を自動化することが不可欠である。 しかしながら、モデルはしばしば事前訓練され、固定され、タスクが順次到着し、その分布がシフトする可能性がある。 この場合、意思決定者のそれぞれのパフォーマンスは変化し、遅延アルゴリズムは適応的でなければならない。 本稿では,このオンライン意思決定問題の文脈的包括的モデルを提案する。 当社のフレームワークには予算制約と,さまざまな部分的フィードバックモデルが含まれています。 提案アルゴリズムは,提案アルゴリズムの理論的保証の他に,実世界のデータセット上での顕著な性能を実現する効率的な拡張を提案する。

Machine Learning (ML) models are increasingly used to support or substitute decision making. In applications where skilled experts are a limited resource, it is crucial to reduce their burden and automate decisions when the performance of an ML model is at least of equal quality. However, models are often pre-trained and fixed, while tasks arrive sequentially and their distribution may shift. In that case, the respective performance of the decision makers may change, and the deferral algorithm must remain adaptive. We propose a contextual bandit model of this online decision making problem. Our framework includes budget constraints and different types of partial feedback models. Beyond the theoretical guarantees of our algorithm, we propose efficient extensions that achieve remarkable performance on real-world datasets.
翻訳日:2024-10-02 05:36:48 公開日:2024-09-30
# 放射線からのランダム性:放射線によるランダム数発生器の評価と解析

Randomness from Radiation: Evaluation and Analysis of Radiation-Based Random Number Generators ( http://arxiv.org/abs/2409.20492v1 )

ライセンス: Link先を確認
Roohi Zafar, Muhammad Kamran, Tahir Malik, Kashish Karera, Humayon Tariq, Ghulam Mustafa, Muhammad Mubashir Khan, (参考訳) ランダム数は、セキュア通信、量子鍵分布理論(QKD)、統計、その他のタスクなどの様々な応用の中心である。 今日の最も人気のあるジェネレータの1つは、量子乱数(QRNG)である。 量子力学における固有乱数性と真の予測不可能により、従来の乱数生成器よりも正確で有用なQRNGを構築することができた。 異なる量子力学原理に基づいて、いくつかのQRNGがすでに設計されている。 本論文の主な焦点は、放射性崩壊に基づく量子乱数の生成と解析である。 実験セットでは、コバルト60(Co60)とストロンチウム90(Sr90)の2つのベータ活性放射性物質と、ガイガー・ミュラー(GM)管を備えたST-360カウンタを用いて計数を記録する。 記録されたデータはエントロピーと周波数測定によって自己検査された。 さらに、保証されたランダム性がセキュリティ基準を満たすことを保証するため、一般的なテスト技術であるNational Institute of Science and Technology (NIST)ランダムネステストが使用されている。 この研究は、放射性源の性質、カウンタとソースの間の距離、および放射性QRNGの量子乱数生成におけるカウントの記録時間の影響を提供する。

Random numbers are central to various applications such as secure communications, quantum key distribution theory (QKD), statistics, and other tasks. One of today's most popular generators is quantum random numbers (QRNGs). The inherent randomness and true unpredictability in quantum mechanics allowed us to construct QRNGs that are more accurate and useful than traditional random number generators. Based on different quantum mechanical principles, several QRNGs have already been designed. The primary focus of this paper is the generation and analysis of quantum random numbers based on radioactive decay. In the experimental set, two beta-active radioactive sources, cobalt-60 (Co60) and Strontium-90 (Sr 90), and an ST-360 counter with a Geiger-Muller (GM) tube are used to record the counts. The recorded data was then self-tested by entropy and frequency measurement. Moreover, popular testing technique, the National Institute of Science and Technology (NIST) randomness testing is used, to ensure that the guaranteed randomness meets security standards. The research provides the impact of the nature of the radioactive source, the distance between the counter and sources, and the recording time of the counts on generating quantum random numbers of radioactive QRNGs.
翻訳日:2024-10-02 05:36:48 公開日:2024-09-30
# 事実上$Ω(c)$言語と実行時

An Effectively $Ω(c)$ Language and Runtime ( http://arxiv.org/abs/2409.20494v1 )

ライセンス: Link先を確認
Mark Marron, (参考訳) アプリケーション/ランタイムのパフォーマンスは通常、特定のワークロードで使用されるメモリ/時間の量を減らすほど、コンパイラ/ランタイムが良くなる、連続的な関数として考えられている。 しかし、実際には、アプリケーションの優れたパフォーマンスは、概念上はバイナリ関数である - アプリケーションが下位で応答する、例えば100ms以下で、ユーザがほとんど気づかないほど速いか、あるいは、注意深い時間を要する。そこで、パフォーマンスは、ユーザがタスクを待機して、潜在的にタスクを放棄する可能性があることを意味している。そこで、産業開発者は、平均応答時間よりも95番目と99%のレイテンシに注目する。不幸なことに、これらの高いパーセンタイルレイテンシの追跡と最適化は困難で、しばしばアプリケーション、ランタイム、GC、OSのインタラクションの深い理解を必要とする。これは、テールパフォーマンスが時々のみ見られるという事実によってさらに複雑で、特定の作業や特定のインプットに特化しているという事実により、特定のタスクを処理し、ランタイムのビジョンを作成することが困難である。

The performance of an application/runtime is usually thought of as a continuous function where, the lower the amount of memory/time used on a given workload, then the better the compiler/runtime is. However, in practice, good performance of an application is conceptually more of a binary function -- either the application responds in under, say 100ms, and is fast enough for a user to barely notice, or it takes a noticeable amount of time, leaving the user waiting and potentially abandoning the task. Thus, performance really means how often the application is fast enough to be usable, leading industrial developers to focus on the 95th and 99th percentile latencies as heavily, or moreso, than average response time. Unfortunately, tracking and optimizing for these high percentile latencies is difficult and often requires a deep understanding of the application, runtime, GC, and OS interactions. This is further complicated by the fact that tail performance is often only seen occasionally, and is specific to a certain workload or input, making these issues uniquely painful to handle. Our vision is to create a language and runtime that is designed to be $\Omega(c)$ in its performance -- that is, it is designed to have an effectively constant time to execute all operations, there is a constant fixed memory overhead for the application footprint, and the garbage-collector performs a constant amount of work per allocation + a (small) bounded pause for all collection/release operations.
翻訳日:2024-10-02 05:36:48 公開日:2024-09-30
# 最適化問題に対する自動量子支援ソリューションの開発

Creating Automated Quantum-Assisted Solutions for Optimization Problems ( http://arxiv.org/abs/2409.20496v1 )

ライセンス: Link先を確認
Benedikt Poggel, Xiomara Runge, Adelina Bärligea, Jeanette Miriam Lorenz, (参考訳) 量子化された手法を最適化問題に利用しようとすると、多くのオプションが産業のエンドユーザーによる採用を妨げている。 ユースケースの定式化とエンコーディング、アルゴリズムの選択と適応、適切な量子コンピューティングバックエンドの識別には、専門家の知識が必要である。 これらのオプションにまたがる決定ツリーのナビゲートは難しい作業であり、統合ツールのサポートはいまだに欠落している。 ソリューションパスを探索し、自動化し、体系的に評価できるフレームワークであるQuaST決定木を提案する。 エンドユーザが研究をアプリケーション領域に移行し、研究者が現実世界のユースケースの経験を収集するのに役立つ。 私たちのセットアップはモジュール化され、高度に構造化され、柔軟性があり、どんな準備や前処理、後処理のステップも含められます。 我々は、野心的なフレームワークの設計の指針を策定し、その実装について議論する。 QuaST決定ツリーには、アプリケーションから完全なハイブリッド量子ソリューションへの複数の完全なトップダウンパスが含まれている。

When trying to use quantum-enhanced methods for optimization problems, the sheer number of options inhibits its adoption by industrial end users. Expert knowledge is required for the formulation and encoding of the use case, the selection and adaptation of the algorithm, and the identification of a suitable quantum computing backend. Navigating the decision tree spanned by these options is a difficult task and supporting integrated tools are still missing. We propose the QuaST decision tree, a framework that allows to explore, automate and systematically evaluate solution paths. It helps end users to transfer research to their application area, and researchers to gather experience with real-world use cases. Our setup is modular, highly structured and flexible enough to include any kind of preparation, pre-processing and post-processing steps. We develop the guiding principles for the design of the ambitious framework and discuss its implementation. The QuaST decision tree includes multiple complete top-down paths from an application to its fully hybrid quantum solution.
翻訳日:2024-10-02 05:36:48 公開日:2024-09-30
# 知識蒸留・マルチタスク学習・データ拡張によるルーマニア語攻撃言語検出の強化

Enhancing Romanian Offensive Language Detection through Knowledge Distillation, Multi-Task Learning, and Data Augmentation ( http://arxiv.org/abs/2409.20498v1 )

ライセンス: Link先を確認
Vlad-Cristian Matei, Iulian-Marius Tăiatu, Răzvan-Alexandru Smădu, Dumitru-Clementin Cercel, (参考訳) 本稿では,人工知能における自然言語処理(NLP)の重要性を強調し,その理解とモデル化における重要な役割について述べる。 NLPの最近の進歩、特に会話型ボットは、開発者の間でかなりの注目を集め、採用されている。 本稿では,より小型で効率的なNLPモデルを実現するための高度な手法について検討する。 具体的には,(1)攻撃的言語を検出するためにトランスフォーマーベースのニューラルネットワークをトレーニングすること,(2)データ拡張と知識蒸留技術を用いて性能を向上させること,(3)知識蒸留とマルチタスク学習を併用すること,(3)多様なデータセットを用いて教師のアニーリングを行い,効率を高めること,の3つの主要なアプローチを用いる。 これらの手法の完成は、明らかに改善された結果をもたらす。

This paper highlights the significance of natural language processing (NLP) within artificial intelligence, underscoring its pivotal role in comprehending and modeling human language. Recent advancements in NLP, particularly in conversational bots, have garnered substantial attention and adoption among developers. This paper explores advanced methodologies for attaining smaller and more efficient NLP models. Specifically, we employ three key approaches: (1) training a Transformer-based neural network to detect offensive language, (2) employing data augmentation and knowledge distillation techniques to increase performance, and (3) incorporating multi-task learning with knowledge distillation and teacher annealing using diverse datasets to enhance efficiency. The culmination of these methods has yielded demonstrably improved outcomes.
翻訳日:2024-10-02 05:36:48 公開日:2024-09-30
# FreeMask:ゼロショットビデオ編集における注意マスクの重要性を再考

FreeMask: Rethinking the Importance of Attention Masks for Zero-Shot Video Editing ( http://arxiv.org/abs/2409.20500v1 )

ライセンス: Link先を確認
Lingling Cai, Kang Zhao, Hangjie Yuan, Yingya Zhang, Shiwei Zhang, Kejie Huang, (参考訳) テキストとビデオの拡散モデルは目覚ましい進歩を遂げた。 時間的コヒーレントなビデオを生成する能力によって、これらの基本モデルを用いたゼロショットビデオ編集の研究は急速に拡大している。 編集品質を向上させるため、ビデオ編集において構造制御が頻繁に用いられる。 これらの技術の中で、クロスアテンションマスクコントロールは、その有効性と効率性において際立っている。 しかし、動画編集にクロスアテンションマスクを鼻で応用する場合、ぼやけたり、ひらめいたりといったアーティファクトを導入することができる。 過去のビデオ編集研究で見過ごされた重要な要因が明らかになった: クロスアテンションマスクは一貫して明確ではないが、モデル構造やデノベーションタイムステップによって異なる。 この問題に対処するために,この変数を定量化する計量マスクマッチングコスト(MMC)を提案し,特定のビデオ編集タスクに適した最適マスクを選択する手法であるFreeMaskを提案する。 MMC選択マスクを用いて、注意機能(例えば、テンポ、クロス、自己注意モジュール)において、マスク融合機構をさらに改善する。 提案手法は既存のゼロショットビデオ編集フレームワークにシームレスに統合することができ、制御補助やパラメータの微調整は不要であるが、マスク精度制御による未編集セマンティックレイアウトの適応的デカップリングが可能となる。 大規模な実験により、FreeMaskは最先端の手法と比較して、セマンティックな忠実さ、時間的一貫性、編集品質が優れていることが示された。

Text-to-video diffusion models have made remarkable advancements. Driven by their ability to generate temporally coherent videos, research on zero-shot video editing using these fundamental models has expanded rapidly. To enhance editing quality, structural controls are frequently employed in video editing. Among these techniques, cross-attention mask control stands out for its effectiveness and efficiency. However, when cross-attention masks are naively applied to video editing, they can introduce artifacts such as blurring and flickering. Our experiments uncover a critical factor overlooked in previous video editing research: cross-attention masks are not consistently clear but vary with model structure and denoising timestep. To address this issue, we propose the metric Mask Matching Cost (MMC) that quantifies this variability and propose FreeMask, a method for selecting optimal masks tailored to specific video editing tasks. Using MMC-selected masks, we further improve the masked fusion mechanism within comprehensive attention features, e.g., temp, cross, and self-attention modules. Our approach can be seamlessly integrated into existing zero-shot video editing frameworks with better performance, requiring no control assistance or parameter fine-tuning but enabling adaptive decoupling of unedited semantic layouts with mask precision control. Extensive experiments demonstrate that FreeMask achieves superior semantic fidelity, temporal consistency, and editing quality compared to state-of-the-art methods.
翻訳日:2024-10-02 05:36:48 公開日:2024-09-30
# COLLAGE:階層的潜在拡散と言語モデルを用いた協調的人間-エージェントインタラクション生成

COLLAGE: Collaborative Human-Agent Interaction Generation using Hierarchical Latent Diffusion and Language Models ( http://arxiv.org/abs/2409.20502v1 )

ライセンス: Link先を確認
Divyanshu Daiya, Damon Conover, Aniket Bera, (参考訳) 本研究では,大規模言語モデル (LLM) と階層型運動固有ベクトル量子化変分オートエンコーダ (VQ-VAE) を活用することで,協調エージェント-オブジェクト-エージェント相互作用を生成する新しいフレームワークであるCOLLAGEを提案する。 本モデルでは,LLMの知識と推論能力を活用して生成拡散モデルを導出することにより,この領域におけるリッチデータセットの欠如に対処する。 階層的なVQ-VAEアーキテクチャは、複数の抽象化レベルで異なる動作特性をキャプチャし、冗長な概念を避け、効率的なマルチレゾリューション表現を可能にする。 遅延空間で動作する拡散モデルを導入し, LLM生成した動き計画手法を取り入れて, より制御と多様性を向上し, 即時特異的な動き生成を導出する。 CORE-4DとInterHumanのデータセットによる実験結果は、我々のアプローチが現実的かつ多種多様な協調的な人間-オブジェクトの相互作用を発生させ、最先端の手法より優れていることを示す。 我々の研究は、ロボット工学、グラフィックス、コンピュータビジョンなど、様々な領域における複雑な相互作用をモデリングする新たな可能性を開く。

We propose a novel framework COLLAGE for generating collaborative agent-object-agent interactions by leveraging large language models (LLMs) and hierarchical motion-specific vector-quantized variational autoencoders (VQ-VAEs). Our model addresses the lack of rich datasets in this domain by incorporating the knowledge and reasoning abilities of LLMs to guide a generative diffusion model. The hierarchical VQ-VAE architecture captures different motion-specific characteristics at multiple levels of abstraction, avoiding redundant concepts and enabling efficient multi-resolution representation. We introduce a diffusion model that operates in the latent space and incorporates LLM-generated motion planning cues to guide the denoising process, resulting in prompt-specific motion generation with greater control and diversity. Experimental results on the CORE-4D, and InterHuman datasets demonstrate the effectiveness of our approach in generating realistic and diverse collaborative human-object-human interactions, outperforming state-of-the-art methods. Our work opens up new possibilities for modeling complex interactions in various domains, such as robotics, graphics and computer vision.
翻訳日:2024-10-02 02:20:11 公開日:2024-09-30
# ログベースの異常検出に寄与する情報 : 構成可能なトランスフォーマーによるアプローチからの考察

What Information Contributes to Log-based Anomaly Detection? Insights from a Configurable Transformer-Based Approach ( http://arxiv.org/abs/2409.20503v1 )

ライセンス: Link先を確認
Xingfang Wu, Heng Li, Foutse Khomh, (参考訳) ログデータはソースコードのロギングステートメントから生成され、ソフトウェアアプリケーションやシステムの実行プロセスに関する洞察を提供する。 最先端のログベースの異常検出アプローチは、一般的にディープラーニングモデルを利用してログデータのセマンティックな情報やシーケンシャルな情報をキャプチャし、異常な実行時動作を検出する。 しかし、これらの異なる種類の情報の影響は明らかではない。 さらに、既存のアプローチではログデータのタイムスタンプをキャプチャしていないため、シーケンシャル情報よりも詳細な時間情報を提供できる可能性がある。 本研究では,ログデータ中のセマンティック,シーケンシャル,時間的情報をキャプチャし,異なるタイプの情報をモデルの特徴として設定できる,構成可能なトランスフォーマーに基づく異常検出モデルを提案する。 さらに、異なる長さのログシーケンスを用いて、提案したモデルをトレーニングし、評価し、固定長またはタイムウインドしたログシーケンスを入力として依存する既存のメソッドの制約を克服する。 提案モデルを用いて,入力特徴の異なる組み合わせによる一連の実験を行い,異常検出における異なる種類の情報の役割を評価する。 様々な長さのログシーケンスを提示すると、ベースラインと比較して競争力があり、安定したパフォーマンスが得られる。 その結果, 事象発生情報は異常を識別する上で重要な役割を担っていることが明らかとなった。 一方,研究対象の公開データセットの単純さも明らかにし,異常検出モデルの性能を評価するために,異なる種類の異常を含む新しいデータセットを構築することの重要性を強調した。

Log data are generated from logging statements in the source code, providing insights into the execution processes of software applications and systems. State-of-the-art log-based anomaly detection approaches typically leverage deep learning models to capture the semantic or sequential information in the log data and detect anomalous runtime behaviors. However, the impacts of these different types of information are not clear. In addition, existing approaches have not captured the timestamps in the log data, which can potentially provide more fine-grained temporal information than sequential information. In this work, we propose a configurable transformer-based anomaly detection model that can capture the semantic, sequential, and temporal information in the log data and allows us to configure the different types of information as the model's features. Additionally, we train and evaluate the proposed model using log sequences of different lengths, thus overcoming the constraint of existing methods that rely on fixed-length or time-windowed log sequences as inputs. With the proposed model, we conduct a series of experiments with different combinations of input features to evaluate the roles of different types of information in anomaly detection. When presented with log sequences of varying lengths, the model can attain competitive and consistently stable performance compared to the baselines. The results indicate that the event occurrence information plays a key role in identifying anomalies, while the impact of the sequential and temporal information is not significant for anomaly detection in the studied public datasets. On the other hand, the findings also reveal the simplicity of the studied public datasets and highlight the importance of constructing new datasets that contain different types of anomalies to better evaluate the performance of anomaly detection models.
翻訳日:2024-10-02 02:20:11 公開日:2024-09-30
# ナトリビジョン : スマートヘルスケアにおける自動食事管理システム

NUTRIVISION: A System for Automatic Diet Management in Smart Healthcare ( http://arxiv.org/abs/2409.20508v1 )

ライセンス: Link先を確認
Madhumita Veeramreddy, Ashok Kumar Pradhan, Swetha Ghanta, Laavanya Rachakonda, Saraju P Mohanty, (参考訳) バランスの取れた食事を通して健康とフィットネスを維持することは、心臓病、糖尿病、がんなどの非コミュニケーション性疾患を予防するために不可欠である。 NutriVisionは、スマートヘルスケアとコンピュータビジョンと機械学習を組み合わせて、栄養と食事管理の課題に対処する。 本稿では,食品の特定,量推定,包括的栄養情報の提供が可能な新しいシステムを提案する。 NutriVisionは、より高速なリージョンベースの畳み込みニューラルネットワーク(Convolutional Neural Network)を採用している。このディープラーニングアルゴリズムは、リージョンの提案を生成して、それらのリージョンを分類することによって、複雑で非組織的な食事設定においても、正確で迅速な食品の識別に非常に効果的である。 NutriVisionはスマートフォンベースの画像キャプチャーを通じて、マクロ栄養素の分解、カロリー数、微小栄養素の詳細などのインスタント栄養データを提供する。 NutriVisionの特長の1つは、個人化された栄養分析とダイエットレコメンデーションである。 NutriVisionは、カスタマイズされたアドバイスを提供することで、食事制限の管理や体重管理など、特定の健康やフィットネスの目標を達成するのに役立つ。 NutriVisionは、正確な食品検出と栄養評価を提供するだけでなく、バランスのとれた健康的な食事を促進するレコメンデーションにユーザーデータを統合することで、よりスマートな食事決定をサポートする。 本システムは, 栄養管理の実践的で先進的なソリューションであり, 食事選択へのアプローチ, 食事習慣の健康化, 全体としての健康化に大きく影響を与える可能性がある。 本稿では,NutriVisionシステムの設計,性能評価,将来的な応用について述べる。

Maintaining health and fitness through a balanced diet is essential for preventing non communicable diseases such as heart disease, diabetes, and cancer. NutriVision combines smart healthcare with computer vision and machine learning to address the challenges of nutrition and dietary management. This paper introduces a novel system that can identify food items, estimate quantities, and provide comprehensive nutritional information. NutriVision employs the Faster Region based Convolutional Neural Network, a deep learning algorithm that improves object detection by generating region proposals and then classifying those regions, making it highly effective for accurate and fast food identification even in complex and disorganized meal settings. Through smartphone based image capture, NutriVision delivers instant nutritional data, including macronutrient breakdown, calorie count, and micronutrient details. One of the standout features of NutriVision is its personalized nutritional analysis and diet recommendations, which are tailored to each user's dietary preferences, nutritional needs, and health history. By providing customized advice, NutriVision helps users achieve specific health and fitness goals, such as managing dietary restrictions or controlling weight. In addition to offering precise food detection and nutritional assessment, NutriVision supports smarter dietary decisions by integrating user data with recommendations that promote a balanced, healthful diet. This system presents a practical and advanced solution for nutrition management and has the potential to significantly influence how people approach their dietary choices, promoting healthier eating habits and overall well being. This paper discusses the design, performance evaluation, and prospective applications of the NutriVision system.
翻訳日:2024-10-02 02:20:11 公開日:2024-09-30
# ショットノイズのバランス検出に基づく小型量子乱数発生器

A Compact Quantum Random Number Generator Based on Balanced Detection of Shot Noise ( http://arxiv.org/abs/2409.20515v1 )

ライセンス: Link先を確認
Jaideep Singh, Rodrigo Piera, Yury Kurochkin, James A. Grieve, (参考訳) ランダムナンバージェネレータは、現代の暗号システムの重要なコンポーネントである。 量子乱数生成器(QRNG)はこれらのアプリケーションに高品質なランダム性を提供するために登場した。 本稿では,市販オフザシェルフパッケージにおけるLEDからのショットノイズのバランス検出による乱数抽出手法について述べる。 平衡検出は、光学場からの古典的なノイズ寄与を最小限に抑え、量子ノイズの分離を改善する。 本稿では,カスタムコンポーネントを必要とせずに既存のシステムに容易に統合可能なQRNGの性能を詳細に記述し,解析する。 設計は製造性、コスト、サイズに最適化されている。

Random Number Generators are critical components of modern cryptosystems. Quantum Random Number Generators (QRNG) have emerged to provide high-quality randomness for these applications. Here we describe a scheme to extract random numbers using balanced detection of shot noise from an LED in a commercially available off-the-shelf package. The balanced detection minimizes classical noise contributions from the optical field, improving the isolation of the quantum noise. We present a detailed description and analyze the performance of a QRNG that can be easily integrated into existing systems without the requirement of custom components. The design is optimised for manufacturability, cost, and size.
翻訳日:2024-10-02 02:20:11 公開日:2024-09-30
# SMLE: 組込みオーバー近似による安全な機械学習

SMLE: Safe Machine Learning via Embedded Overapproximation ( http://arxiv.org/abs/2409.20517v1 )

ライセンス: Link先を確認
Matteo Francobaldi, Michele Lombardi, (参考訳) 最近の機械学習(ML)とニューラルネットワークの進歩にもかかわらず、これらのシステムの振る舞いに関する公式な保証は依然としてオープンな問題であり、規制や安全クリティカルなシナリオで採用するための重要な要件である。 本稿では,デザイナー・コセン特性を満たすことが保証される識別可能なMLモデルをトレーニングする作業について考察する。 現代のニューラルモデルにおけるコンプライアンスの厳格な検証と実施という計算複雑性のため、これは非常に難しい。 私たちは3つのコンポーネントに基づいた革新的なアプローチを提供します。 1) 保守的な意味を持つ効率的な検証を可能にする汎用的かつ簡易なアーキテクチャ 2) 投影勾配法に基づく厳密な訓練アルゴリズム 3)強い反例を求める問題の定式化。 提案するフレームワークは, モデル複雑性の影響をわずかに受けて, 実用アプリケーションに十分対応し, 完全なプロパティ満足度を保証するモデルを生成する。 回帰における線形不等式によって定義される特性と、多重ラベル分類における相互排他的クラスに対するアプローチを評価する。 我々のアプローチは、トレーニングデータや後処理、モデル予測など、前処理中のプロパティの強制を含むベースラインと競合する。 最後に、私たちのコントリビューションは、複数の研究の方向性と潜在的な改善を開放するフレームワークを確立します。

Despite the extent of recent advances in Machine Learning (ML) and Neural Networks, providing formal guarantees on the behavior of these systems is still an open problem, and a crucial requirement for their adoption in regulated or safety-critical scenarios. We consider the task of training differentiable ML models guaranteed to satisfy designer-chosen properties, stated as input-output implications. This is very challenging, due to the computational complexity of rigorously verifying and enforcing compliance in modern neural models. We provide an innovative approach based on three components: 1) a general, simple architecture enabling efficient verification with a conservative semantic; 2) a rigorous training algorithm based on the Projected Gradient Method; 3) a formulation of the problem of searching for strong counterexamples. The proposed framework, being only marginally affected by model complexity, scales well to practical applications, and produces models that provide full property satisfaction guarantees. We evaluate our approach on properties defined by linear inequalities in regression, and on mutually exclusive classes in multilabel classification. Our approach is competitive with a baseline that includes property enforcement during preprocessing, i.e. on the training data, as well as during postprocessing, i.e. on the model predictions. Finally, our contributions establish a framework that opens up multiple research directions and potential improvements.
翻訳日:2024-10-02 02:20:11 公開日:2024-09-30
# 非最大圧縮の高速化:グラフ理論の観点から

Accelerating Non-Maximum Suppression: A Graph Theory Perspective ( http://arxiv.org/abs/2409.20520v1 )

ライセンス: Link先を確認
King-Siong Si, Lu Sun, Weizhan Zhang, Tieliang Gong, Jiahao Wang, Jiang Liu, Hao Sun, (参考訳) 非最大抑圧(NMS)は、オブジェクト検出において必要不可欠な後処理ステップである。 ネットワークモデルの継続的な最適化により、NMSはオブジェクト検出の効率を高めるために `last mile' となった。 本稿では,NMSをグラフ理論の観点から初めて体系的に解析し,その固有構造を明らかにする。 そこで本研究では,QSI-NMSとBOE-NMSの2つの最適化手法を提案する。 前者は、無視可能なmAP損失を持つ高速再帰的分割変換アルゴリズムであり、その拡張版(eQSI-NMS)は$\mathcal{O}(n\log n)$の最適複雑性を達成する。 後者はNMSの局所性に集中しており、mAP損失ペナルティのない一定レベルの最適化を実現する。 さらに,NMS法を研究者に迅速に評価するために,NMS法を総合的に評価する最初のベンチマークであるNMS-Benchを導入する。 ベンチマーク設定としてMS COCO 2017のYOLOv8-Nモデルを用いて、我々の方法であるQSI-NMSは、ベンチマークでオリジナルのNMSの6.2\times$スピードを提供し、mAPが0.1\%$ダウンする。 最適 eQSI-NMS は 0.3 %$ mAP しか減少せず,10.7 倍の速度を実現している。 一方、BOE-NMSはmAPに妥協することなく5.1\times$の速度を示した。

Non-maximum suppression (NMS) is an indispensable post-processing step in object detection. With the continuous optimization of network models, NMS has become the ``last mile'' to enhance the efficiency of object detection. This paper systematically analyzes NMS from a graph theory perspective for the first time, revealing its intrinsic structure. Consequently, we propose two optimization methods, namely QSI-NMS and BOE-NMS. The former is a fast recursive divide-and-conquer algorithm with negligible mAP loss, and its extended version (eQSI-NMS) achieves optimal complexity of $\mathcal{O}(n\log n)$. The latter, concentrating on the locality of NMS, achieves an optimization at a constant level without an mAP loss penalty. Moreover, to facilitate rapid evaluation of NMS methods for researchers, we introduce NMS-Bench, the first benchmark designed to comprehensively assess various NMS methods. Taking the YOLOv8-N model on MS COCO 2017 as the benchmark setup, our method QSI-NMS provides $6.2\times$ speed of original NMS on the benchmark, with a $0.1\%$ decrease in mAP. The optimal eQSI-NMS, with only a $0.3\%$ mAP decrease, achieves $10.7\times$ speed. Meanwhile, BOE-NMS exhibits $5.1\times$ speed with no compromise in mAP.
翻訳日:2024-10-02 02:20:11 公開日:2024-09-30
# 分散ロバストなオフダイナミックス強化学習のための上下境界

Upper and Lower Bounds for Distributionally Robust Off-Dynamics Reinforcement Learning ( http://arxiv.org/abs/2409.20521v1 )

ライセンス: Link先を確認
Zhishuai Liu, Weixin Wang, Pan Xu, (参考訳) 政策訓練と展開環境が異なるオフダイナミックス強化学習(RL)について検討する。 この環境摂動に対処するため、我々は、分布的に堅牢なマルコフ決定プロセス(DRMDP)の枠組みの下で、遷移力学の不確実性に頑健な学習政策に焦点を当てた。 We-DRIVE-U は平均的部分最適性 $\widetilde{\mathcal{O}}\big({d H \cdot \min \{1/{\rho}, H\}/\sqrt{K} }\big)$ であり、$K$ はエピソード数、$H$ は地平線長、$d$ は特徴次元、$\rho$ は不確実性レベルである。 この結果は $\mathcal{O}(dH/\min\{1/\rho,H\})$ によって最先端の処理を改善する。 我々はまた、新しいハードインスタンスを構築し、この設定において最初の情報理論の下限を導出する。これは、我々のアルゴリズムが任意の不確実レベル$\rho\in(0,1]$に対して、$\mathcal{O}(\sqrt{H})$にほぼ最適であることを示す。 われわれのアルゴリズムは、're-switching'設計も楽しんでおり、従って、$\mathcal{O}(dH\log(1+H^2K))$ポリシースイッチと$\mathcal{O}(d^2H\log(1+H^2K))$2つの最適化問題を解決するためのオラクルの呼び出ししか必要とせず、ポリシースイッチとオラクル複雑度が$\mathcal{O}(K)$であるDRMDPの既存のアルゴリズムの計算効率を大幅に改善する。

We study off-dynamics Reinforcement Learning (RL), where the policy training and deployment environments are different. To deal with this environmental perturbation, we focus on learning policies robust to uncertainties in transition dynamics under the framework of distributionally robust Markov decision processes (DRMDPs), where the nominal and perturbed dynamics are linear Markov Decision Processes. We propose a novel algorithm We-DRIVE-U that enjoys an average suboptimality $\widetilde{\mathcal{O}}\big({d H \cdot \min \{1/{\rho}, H\}/\sqrt{K} }\big)$, where $K$ is the number of episodes, $H$ is the horizon length, $d$ is the feature dimension and $\rho$ is the uncertainty level. This result improves the state-of-the-art by $\mathcal{O}(dH/\min\{1/\rho,H\})$. We also construct a novel hard instance and derive the first information-theoretic lower bound in this setting, which indicates our algorithm is near-optimal up to $\mathcal{O}(\sqrt{H})$ for any uncertainty level $\rho\in(0,1]$. Our algorithm also enjoys a 'rare-switching' design, and thus only requires $\mathcal{O}(dH\log(1+H^2K))$ policy switches and $\mathcal{O}(d^2H\log(1+H^2K))$ calls for oracle to solve dual optimization problems, which significantly improves the computational efficiency of existing algorithms for DRMDPs, whose policy switch and oracle complexities are both $\mathcal{O}(K)$.
翻訳日:2024-10-02 02:20:11 公開日:2024-09-30
# スペイン語母語における単語センスの曖昧化 : 包括的語彙評価資源

Word Sense Disambiguation in Native Spanish: A Comprehensive Lexical Evaluation Resource ( http://arxiv.org/abs/2409.20524v1 )

ライセンス: Link先を確認
Pablo Ortega, Jordi Luque, Luis Lamiable, Rodrigo López, Richard Benjamins, (参考訳) 人間の言語は、意味を伝えることを目的としているが、本質的にはあいまいさを持っている。 言語処理や言語処理には課題があるが、重要なコミュニケーション機能も備えている。 曖昧さを効果的に解決することは、望ましい性質と必要な特性の両方である。 文脈における単語の語彙的意味は、外的知識に依存し、しばしば英語に偏ったWord Sense Disambiguation (WSD)アルゴリズムによって自動的に決定される。 他の言語にコンテンツを適用する際には、自動翻訳が頻繁に不正確であり、精度と理解の両面を確実にするためには、高度な専門家による検証が必要である。 現在の研究では、スペインのWSDのための新しいリソースを導入することで、以前の制限に対処している。 インベントリと、Real Academia Espa\~nolaによって維持されているDiccionario de la Lengua Espa\~nolaに由来する語彙データセットを含んでいる。 また、スペイン語の現在のリソースをレビューし、最先端のシステムでメトリクスを報告します。

Human language, while aimed at conveying meaning, inherently carries ambiguity. It poses challenges for speech and language processing, but also serves crucial communicative functions. Efficiently solve ambiguity is both a desired and a necessary characteristic. The lexical meaning of a word in context can be determined automatically by Word Sense Disambiguation (WSD) algorithms that rely on external knowledge often limited and biased toward English. When adapting content to other languages, automated translations are frequently inaccurate and a high degree of expert human validation is necessary to ensure both accuracy and understanding. The current study addresses previous limitations by introducing a new resource for Spanish WSD. It includes a sense inventory and a lexical dataset sourced from the Diccionario de la Lengua Espa\~nola which is maintained by the Real Academia Espa\~nola. We also review current resources for Spanish and report metrics on them by a state-of-the-art system.
翻訳日:2024-10-02 02:20:11 公開日:2024-09-30
# 高忠実度3次元頭部再構成のためのデュアルエンコーダGANインバージョン

Dual Encoder GAN Inversion for High-Fidelity 3D Head Reconstruction from Single Images ( http://arxiv.org/abs/2409.20530v1 )

ライセンス: Link先を確認
Bahri Batuhan Bilecen, Ahmet Berke Gokmen, Aysegul Dundar, (参考訳) 3D GANインバージョンは、GAN(Generative Adversarial Network)の潜在空間に単一の画像を投影することを目的としており、3D幾何再構成を実現する。 3D GANのインバージョンには良い結果をもたらすエンコーダが存在するが、それらは主にEG3D上に構築されており、これは正面近傍のビューの合成に特化しており、多様な視点から総合的な3Dシーンの合成に制限されている。 既存のアプローチとは対照的に,360度画像の合成に優れるPanoHead上に構築された新しいフレームワークを提案する。 入力画像のリアルな3次元モデリングを実現するために,高忠実度再構成と異なる視点からのリアルな生成に適したデュアルエンコーダシステムを導入する。 これに対応して,両分野の最高の予測を得るために,三面体領域の縫合フレームワークを提案する。 シームレスな縫合を実現するために、両エンコーダは異なるタスクに特化しているにもかかわらず一貫した結果を出力しなければならない。 このような理由から,我々は,新たなオクルージョン対応三面体判別器に基づく対角線損失を含む,特殊な損失を用いて,これらのエンコーダを慎重に訓練する。 実験により,本手法は既存のエンコーダ学習手法を質的,定量的に超越していることが明らかとなった。 プロジェクトページをご覧ください。 https://berkegokmen1.github.io/dual-enc-3d-gan-inv。

3D GAN inversion aims to project a single image into the latent space of a 3D Generative Adversarial Network (GAN), thereby achieving 3D geometry reconstruction. While there exist encoders that achieve good results in 3D GAN inversion, they are predominantly built on EG3D, which specializes in synthesizing near-frontal views and is limiting in synthesizing comprehensive 3D scenes from diverse viewpoints. In contrast to existing approaches, we propose a novel framework built on PanoHead, which excels in synthesizing images from a 360-degree perspective. To achieve realistic 3D modeling of the input image, we introduce a dual encoder system tailored for high-fidelity reconstruction and realistic generation from different viewpoints. Accompanying this, we propose a stitching framework on the triplane domain to get the best predictions from both. To achieve seamless stitching, both encoders must output consistent results despite being specialized for different tasks. For this reason, we carefully train these encoders using specialized losses, including an adversarial loss based on our novel occlusion-aware triplane discriminator. Experiments reveal that our approach surpasses the existing encoder training methods qualitatively and quantitatively. Please visit the project page: https://berkegokmen1.github.io/dual-enc-3d-gan-inv.
翻訳日:2024-10-02 02:20:11 公開日:2024-09-30
# クレディ・スコーリングにおける責任ある機械学習のベストプラクティス

Best Practices for Responsible Machine Learning in Credit Scoring ( http://arxiv.org/abs/2409.20536v1 )

ライセンス: Link先を確認
Giovani Valdrighi, Athyrson M. Ribeiro, Jansen S. B. Pereira, Vitoria Guardieiro, Arthur Hendricks, Décio Miranda Filho, Juan David Nieto Garcia, Felipe F. Bocca, Thalita B. Veronese, Lucas Wanner, Marcos Medeiros Raimundo, (参考訳) 信用スコアリングにおける機械学習の普及は、リスク評価と意思決定に大きな進歩をもたらした。 しかしながら、自動化システムにおける潜在的なバイアス、差別、透明性の欠如に対する懸念も持ち上がっている。 本チュートリアルでは、信用スコアリングにおいて責任ある機械学習モデルを開発するためのベストプラクティスを、公正性、推論の拒否、説明可能性に焦点をあてる非体系的な文献レビューを行った。 我々は、偏見を緩和し、異なるグループ間で公平な結果を確保するための定義、メトリクス、技術について議論する。 さらに,返済されたローンアプリケーションからの情報を組み込んだリジェクション推論手法を検討することで,限られたデータ代表性の問題に対処する。 最後に、私たちは信用モデルにおける透明性と説明可能性の重要性を強調し、意思決定プロセスに関する洞察を提供し、個人が信用力を理解し、潜在的に改善できる技術について議論します。 これらのベストプラクティスを採用することで、金融機関は倫理的かつ責任ある融資プラクティスを維持しながら、機械学習の力を利用することができる。

The widespread use of machine learning in credit scoring has brought significant advancements in risk assessment and decision-making. However, it has also raised concerns about potential biases, discrimination, and lack of transparency in these automated systems. This tutorial paper performed a non-systematic literature review to guide best practices for developing responsible machine learning models in credit scoring, focusing on fairness, reject inference, and explainability. We discuss definitions, metrics, and techniques for mitigating biases and ensuring equitable outcomes across different groups. Additionally, we address the issue of limited data representativeness by exploring reject inference methods that incorporate information from rejected loan applications. Finally, we emphasize the importance of transparency and explainability in credit models, discussing techniques that provide insights into the decision-making process and enable individuals to understand and potentially improve their creditworthiness. By adopting these best practices, financial institutions can harness the power of machine learning while upholding ethical and responsible lending practices.
翻訳日:2024-10-02 02:20:11 公開日:2024-09-30
# 不均質な事前学習型変圧器による受動視覚学習のスケーリング

Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers ( http://arxiv.org/abs/2409.20537v1 )

ライセンス: Link先を確認
Lirui Wang, Xinlei Chen, Jialiang Zhao, Kaiming He, (参考訳) 今日、一般的なロボットモデルを訓練するための障害の1つは異質性である。 従来のロボット学習手法では、1つのタスクに対して1つの特定の実施形態でトレーニングを行うためにデータを集めることが多かった。 本研究は,異種事前学習による政策表現の学習課題について検討する。 本稿では,多元性事前学習型トランスフォーマ(HPT)を提案する。このトランスフォーマは,政策ニューラルネットワークの大規模で共有可能なトランクを事前学習し,タスクを学習し,未知の共有表現を具現化する。 この一般的なアーキテクチャは、異なる実施形態からの特定の受容と視覚入力を短いトークン列に整列させ、その後、異なるタスクのためにロボットを制御するためにそのようなトークンをマップするために処理する。 近年の大規模マルチエンボディメント実世界のロボットデータセット、シミュレーション、デプロイされたロボット、人間のビデオデータセットを活用し、異種間における事前学習ポリシーを調査する。 52データセットの範囲で,トレーニング対象のスケーリング行動を調べる実験を行った。 HPTはいくつかのベースラインを上回り、複数のシミュレータベンチマークと実世界の設定において、目に見えないタスクで20%以上の微調整されたポリシー性能を向上させる。 コードとビデオのプロジェクトWebサイト(https://liruiw.github.io/hpt/)を参照してください。

One of the roadblocks for training generalist robotic models today is heterogeneity. Previous robot learning methods often collect data to train with one specific embodiment for one task, which is expensive and prone to overfitting. This work studies the problem of learning policy representations through heterogeneous pre-training on robot data across different embodiments and tasks at scale. We propose Heterogeneous Pre-trained Transformers (HPT), which pre-train a large, shareable trunk of a policy neural network to learn a task and embodiment agnostic shared representation. This general architecture aligns the specific proprioception and vision inputs from distinct embodiments to a short sequence of tokens and then processes such tokens to map to control robots for different tasks. Leveraging the recent large-scale multi-embodiment real-world robotic datasets as well as simulation, deployed robots, and human video datasets, we investigate pre-training policies across heterogeneity. We conduct experiments to investigate the scaling behaviors of training objectives, to the extent of 52 datasets. HPTs outperform several baselines and enhance the fine-tuned policy performance by over 20% on unseen tasks in multiple simulator benchmarks and real-world settings. See the project website (https://liruiw.github.io/hpt/) for code and videos.
翻訳日:2024-10-02 02:20:11 公開日:2024-09-30
# カオスドライバーハミルトニアンによる量子アニーリング

Quantum Annealing with chaotic driver Hamiltonians ( http://arxiv.org/abs/2409.20538v1 )

ライセンス: Link先を確認
Henning Schlömer, Subir Sachdev, (参考訳) 量子アニーリング(quantum annealing)は、量子ゆらぎを利用した大規模古典最適化問題の解法である。 標準的な逆場 (TF) 項をアニール過程に組み込むことは、急激な最小化を導くのに役立つが、一般的な最適化問題に対してスケーラブルな量子優位性を実現する可能性については、いまだ定かではない。 ここでは、カオス量子ドライバであるハミルトンをアニーリング力学に組み込むことの有効性について検討する。 具体的には、Sachdev-Ye-Kitaev(SYK)モデルのボソニックスピンバージョンに基づくドライバー・ハミルトンについて検討する。 正規グラフ上のMaxCutインスタンスに注目すると、SYKモデルインスタンスのかなりの割合は、特に挑戦的なグラフ構成において、大幅なスピードアップを示すことが分かる。 さらに,低自己相関二分数列 (LABS) 問題に対する時間-解スケールの解析により,SYK型ゆらぎは大規模最適化タスクにおいて従来の横フィールドアニーリングスケジュールより優れていることが示された。

Quantum annealing is a computational approach designed to leverage quantum fluctuations for solving large-scale classical optimization problems. Although incorporating standard transverse field (TF) terms in the annealing process can help navigate sharp minima, the potential for achieving a scalable quantum advantage for general optimization problems remains uncertain. Here, we examine the effectiveness of including chaotic quantum driver Hamiltonians in the annealing dynamics. Specifically, we investigate driver Hamiltonians based on a bosonic spin version of the Sachdev-Ye-Kitaev (SYK) model, which features a high degree of non-locality and non-commutativity. Focusing on MaxCut instances on regular graphs, we find that a considerable proportion of SYK model instances demonstrate significant speedups, especially for challenging graph configurations. Additionally, our analysis of time-to-solution scalings for the low autocorrelation binary sequence (LABS) problem suggests that SYK-type fluctuations can outperform traditional transverse field annealing schedules in large-scale optimization tasks.
翻訳日:2024-10-02 02:20:11 公開日:2024-09-30
# Robi Butler:家庭用ロボットアシスタントとのリモートマルチモーダルインタラクション

Robi Butler: Remote Multimodal Interactions with Household Robot Assistant ( http://arxiv.org/abs/2409.20548v1 )

ライセンス: Link先を確認
Anxing Xiao, Nuwan Janaka, Tianrun Hu, Anshul Gupta, Kaixin Li, Cunjun Yu, David Hsu, (参考訳) 本稿では,リモートユーザとのマルチモーダルインタラクションを実現する家庭用ロボットシステムであるRobi Butlerを紹介する。 高度な通信インターフェースに基づいて、Robi Butlerを使用すると、ユーザーはロボットの状態を監視し、テキストや音声の指示を送り、手指しでターゲットオブジェクトを選択することができる。 我々のシステムの中核は、多モード命令を解釈して行動計画を生成するLarge Language Models (LLMs) を利用した高レベルの行動モジュールである。 これらの計画は、テキストとポインティングクエリの両方を扱うビジョン言語モデル(VLM)によってサポートされているオープン語彙プリミティブのセットで構成されている。 上記のコンポーネントの統合により、Robi Butlerはリモートマルチモーダルインストラクションを現実世界のホーム環境にゼロショットで構築できる。 本システムの有効性と効率性は,遠隔ユーザによるマルチモーダルな指示を含む日常業務の多種多様さを用いて実証する。 さらに,マルチモーダルインタラクションが遠隔ロボットインタラクションにおける効率とユーザエクスペリエンスに与える影響を解析し,潜在的な改善について検討した。

In this paper, we introduce Robi Butler, a novel household robotic system that enables multimodal interactions with remote users. Building on the advanced communication interfaces, Robi Butler allows users to monitor the robot's status, send text or voice instructions, and select target objects by hand pointing. At the core of our system is a high-level behavior module, powered by Large Language Models (LLMs), that interprets multimodal instructions to generate action plans. These plans are composed of a set of open vocabulary primitives supported by Vision Language Models (VLMs) that handle both text and pointing queries. The integration of the above components allows Robi Butler to ground remote multimodal instructions in the real-world home environment in a zero-shot manner. We demonstrate the effectiveness and efficiency of this system using a variety of daily household tasks that involve remote users giving multimodal instructions. Additionally, we conducted a user study to analyze how multimodal interactions affect efficiency and user experience during remote human-robot interaction and discuss the potential improvements.
翻訳日:2024-10-02 02:20:11 公開日:2024-09-30
# 目的, 評価, 探索: 指導ビデオにおける目標指向プランニングのためのLLMのハーネス化

Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos ( http://arxiv.org/abs/2409.20557v1 )

ライセンス: Link先を確認
Md Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Fu-Jen Chu, Kris Kitani, Gedas Bertasius, Xitong Yang, (参考訳) 目標指向の計画、あるいはエージェントを現在の状態から事前に定義された目標に移行させる一連のアクションを予想することは、日々の手続き作業でユーザを支援するインテリジェントアシスタントを開発する上で不可欠である。 この問題は、時間的・階層的なタスク構造に関する包括的な知識が必要であり、推論や計画における強力な能力が必要であるため、重大な課題を提起する。 これを実現するために、以前の作業は通常、ターゲットデータセットの広範なトレーニングに依存しており、しばしば大きなデータセットバイアスと、目に見えないタスクへの一般化の欠如をもたらす。 本研究では,教師ビデオにおけるゼロ/フェーショット目標指向計画のための統合フレームワークであるVidAssistを紹介する。 VidAssistは、大規模言語モデル(LLM)を、行動計画の生成と評価のための知識ベースとアセスメントツールの両方として活用することで、小規模で低多様性のデータセットから手続き的知識を取得するという課題を克服する。 さらに、VidAssistは最適計画生成のための幅優先探索アルゴリズムを用いて、ゴール指向計画のために設計された値関数の合成を用いて、各ステップで予測された動作を評価する。 大規模な実験により、VidAssistは、例えば、視覚的援助計画(VPA)や手続き計画(PP)など、さまざまな目標指向の計画設定のための統一されたフレームワークを提供し、ゼロショットと数ショットのセットアップで顕著なパフォーマンスを実現している。 特に、我々の少数ショットモデルは、4つの将来のアクションを予測しながら、VPAの+7.7%、COINデータセットの+4.81%のPPタスクを前回の完全に教師された最先端の手法よりも優れています。 コードとモデルはhttps://sites.google.com/view/vidassist.comで公開されている。

Goal-oriented planning, or anticipating a series of actions that transition an agent from its current state to a predefined objective, is crucial for developing intelligent assistants aiding users in daily procedural tasks. The problem presents significant challenges due to the need for comprehensive knowledge of temporal and hierarchical task structures, as well as strong capabilities in reasoning and planning. To achieve this, prior work typically relies on extensive training on the target dataset, which often results in significant dataset bias and a lack of generalization to unseen tasks. In this work, we introduce VidAssist, an integrated framework designed for zero/few-shot goal-oriented planning in instructional videos. VidAssist leverages large language models (LLMs) as both the knowledge base and the assessment tool for generating and evaluating action plans, thus overcoming the challenges of acquiring procedural knowledge from small-scale, low-diversity datasets. Moreover, VidAssist employs a breadth-first search algorithm for optimal plan generation, in which a composite of value functions designed for goal-oriented planning is utilized to assess the predicted actions at each step. Extensive experiments demonstrate that VidAssist offers a unified framework for different goal-oriented planning setups, e.g., visual planning for assistance (VPA) and procedural planning (PP), and achieves remarkable performance in zero-shot and few-shot setups. Specifically, our few-shot model outperforms the prior fully supervised state-of-the-art method by +7.7% in VPA and +4.81% PP task on the COIN dataset while predicting 4 future actions. Code, and models are publicly available at https://sites.google.com/view/vidassist.
翻訳日:2024-10-02 02:20:11 公開日:2024-09-30
# LaMMA-P: LM駆動PDDLプランナによる多元長軸タスク割当と計画

LaMMA-P: Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner ( http://arxiv.org/abs/2409.20560v1 )

ライセンス: Link先を確認
Xiaopan Zhang, Hao Qin, Fuquan Wang, Yue Dong, Jiachen Li, (参考訳) 言語モデル(LM)は、自然言語を理解する強力な能力を有しており、人間の指示を単純なロボットタスクの詳細な計画に変換するのに効果的である。 しかし、特に協調的な異種ロボットチームのためのサブタスクの識別とアロケーションにおいて、長い水平タスクを扱うことは依然として重要な課題である。 本稿では,言語モデル駆動型多エージェントPDDLプランナ(LaMMA-P)を提案する。 LaMMA-Pは、LMの推論能力と従来のヒューリスティック検索プランナーの強みを統合し、高い成功率と効率を達成しつつ、タスク間の強力な一般化を実証する。 さらに、AI2-THOR環境に基づいた2つの異なるレベルの複雑さを持つ家庭用タスクを特徴付ける包括的なベンチマークであるMAT-THORを作成します。 実験の結果,LaMMA-Pは既存のLMベースのマルチエージェントプランナーよりも105%高い成功率と36%高い効率を実現していることがわかった。 この作業の実験ビデオ、コード、データセット、および各モジュールで使用される詳細なプロンプトは、https://lamma-p.github.io.com/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/ s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/

Language models (LMs) possess a strong capability to comprehend natural language, making them effective in translating human instructions into detailed plans for simple robot tasks. Nevertheless, it remains a significant challenge to handle long-horizon tasks, especially in subtask identification and allocation for cooperative heterogeneous robot teams. To address this issue, we propose a Language Model-Driven Multi-Agent PDDL Planner (LaMMA-P), a novel multi-agent task planning framework that achieves state-of-the-art performance on long-horizon tasks. LaMMA-P integrates the strengths of the LMs' reasoning capability and the traditional heuristic search planner to achieve a high success rate and efficiency while demonstrating strong generalization across tasks. Additionally, we create MAT-THOR, a comprehensive benchmark that features household tasks with two different levels of complexity based on the AI2-THOR environment. The experimental results demonstrate that LaMMA-P achieves a 105% higher success rate and 36% higher efficiency than existing LM-based multi-agent planners. The experimental videos, code, and datasets of this work as well as the detailed prompts used in each module are available at https://lamma-p.github.io.
翻訳日:2024-10-02 02:20:11 公開日:2024-09-30
# 高次元および多モード分布のサンプリングに向けたアニーリングフロー生成モデル

Annealing Flow Generative Model Towards Sampling High-Dimensional and Multi-Modal Distributions ( http://arxiv.org/abs/2409.20547v1 )

ライセンス: Link先を確認
Dongze Wu, Yao Xie, (参考訳) 高次元のマルチモーダル分布からのサンプリングは、統計ベイズ推定や物理に基づく機械学習といった領域における根本的な課題である。 本稿では,高次元および多モード分布のサンプル化を目的とした,連続正規化フローベースアプローチであるAnnealing Flow (AF)を提案する。 キーとなる考え方は、アニールで導かれる流れに基づく連続正規化輸送マップを学習し、サンプルをサンプル分布からターゲット分布へ移行させ、高次元空間におけるモードの効率的な探索を容易にすることである。 多くの既存の方法とは異なり、AFトレーニングはターゲット分布からのサンプルに依存しない。 AFは有効かつバランスの取れたモード探索を保証し、サンプルサイズと寸法の線形複雑さを達成し、非効率な混合時間を回避している。 様々な挑戦的分布や実世界のデータセット、特に高次元・マルチモーダルな設定において、最先端の手法と比較して、AFの優れた性能を実証する。 また、最も好ましくない分布をサンプリングするAFの可能性も強調する。

Sampling from high-dimensional, multi-modal distributions remains a fundamental challenge across domains such as statistical Bayesian inference and physics-based machine learning. In this paper, we propose Annealing Flow (AF), a continuous normalizing flow-based approach designed to sample from high-dimensional and multi-modal distributions. The key idea is to learn a continuous normalizing flow-based transport map, guided by annealing, to transition samples from an easy-to-sample distribution to the target distribution, facilitating effective exploration of modes in high-dimensional spaces. Unlike many existing methods, AF training does not rely on samples from the target distribution. AF ensures effective and balanced mode exploration, achieves linear complexity in sample size and dimensions, and circumvents inefficient mixing times. We demonstrate the superior performance of AF compared to state-of-the-art methods through extensive experiments on various challenging distributions and real-world datasets, particularly in high-dimensional and multi-modal settings. We also highlight the potential of AF for sampling the least favorable distributions.
翻訳日:2024-10-02 01:35:17 公開日:2024-09-30
# 実践的コード生成におけるLLM幻覚--現象,メカニズム,緩和

LLM Hallucinations in Practical Code Generation: Phenomena, Mechanism, and Mitigation ( http://arxiv.org/abs/2409.20550v1 )

ライセンス: Link先を確認
Ziyao Zhang, Yanlin Wang, Chong Wang, Jiachi Chen, Zibin Zheng, (参考訳) コード生成は、入力要求からコードを自動的に生成することを目的としており、開発効率を大幅に向上させる。 最近の大規模言語モデル(LLM)ベースのアプローチは、有望な結果を示し、コード生成タスクに革命をもたらした。 有望な性能にもかかわらず、LLMは幻覚のあるコンテンツを生成することが多い。 前回の研究はLCMによるコード生成における幻覚を解析しているが、本研究はスタンドアロン機能生成に限られている。 本稿では,レポジトリレベルの生成シナリオにおいて,より実用的で複雑な開発状況下でのLLM幻覚の現象,メカニズム,緩和に関する実証的研究を行う。 まず,6つのLLMのコード生成結果を手作業で検証し,LLM生成コードの幻覚分類を確立させる。 次に,幻覚現象を詳述し,その分布を異なるモデルで解析する。 次に、幻覚の原因を分析し、幻覚に寄与する4つの潜在的要因を同定する。 最後に,全てのLLMにおいて一貫した有効性を示すRAGに基づく緩和法を提案する。 コード、データ、実験結果を含むレプリケーションパッケージはhttps://github.com/DeepSoftwareAnalytics/LLMCodingHallucinationで入手できる。

Code generation aims to automatically generate code from input requirements, significantly enhancing development efficiency. Recent large language models (LLMs) based approaches have shown promising results and revolutionized code generation task. Despite the promising performance, LLMs often generate contents with hallucinations, especially for the code generation scenario requiring the handling of complex contextual dependencies in practical development process. Although previous study has analyzed hallucinations in LLM-powered code generation, the study is limited to standalone function generation. In this paper, we conduct an empirical study to study the phenomena, mechanism, and mitigation of LLM hallucinations within more practical and complex development contexts in repository-level generation scenario. First, we manually examine the code generation results from six mainstream LLMs to establish a hallucination taxonomy of LLM-generated code. Next, we elaborate on the phenomenon of hallucinations, analyze their distribution across different models. We then analyze causes of hallucinations and identify four potential factors contributing to hallucinations. Finally, we propose an RAG-based mitigation method, which demonstrates consistent effectiveness in all studied LLMs. The replication package including code, data, and experimental results is available at https://github.com/DeepSoftwareAnalytics/LLMCodingHallucination
翻訳日:2024-10-02 01:35:17 公開日:2024-09-30
# Maia-2: チェスにおけるAIアライメントの統一モデル

Maia-2: A Unified Model for Human-AI Alignment in Chess ( http://arxiv.org/abs/2409.20553v1 )

ライセンス: Link先を確認
Zhenwei Tang, Difan Jiao, Reid McIlroy-Young, Jon Kleinberg, Siddhartha Sen, Ashton Anderson, (参考訳) 人工知能(AI)システムが人間の能力を超え、人間の行動を正確にモデル化するドメインが増えている。 これにより、より関連性の高いAIパートナと、人間の意思決定に関する深い洞察を通じて、これらの領域におけるアルゴリズムによるインフォームド教育の可能性が導入される。 しかし、この目標を達成するためには、さまざまなスキルレベルでの人間の行動のコヒーレントなモデリングが不可欠である。 Chessはこの種の人間-AIアライメントの研究を行うための理想的なモデルシステムであり、その豊富な歴史はAI研究の重要なテストベッド、AlphaZeroのような成熟した超人AIシステム、チェスのレーティングシステムによるスキルの正確な測定などである。 チェスにおける人間の意思決定をモデル化する以前の作業では、完全に独立したモデルを使用して、異なるスキルレベルで人間のスタイルをキャプチャしている。 本研究では,チェスにおける人間-AIアライメントの統一的モデリング手法を提案する。 人間の学習の複雑で非線形的な性質を認識し,プレイヤーの強みをエンコードしたチェス位置と動的に統合する,スキル認識型アテンション機構を導入し,プレイヤーのスキルの進化に敏感なモデルを実現する。 我々の実験結果によると、この統合されたフレームワークは、AIと人間のプレーヤーの連携を、さまざまな専門知識レベルにわたって大幅に強化し、人間の意思決定とAI指導の教育ツールに関する深い洞察を得るための道を開いた。

There are an increasing number of domains in which artificial intelligence (AI) systems both surpass human ability and accurately model human behavior. This introduces the possibility of algorithmically-informed teaching in these domains through more relatable AI partners and deeper insights into human decision-making. Critical to achieving this goal, however, is coherently modeling human behavior at various skill levels. Chess is an ideal model system for conducting research into this kind of human-AI alignment, with its rich history as a pivotal testbed for AI research, mature superhuman AI systems like AlphaZero, and precise measurements of skill via chess rating systems. Previous work in modeling human decision-making in chess uses completely independent models to capture human style at different skill levels, meaning they lack coherence in their ability to adapt to the full spectrum of human improvement and are ultimately limited in their effectiveness as AI partners and teaching tools. In this work, we propose a unified modeling approach for human-AI alignment in chess that coherently captures human style across different skill levels and directly captures how people improve. Recognizing the complex, non-linear nature of human learning, we introduce a skill-aware attention mechanism to dynamically integrate players' strengths with encoded chess positions, enabling our model to be sensitive to evolving player skill. Our experimental results demonstrate that this unified framework significantly enhances the alignment between AI and human players across a diverse range of expertise levels, paving the way for deeper insights into human decision-making and AI-guided teaching tools.
翻訳日:2024-10-02 01:35:17 公開日:2024-09-30
# 逆絵画:絵画の過程を再構築する

Inverse Painting: Reconstructing The Painting Process ( http://arxiv.org/abs/2409.20556v1 )

ライセンス: Link先を確認
Bowei Chen, Yifan Wang, Brian Curless, Ira Kemelmacher-Shlizerman, Steven M. Seitz, (参考訳) 入力絵が与えられた場合、どのように塗られたかのタイムラプス映像を再構成する。 我々はこれを自己回帰画像生成問題として定式化し、初期空白の「キャンバス」を反復的に更新する。 モデルは、多くのペイントビデオのトレーニングによって、実際のアーティストから学習する。 本手法では,テキストと領域理解を取り入れて絵画の「指示」を定義し,新しい拡散型レンダラーでキャンバスを更新する。 この方法は、訓練された限られたアクリル様式の絵画を外挿し、幅広い芸術様式やジャンルのもっともらしい結果を示す。

Given an input painting, we reconstruct a time-lapse video of how it may have been painted. We formulate this as an autoregressive image generation problem, in which an initially blank "canvas" is iteratively updated. The model learns from real artists by training on many painting videos. Our approach incorporates text and region understanding to define a set of painting "instructions" and updates the canvas with a novel diffusion-based renderer. The method extrapolates beyond the limited, acrylic style paintings on which it has been trained, showing plausible results for a wide range of artistic styles and genres.
翻訳日:2024-10-02 01:35:17 公開日:2024-09-30
# Uni$^2$Det: Prompt-Guided Multi-dataset 3D Detectionのための統一およびユニバーサルフレームワーク

Uni$^2$Det: Unified and Universal Framework for Prompt-Guided Multi-dataset 3D Detection ( http://arxiv.org/abs/2409.20558v1 )

ライセンス: Link先を確認
Yubin Wang, Zhikang Zou, Xiaoqing Ye, Xiao Tan, Errui Ding, Cairong Zhao, (参考訳) 提案するUni$^2$Detは,3次元検出における統一的かつ普遍的なマルチデータセットトレーニングのための,新たなフレームワークである。 データ分布の相違や、さまざまな領域にわたる分類の多様性のため、データセットをマージしてそのような検出を訓練することは、大きな課題となる。 この観測により,マルチデータセット3次元検出のためのマルチステージプロンプトモジュールを導入し,対応するデータセットの特性に基づいてプロンプトを活用し,既存の差異を緩和する。 このエレガントな設計は、さまざまな高度な3D検出フレームワークへのシームレスなプラグイン・アンド・プレイ統合を統一的な方法で実現し、データセット間の普遍的な適用性への直接的な適応を可能にする。 実験は、KITTI、Waymo、nuScenesを含む複数のデータセット統合シナリオで行われた。 特に、ゼロショットクロスデータセット転送の結果は、提案手法の一般化能力を検証する。

We present Uni$^2$Det, a brand new framework for unified and universal multi-dataset training on 3D detection, enabling robust performance across diverse domains and generalization to unseen domains. Due to substantial disparities in data distribution and variations in taxonomy across diverse domains, training such a detector by simply merging datasets poses a significant challenge. Motivated by this observation, we introduce multi-stage prompting modules for multi-dataset 3D detection, which leverages prompts based on the characteristics of corresponding datasets to mitigate existing differences. This elegant design facilitates seamless plug-and-play integration within various advanced 3D detection frameworks in a unified manner, while also allowing straightforward adaptation for universal applicability across datasets. Experiments are conducted across multiple dataset consolidation scenarios involving KITTI, Waymo, and nuScenes, demonstrating that our Uni$^2$Det outperforms existing methods by a large margin in multi-dataset training. Notably, results on zero-shot cross-dataset transfer validate the generalization capability of our proposed method.
翻訳日:2024-10-02 01:35:17 公開日:2024-09-30
# マルチモーダル・フィッション・ラーニング

Supervised Multi-Modal Fission Learning ( http://arxiv.org/abs/2409.20559v1 )

ライセンス: Link先を確認
Lingchao Mao, Qi wang, Yi Su, Fleming Lure, Jing Li, (参考訳) マルチモーダルデータセットからの学習は相補的な情報を活用することができ、予測タスクのパフォーマンスを向上させることができる。 高次元データセットの特徴相関を考慮に入れた一般的な戦略は、潜在変数アプローチである。 マルチモーダルデータセットに対していくつかの潜在変数法が提案されている。 しかしながら、これらの手法は、すべてのモダリティで共有コンポーネントを抽出することや、共有コンポーネントと各モダリティに特有の個々のコンポーネントの両方を抽出することに焦点を当てている。 このギャップに対処するために,マルチモーダルデータセットの特徴を基盤とした,グローバルな関節,部分的な関節,個々のコンポーネントを同時に識別するマルチモーダル・フィッション・ラーニング(MMFL)モデルを提案する。 既存の潜伏変数法とは異なり、MMFLは応答変数の監督を利用して予測潜伏成分を識別し、不完全なマルチモーダルデータを組み込む自然な拡張を持つ。 シミュレーション研究を通じて、MMFLは、完全かつ不完全なモード設定の両方において、様々な既存マルチモーダルアルゴリズムより優れていることを示す。 我々は、マルチモーダルなニューロイメージングと、アルツハイマー病神経画像イニシアチブ(ADNI)データセットからのゲノムデータを用いた、アルツハイマー病の早期予測のための実世界のケーススタディにMMFLを適用した。 MMFLは、既存の方法と比較して、より正確な予測と、モダリティ内およびモダリティ間相関に関するより良い洞察を提供した。

Learning from multimodal datasets can leverage complementary information and improve performance in prediction tasks. A commonly used strategy to account for feature correlations in high-dimensional datasets is the latent variable approach. Several latent variable methods have been proposed for multimodal datasets. However, these methods either focus on extracting the shared component across all modalities or on extracting both a shared component and individual components specific to each modality. To address this gap, we propose a Multi-Modal Fission Learning (MMFL) model that simultaneously identifies globally joint, partially joint, and individual components underlying the features of multimodal datasets. Unlike existing latent variable methods, MMFL uses supervision from the response variable to identify predictive latent components and has a natural extension for incorporating incomplete multimodal data. Through simulation studies, we demonstrate that MMFL outperforms various existing multimodal algorithms in both complete and incomplete modality settings. We applied MMFL to a real-world case study for early prediction of Alzheimers Disease using multimodal neuroimaging and genomics data from the Alzheimers Disease Neuroimaging Initiative (ADNI) dataset. MMFL provided more accurate predictions and better insights into within- and across-modality correlations compared to existing methods.
翻訳日:2024-10-02 01:35:17 公開日:2024-09-30
# メトロロジカルエンタングルメントアドバンテージを持つ共変量子誤り訂正符号

Covariant Quantum Error-Correcting Codes with Metrological Entanglement Advantage ( http://arxiv.org/abs/2409.20561v1 )

ライセンス: Link先を確認
Cheng-Ju Lin, Zi-Wen Liu, Victor V. Albert, Alexey V. Gorshkov, (参考訳) 合計$SU(2)$回転の既約表現に対する基底の部分集合が、逆$U(1)$論理ゲートを持つ共変近似量子誤差補正符号を形成することを示す。 角運動量環の性質のみを用いて、既知の$d$サイト上の一般的なノイズに対する符号の不正確さと、hd$-局所消去に対する境界を取得し、一般的な局所スピンと異なる既約表現への「熱力学符号」に関する以前の研究を一般化し改善する。 センサパラメータが$U(1)$論理ゲートのジェネレータに結合すると、量子フィッシャー情報が標準量子限界を超えたプローブ状態をホストし、保護できることを実証する。

We show that a subset of the basis for the irreducible representations of the total $SU(2)$ rotation forms a covariant approximate quantum error-correcting code with transversal $U(1)$ logical gates. Using only properties of the angular momentum algebra, we obtain bounds on the code inaccuracy against generic noise on any known $d$ sites and against heralded $d$-local erasures, generalizing and improving previous works on the ``thermodynamic code" to general local spin and different irreducible representations. We demonstrate that this family of codes can host and protect a probe state with quantum Fisher information surpassing the standard quantum limit when the sensing parameter couples to the generator of the $U(1)$ logical gate.
翻訳日:2024-10-02 01:35:17 公開日:2024-09-30
# SpaceMesh: マニフォールドな表面メッシュを学習するための継続的表現

SpaceMesh: A Continuous Representation for Learning Manifold Surface Meshes ( http://arxiv.org/abs/2409.20562v1 )

ライセンス: Link先を確認
Tianchang Shen, Zhaoshuo Li, Marc Law, Matan Atzmon, Sanja Fidler, James Lucas, Jun Gao, Nicholas Sharp, (参考訳) メッシュはビジュアルコンピューティングやシミュレーションではユビキタスだが、既存の機械学習技術はメッシュを間接的にのみ表現している。 この研究は、ニューラルネットワークの出力として複雑な接続の多様体多角形メッシュを直接生成するスキームを提案する。 私たちの重要なイノベーションは、各メッシュ頂点で連続的な遅延接続空間を定義することです。 特に, 頂点埋め込みは, 半エッジメッシュ表現における巡回近傍関係を生じさせ, エッジ多様体性の保証と一般多角形メッシュの表現能力を与える。 この表現は、接続性やトポロジに制限されることなく、機械学習や確率最適化に適している。 まず、この表現の基本的な特性を調べ、それから大きなデータセットからのメッシュの分布に適合させる。 得られたモデルは、データセットの個体群から学習したテッセルレーション構造を持つ多様なメッシュを生成し、簡潔な詳細と高品質なメッシュ要素を持つ。 アプリケーションでは、このアプローチは生成モデルから高品質な出力を得るだけでなく、メッシュ修復のような挑戦的な幾何処理タスクを直接学習することを可能にする。

Meshes are ubiquitous in visual computing and simulation, yet most existing machine learning techniques represent meshes only indirectly, e.g. as the level set of a scalar field or deformation of a template, or as a disordered triangle soup lacking local structure. This work presents a scheme to directly generate manifold, polygonal meshes of complex connectivity as the output of a neural network. Our key innovation is to define a continuous latent connectivity space at each mesh vertex, which implies the discrete mesh. In particular, our vertex embeddings generate cyclic neighbor relationships in a halfedge mesh representation, which gives a guarantee of edge-manifoldness and the ability to represent general polygonal meshes. This representation is well-suited to machine learning and stochastic optimization, without restriction on connectivity or topology. We first explore the basic properties of this representation, then use it to fit distributions of meshes from large datasets. The resulting models generate diverse meshes with tessellation structure learned from the dataset population, with concise details and high-quality mesh elements. In applications, this approach not only yields high-quality outputs from generative models, but also enables directly learning challenging geometry processing tasks such as mesh repair.
翻訳日:2024-10-02 01:35:17 公開日:2024-09-30
# DressRecon:モノクロビデオによるフリーフォーム4D人間の再構築

DressRecon: Freeform 4D Human Reconstruction from Monocular Video ( http://arxiv.org/abs/2409.20563v1 )

ライセンス: Link先を確認
Jeff Tan, Donglai Xiang, Shubham Tulsiani, Deva Ramanan, Gengshan Yang, (参考訳) 本稿では,モノクラービデオから,極端にゆるい衣服やハンドヘルドオブジェクトのインタラクションに着目した,時間一貫性のある人体モデルを再構築する手法を提案する。 人体再構成の以前の作業は、オブジェクト間の相互作用のないタイトな衣服に限られていたり、校正されたマルチビューキャプチャや、大規模に収集するのにコストがかかるテンプレートスキャンが必要だったりしている。 高品質でフレキシブルな再構築の鍵となる洞察は、人体形状(大規模なトレーニングデータから得られた)とビデオ特有の「骨の袋(bag-of-bones)」変形(テスト時間最適化による単一のビデオに適合する)に関する一般的な人間の事前の注意深い組み合わせである。 我々は、身体と衣服の変形を別々の動きモデル層として切り離すニューラル暗黙モデルを学ぶことで、これを達成した。 衣服の微妙な形状を捉えるために, 人体ポーズ, 表面の正常, 最適化時の光学的流れなどの画像に基づく先行情報を活用する。 結果のニューラルネットワークは、時間一貫性のあるメッシュに抽出することも、高忠実なインタラクティブレンダリングのために、明示的な3Dガウスアンとして最適化することもできる。 DressReconは、高度に挑戦的な衣服の変形とオブジェクトのインタラクションを持つデータセットに対して、以前の技術よりも忠実度の高い3D再構成を出力する。 プロジェクトページ: https://jefftan969.github.io/dressrecon/

We present a method to reconstruct time-consistent human body models from monocular videos, focusing on extremely loose clothing or handheld object interactions. Prior work in human reconstruction is either limited to tight clothing with no object interactions, or requires calibrated multi-view captures or personalized template scans which are costly to collect at scale. Our key insight for high-quality yet flexible reconstruction is the careful combination of generic human priors about articulated body shape (learned from large-scale training data) with video-specific articulated "bag-of-bones" deformation (fit to a single video via test-time optimization). We accomplish this by learning a neural implicit model that disentangles body versus clothing deformations as separate motion model layers. To capture subtle geometry of clothing, we leverage image-based priors such as human body pose, surface normals, and optical flow during optimization. The resulting neural fields can be extracted into time-consistent meshes, or further optimized as explicit 3D Gaussians for high-fidelity interactive rendering. On datasets with highly challenging clothing deformations and object interactions, DressRecon yields higher-fidelity 3D reconstructions than prior art. Project page: https://jefftan969.github.io/dressrecon/
翻訳日:2024-10-02 01:35:17 公開日:2024-09-30
# Scoring Over Scoring: LLM生成医療解説論文の信頼性とロバストな自動評価に向けて

Ranking Over Scoring: Towards Reliable and Robust Automated Evaluation of LLM-Generated Medical Explanatory Arguments ( http://arxiv.org/abs/2409.20565v1 )

ライセンス: Link先を確認
Iker De la Iglesia, Iakes Goenaga, Johanna Ramirez-Romero, Jose Maria Villa-Gonzalez, Josu Goikoetxea, Ander Barrena, (参考訳) LLM生成テキストの評価は、特に医学分野のような領域固有の文脈において重要な課題となっている。 本研究は, LLMの生成する医療説明論の新たな評価手法を導入し, 評価基準の厳密な整合性にプロキシタスクとランキングを頼り, 審査員が用いたLCMの偏見を克服する。 提案手法は,非議論的テキストの評価を含む,敵対的攻撃に対して頑健であることを示す。 さらに、評価者のトレーニングに必要な人為的な引数は、プロキシタスク毎に1つの例に最小化されます。 複数の LLM 生成論証を調べることにより, プロキシタスクが LLM 生成論証に適しているかどうかを判断するための方法論を確立し, 5 つの例と 2 人の専門家しか必要としない。

Evaluating LLM-generated text has become a key challenge, especially in domain-specific contexts like the medical field. This work introduces a novel evaluation methodology for LLM-generated medical explanatory arguments, relying on Proxy Tasks and rankings to closely align results with human evaluation criteria, overcoming the biases typically seen in LLMs used as judges. We demonstrate that the proposed evaluators are robust against adversarial attacks, including the assessment of non-argumentative text. Additionally, the human-crafted arguments needed to train the evaluators are minimized to just one example per Proxy Task. By examining multiple LLM-generated arguments, we establish a methodology for determining whether a Proxy Task is suitable for evaluating LLM-generated medical explanatory arguments, requiring only five examples and two human experts.
翻訳日:2024-10-02 01:35:17 公開日:2024-09-30
# MM1.5:マルチモーダルLLMファインチューニングの方法, 分析, インサイト

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning ( http://arxiv.org/abs/2409.20566v1 )

ライセンス: Link先を確認
Haotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier, Zhengfeng Lai, Haoxuan You, Zirui Wang, Afshin Dehghan, Peter Grasch, Yinfei Yang, (参考訳) MM1.5は,テキストに富んだ画像理解,視覚的参照とグラウンド,マルチイメージ推論の能力向上を目的とした,マルチモーダルな大規模言語モデル(MLLM)の新たなファミリーである。 MM1アーキテクチャを基盤として、MM1.5はモデルトレーニングにデータ中心のアプローチを採用し、モデルトレーニングライフサイクル全体にわたってさまざまなデータ混在の影響を体系的に調査する。 これには、高品質なOCRデータと連続的な事前トレーニングのための合成キャプション、教師付き微調整のための最適化されたビジュアル命令-チューニングデータミックスが含まれる。 我々のモデルは1Bから30Bのパラメータで、密集型と混合型(MoE)の両方を包含し、注意深いデータキュレーションとトレーニング戦略が、小規模(1Bと3B)でも高いパフォーマンスが得られることを示した。 さらに、ビデオ理解用に設計されたMM1.5-Videoと、モバイルUI理解用に最適化されたMM1.5-UIの2つの特殊なバリエーションを紹介した。 広範囲にわたる実証的研究と改善を通じて、最終設計を通知するトレーニングプロセスと決定に関する詳細な知見を提供し、MLLM開発における今後の研究のための貴重なガイダンスを提供する。

We present MM1.5, a new family of multimodal large language models (MLLMs) designed to enhance capabilities in text-rich image understanding, visual referring and grounding, and multi-image reasoning. Building upon the MM1 architecture, MM1.5 adopts a data-centric approach to model training, systematically exploring the impact of diverse data mixtures across the entire model training lifecycle. This includes high-quality OCR data and synthetic captions for continual pre-training, as well as an optimized visual instruction-tuning data mixture for supervised fine-tuning. Our models range from 1B to 30B parameters, encompassing both dense and mixture-of-experts (MoE) variants, and demonstrate that careful data curation and training strategies can yield strong performance even at small scales (1B and 3B). Additionally, we introduce two specialized variants: MM1.5-Video, designed for video understanding, and MM1.5-UI, tailored for mobile UI understanding. Through extensive empirical studies and ablations, we provide detailed insights into the training processes and decisions that inform our final designs, offering valuable guidance for future research in MLLM development.
翻訳日:2024-10-02 01:35:17 公開日:2024-09-30
# 自律的実世界RLによるモバイル操作の継続的改善

Continuously Improving Mobile Manipulation with Autonomous Real-World RL ( http://arxiv.org/abs/2409.20568v1 )

ライセンス: Link先を確認
Russell Mendonca, Emmanuel Panov, Bernadette Bucher, Jiuguang Wang, Deepak Pathak, (参考訳) モバイル操作のための完全に自律的な実世界のRLフレームワークを提案する。 これは有効です 1) 課題関連自律性(タスク関連自律性)は、対象の相互作用を探索し、目標状態付近の停滞を防ぐ。 2【行動事前の基本的課題知識を活用した効果的な政策学習】 3)人間の解釈可能な意味情報と低レベルの微粒な観察を組み合わせた一般的な報酬の定式化。 提案手法により,モバイル操作タスクの4つの課題に対して,Spotロボットが継続的なパフォーマンス向上を実現し,タスク間の平均成功率を80%,既存のアプローチよりも3~4倍向上できることを示す。 ビデオはhttps://continual-mobile-manip.github.io/で見ることができる。

We present a fully autonomous real-world RL framework for mobile manipulation that can learn policies without extensive instrumentation or human supervision. This is enabled by 1) task-relevant autonomy, which guides exploration towards object interactions and prevents stagnation near goal states, 2) efficient policy learning by leveraging basic task knowledge in behavior priors, and 3) formulating generic rewards that combine human-interpretable semantic information with low-level, fine-grained observations. We demonstrate that our approach allows Spot robots to continually improve their performance on a set of four challenging mobile manipulation tasks, obtaining an average success rate of 80% across tasks, a 3-4 improvement over existing approaches. Videos can be found at https://continual-mobile-manip.github.io/
翻訳日:2024-10-02 01:35:17 公開日:2024-09-30
# 非素数でのMNT楕円曲線

MNT Elliptic Curves with Non-Prime Order ( http://arxiv.org/abs/2409.20254v1 )

ライセンス: Link先を確認
Maciej Grześkowiak, (参考訳) 宮路、中林、高野は、次数$k=3,4,6$のペアリングに優しい楕円曲線を構成するアルゴリズムを提案した。 一般化されたMNT曲線を生成する方法を提案する。 そのようなペアリーな曲線の順序は、2つの素数の積である。

Miyaji, Nakabayashi, and Takano proposed the algorithm for the construction of prime order pairing-friendly elliptic curves with embedding degrees $k=3,4,6$. We present a method for generating generalized MNT curves. The order of such pairing-friendly curves is the product of two prime numbers.
翻訳日:2024-10-01 22:52:59 公開日:2024-09-30
# q-変形した \texorpdfstring{SU(3)${}_1$}{SU(3)1} ヤン・ミルズ理論の2脚はしご上のフロケ進化

Floquet evolution of the q-deformed \texorpdfstring{SU(3)${}_1$}{SU(3)1} Yang-Mills theory on a two-leg ladder ( http://arxiv.org/abs/2409.20263v1 )

ライセンス: Link先を確認
Tomoya Hayata, Yoshimasa Hidaka, (参考訳) 我々は,IBM の超伝導 156-qubit デバイス ibm\_fez を用いて,開境界条件下での2脚のラグジオメトリ上でのフラケット時間進化をシミュレーションした。 この目的のために、格子ヤン・ミルズ理論の量子スピン表現を導出し、CZゲートの使用を減らし、ハードウェアに合わせた量子回路を慎重に構成する。 現在の雑音量子プロセッサにおけるハミルトンの進化をシミュレートすることは依然として困難であるため、スズキ・トロッター分解のステップサイズを極めて大きくし、スズキ・トロッター進化からなるフロケット回路における熱化ダイナミクスをシミュレートする。 我々は,IBM の Heron 量子プロセッサが 62 キュービットの大規模システムにおいて,エラー緩和,フロクート熱化のダイナミクスをシミュレートできることを実証した。 我々の研究は、実際のデバイスを用いた格子ゲージ理論のさらなる量子シミュレーションのためのベンチマークとなるだろう。

We simulate Floquet time-evolution of a truncated SU(3) lattice Yang-Mills theory on a two-leg ladder geometry under open boundary conditions using IBM's superconducting 156-qubit device ibm\_fez. To this end, we derive the quantum spin representation of the lattice Yang-Mills theory, and compose a quantum circuit carefully tailored to hard wares, reducing the use of CZ gates. Since it is still challenging to simulate Hamiltonian evolution in present noisy quantum processors, we make the step size in the Suzuki-Trotter decomposition very large, and simulate thermalization dynamics in Floquet circuit composed of the Suzuki-Trotter evolution. We demonstrate that IBM's Heron quantum processor can simulate, by error mitigation, Floqeut thermalization dynamics in a large system consisting of $62$ qubits. Our work would be a benchmark for further quantum simulations of lattice gauge theories using real devices.
翻訳日:2024-10-01 22:52:59 公開日:2024-09-30
# 1次システム最小二乗ニューラルネットワーク

First Order System Least Squares Neural Networks ( http://arxiv.org/abs/2409.20264v1 )

ライセンス: Link先を確認
Joost A. A. Opschoor, Philipp C. Petersen, Christoph Schwab, (参考訳) 本稿では,線形楕円型,放物型,双曲型,双曲型PDEをユークリッド空間の有界,多極性領域上でディープニューラルネットワークにより数値的に解くための概念的枠組みを提案する。 PDEは、ディープ・ニューラルネットワークのパラメトリック・ファミリーに対して、等価でよく提示された1次系の最小二乗(LSQ)残基の最小化として再キャストされる。 関連したLSQ残基は、 a) PDEの弱い残留物に等しいか、または比例する b)PDE残基に関するニューラルネットワークの局所的「平衡外」を示す局所的サブネットワークからの貢献の点における添加物 c)ニューラルネットワークトレーニングの数値損失関数として機能し、 d) 適応LSQ有限要素法の文脈における計算可能(準)最適数値誤差推定器を構成する。 さらに、LSQ損失関数の正確な数値最小化を仮定した適応型ニューラルネットワーク成長戦略を提案し、第一次システムLSQの正確な解に最適に収束する実効性を持つニューラルネットワークのシーケンスを生成する。

We introduce a conceptual framework for numerically solving linear elliptic, parabolic, and hyperbolic PDEs on bounded, polytopal domains in euclidean spaces by deep neural networks. The PDEs are recast as minimization of a least-squares (LSQ for short) residual of an equivalent, well-posed first-order system, over parametric families of deep neural networks. The associated LSQ residual is a) equal or proportional to a weak residual of the PDE, b) additive in terms of contributions from localized subnetworks, indicating locally ``out-of-equilibrium'' of neural networks with respect to the PDE residual, c) serves as numerical loss function for neural network training, and d) constitutes, even with incomplete training, a computable, (quasi-)optimal numerical error estimator in the context of adaptive LSQ finite element methods. In addition, an adaptive neural network growth strategy is proposed which, assuming exact numerical minimization of the LSQ loss functional, yields sequences of neural networks with realizations that converge rate-optimally to the exact solution of the first order system LSQ formulation.
翻訳日:2024-10-01 22:52:59 公開日:2024-09-30
# Old Optimizer, New Norm: Anthology

Old Optimizer, New Norm: An Anthology ( http://arxiv.org/abs/2409.20325v1 )

ライセンス: Link先を確認
Jeremy Bernstein, Laker Newhouse, (参考訳) ディープラーニングオプティマイザは、しばしば凸と近似二階理論の混合によって動機付けられる。 我々はAdam, Shampoo, Prodigyの3つの方法を選択し、それぞれの手法は凸性の仮定なしに正方形の一階法として理解できると主張している。 実際、指数移動平均をオフにすると、それぞれの方法は特定のノルムの下で最も急降下する。 この観察を一般化することにより、トレーニングアルゴリズムのための新しいデザインスペースをグラフ化する。 異なる作用素ノルムは、テンソルがネットワーク内で果たす役割に基づいて異なるテンソルに割り当てられるべきである。 例えば、線型層と埋め込み層は$\mathbb{R}^{m\times n}$と同じ重み空間を持つが、これらの層は異なる役割を演じ、異なるノルムを割り当てるべきである。 ニューラルネットワークを慎重に成熟させるというこのアイデアが、より安定し、スケーラブルで、実際に高速なトレーニングにつながることを期待しています。

Deep learning optimizers are often motivated through a mix of convex and approximate second-order theory. We select three such methods -- Adam, Shampoo and Prodigy -- and argue that each method can instead be understood as a squarely first-order method without convexity assumptions. In fact, after switching off exponential moving averages, each method is equivalent to steepest descent under a particular norm. By generalizing this observation, we chart a new design space for training algorithms. Different operator norms should be assigned to different tensors based on the role that the tensor plays within the network. For example, while linear and embedding layers may have the same weight space of $\mathbb{R}^{m\times n}$, these layers play different roles and should be assigned different norms. We hope that this idea of carefully metrizing the neural architecture might lead to more stable, scalable and indeed faster training.
翻訳日:2024-10-01 22:52:59 公開日:2024-09-30
# エッジデバイス上でのPoT量子化の高速化

Accelerating PoT Quantization on Edge Devices ( http://arxiv.org/abs/2409.20403v1 )

ライセンス: Link先を確認
Rappy Saha, Jude Haris, José Cano, (参考訳) パワー・オブ・ツー(PoT)量子化のような非一様量子化は、一様量子化よりも優れたデータ分布と一致し、ディープニューラルネットワーク(DNN)の量子化誤差を低減する。 PoT量子化はまた、ビットシフト演算を乗法に置き換えることを可能にするが、PoT量子化のためのシフトベースの加速器の効率に関する限られた研究がある。 さらに、エッジデバイス上でPoT量子化されたDNNを高速化するための既存のパイプラインは、オープンソースではない。 本稿では,まず,異なるPoT量子化法のためのシフトベース処理要素(shift-PE)を設計し,その効率をベンチマークを用いて評価する。 次に、最も効率的なシフトPEを用いてシフトベースのアクセラレータを設計し、リソース制約エッジデバイス上でのPoT量子化DNNのエンドツーエンド高速化のためのオープンソースのパイプラインであるPoTAccを提案する。 また,PoTAccを用いて,3つのDNN間でのシフトベースアクセラレータの性能評価を行った。 平均すると、乗算器ベースのアクセラレータと比べて1.23倍のスピードアップと1.24倍のエネルギー削減、CPUのみの実行に比べて2.46倍のスピードアップと1.83倍のエネルギー削減を実現している。 私たちのコードはhttps://github.com/gicLAB/PoTAccで利用可能です。

Non-uniform quantization, such as power-of-two (PoT) quantization, matches data distributions better than uniform quantization, which reduces the quantization error of Deep Neural Networks (DNNs). PoT quantization also allows bit-shift operations to replace multiplications, but there are limited studies on the efficiency of shift-based accelerators for PoT quantization. Furthermore, existing pipelines for accelerating PoT-quantized DNNs on edge devices are not open-source. In this paper, we first design shift-based processing elements (shift-PE) for different PoT quantization methods and evaluate their efficiency using synthetic benchmarks. Then we design a shift-based accelerator using our most efficient shift-PE and propose PoTAcc, an open-source pipeline for end-to-end acceleration of PoT-quantized DNNs on resource-constrained edge devices. Using PoTAcc, we evaluate the performance of our shift-based accelerator across three DNNs. On average, it achieves a 1.23x speedup and 1.24x energy reduction compared to a multiplier-based accelerator, and a 2.46x speedup and 1.83x energy reduction compared to CPU-only execution. Our code is available at https://github.com/gicLAB/PoTAcc
翻訳日:2024-10-01 22:52:59 公開日:2024-09-30
# LHCにおける新しい機械学習応用

Novel machine learning applications at the LHC ( http://arxiv.org/abs/2409.20413v1 )

ライセンス: Link先を確認
Javier M. Duarte, (参考訳) 機械学習(ML)は、粒子物理学の分野で急速に成長している研究分野であり、CERN LHCで多くの応用が行なわれている。 MLは、粒子物理学者が既存のアプローチを改善し、根本的に新しいアプローチを実現するために使われる多用途ツールとして探索と測定を行う方法を変えました。 本稿では,LHC実験における新しいML手法と,分類,高速シミュレーション,展開,異常検出のための最近の結果について述べる。

Machine learning (ML) is a rapidly growing area of research in the field of particle physics, with a vast array of applications at the CERN LHC. ML has changed the way particle physicists conduct searches and measurements as a versatile tool used to improve existing approaches and enable fundamentally new ones. In these proceedings, we describe novel ML techniques and recent results for improved classification, fast simulation, unfolding, and anomaly detection in LHC experiments.
翻訳日:2024-10-01 22:52:59 公開日:2024-09-30
# 量子増幅、relic gravitonsとランダウアー予想

Quantum amplification, relic gravitons and Landauer's conjecture ( http://arxiv.org/abs/2409.20417v1 )

ライセンス: Link先を確認
Massimo Giovannini, (参考訳) ランダウアーの原理の顕微鏡的定式化によれば、情報が削除されると、システムのフォン・ノイマンエントロピーは対応するエネルギーコストで減少する。 同じ観点で、エントロピーの成長は非拘束のままでなければならないが、量子増幅の間、熱流がフォン・ノイマンエントロピーの増加を制限することを示す。 ヘリックスグラビトン(aHz領域とTHz領域の間の周波数)の場合、ここで得られた境界は初期熱グラビトンとインフレーションの総持続時間に制限を設けた。

According to the microscopic formulation of Landauer's principle, when information is deleted the Von Neumann entropy of the system gets reduced with a corresponding energy cost. Although within the same perspective the growth of the entropy should remain unconstrained we show that during quantum amplification the heat flow does restrict the increase of the Von Neumann entropy. When applied to the case of relic gravitons (with frequencies between the aHz region and the THz domain) the bounds obtained here set a limit on initial thermal gravitons and on the total duration of inflation.
翻訳日:2024-10-01 22:52:59 公開日:2024-09-30
# 半線形放物型偏微分方程式をL^p$-senseで近似する場合、マルチレベルPicard近似とReLU、リークReLU、ソフトプラスアクティベーションによる深部ニューラルネットワークは次元の呪いを克服する

Multilevel Picard approximations and deep neural networks with ReLU, leaky ReLU, and softplus activation overcome the curse of dimensionality when approximating semilinear parabolic partial differential equations in $L^p$-sense ( http://arxiv.org/abs/2409.20431v1 )

ライセンス: Link先を確認
Ariel Neufeld, Tuan Anh Nguyen, (参考訳) ReLUによる多レベルピカード近似と深層ニューラルネットワークは、半線形コルモゴロフ PDEの解を$L^\mathfrak{p}$-sense, $\mathfrak{p}\in [2,\infty)$で近似できることを示す。

We prove that multilevel Picard approximations and deep neural networks with ReLU, leaky ReLU, and softplus activation are capable of approximating solutions of semilinear Kolmogorov PDEs in $L^\mathfrak{p}$-sense, $\mathfrak{p}\in [2,\infty)$, in the case of gradient-independent, Lipschitz-continuous nonlinearities, while the computational effort of the multilevel Picard approximations and the required number of parameters in the neural networks grow at most polynomially in both dimension $d\in \mathbb{N}$ and reciprocal of the prescribed accuracy $\epsilon$.
翻訳日:2024-10-01 22:52:59 公開日:2024-09-30
# 太陽コロナからのコヒーレント電波・マイクロ波光子の測定

Measuring Coherent Radio and Microwave Photons from the Solar Corona ( http://arxiv.org/abs/2409.20459v1 )

ライセンス: Link先を確認
Liang Chen, Zizang Qiu, Thomas W. Kephart, Arjun Berera, (参考訳) 太陽大気中での励起放出から, 電波/マイクロ波N-ID光子状態 |N> の生成速度を推定した。 様々なデコヒーリング要因の影響は小さいことが示されている。 逆HOM効果によるこれらの量子状態の地上観測を提案する。 いくつかのケースでは、信号は検出可能であり、ノイズよりもはるかに上である、と我々は主張する。

The rates of production of radio/microwave N-identical photons states |N> from stimulated emission in the solar atmosphere are estimated. Effects of various decohering factors are shown to be small. Ground based measurements of these quantum states via the inverse HOM effect are proposed. We argue that a signal is detectable and far above the noise in several cases.
翻訳日:2024-10-01 22:52:59 公開日:2024-09-30
# 自己分布構造, ブレスとヤン・バクスター方程式

Self-distributive structures, braces & the Yang-Baxter equation ( http://arxiv.org/abs/2409.20479v1 )

ライセンス: Link先を確認
Anastasia Doikou, (参考訳) 集合論的なヤン・バクスター方程式の理論は純粋に代数的な観点から見直される。 我々は、棚、ラック、四角形と呼ばれるある種の代数構造を思い出す。 これらの対象は自己分布条件を満たし、ヤン・バクスター方程式の解につながる。 また、ブレイド方程式の非インボリューティブ解は、適切なパラメトリックなツイストによりシェルフとラックの解から得られ、一方、すべてのインボリューティブな集合論解はパラメトリックなツイストによってフリップマップに還元される。 ブレスの概念は、帰納的集合論解に付随する適切な代数的構造として提示される。 Baxterized involutive set-theoretic Solution の量子代数と積分性についても論じる。 ドリンフェルのねじれの明示的な形式は、一般的な集合論解の導出を可能にする。

The theory of the set-theoretic Yang-Baxter equation is reviewed from a purely algebraic point of view. We recall certain algebraic structures called shelves, racks and quandles. These objects satisfy a self-distributivity condition and lead to solutions of the Yang-Baxter equation. We also recall that non-involutive solutions of the braid equation are obtained from shelf and rack solutions by a suitable parametric twist, whereas all involutive set-theoretic solutions are reduced to the flip map via a parametric twist. The notion of braces is also presented as the suitable algebraic structure associated to involutive set-theoretic solutions. The quantum algebra as well as the integrability of Baxterized involutive set-theoretic solutions is also discussed. The explicit form of the Drinfel'd twist is presented allowing the derivation of general set-theoretic solutions.
翻訳日:2024-10-01 22:52:59 公開日:2024-09-30
# データ漏洩型ハードウェアトロイの木馬を守るためのイノベーションの推進:理論から実践へ

Propelling Innovation to Defeat Data-Leakage Hardware Trojans: From Theory to Practice ( http://arxiv.org/abs/2409.20486v1 )

ライセンス: Link先を確認
Kevin Kwiat, Jason Kulick, Paul Ratazzi, (参考訳) 多くのデザイン会社は、半導体製造コストの増大により、外部製造設備に依存してチップの製造を行っている。 しかし、これらすべての施設は信頼に値するとは考えられず、トロイの木馬にハードウェアを注入し、システムのセキュリティを危険にさらすこともある。 ハードウェアTrojansの一般的な目的の1つは、データ漏洩のサイドチャネルを確立することである。 様々な防御策に関する広範な文献が存在するが、そのほとんどはサイドチャネルの設置を阻止することに集中しており、攻撃者が物理的チップにアクセスでき、複数の製造工程間でリバースエンジニアリングを行うことができれば妥協できる。 本稿では,RecoRD: Randomized Encoding of Combinational Logic for resistance to Data Leakageについて述べる。 RECORDは、Quilt Packagingの助けを借りて、攻撃者がデータを解釈するのを防ぐ、組合せ論理のための一時的にランダム化された符号化方式である。

Many design companies have gone fabless and rely on external fabrication facilities to produce chips due to increasing cost of semiconductor manufacturing. However, not all of these facilities can be considered trustworthy; some may inject hardware Trojans and jeopardize the security of the system. One common objective of hardware Trojans is to establish a side channel for data leakage. While extensive literature exists on various defensive measures, almost all of them focus on preventing the establishment of side channels, and can be compromised if attackers gain access to the physical chip and can perform reverse engineering between multiple fabrication runs. In this paper, we advance (from theory to practice) RECORD: Randomized Encoding of COmbinational Logic for Resistance to Data Leakage. RECORD is a novel scheme of temporarily randomized encoding for combinational logic that, with the aid of Quilt Packaging, prevents attackers from interpreting the data.
翻訳日:2024-10-01 22:52:59 公開日:2024-09-30
# レーザーによるフルフィールド計測によるGoverning方程式のデータ駆動的発見のためのWSINDyのアンサンブル

Ensemble WSINDy for Data Driven Discovery of Governing Equations from Laser-based Full-field Measurements ( http://arxiv.org/abs/2409.20510v1 )

ライセンス: Link先を確認
Abigail C. Schmid, Alireza Doostan, Fatemeh Pourahmadian, (参考訳) この研究は、レーザー振動計と偏微分方程式に対する非線形力学(WSINDy)のスパース同定の弱い形式を利用して、フルフィールド実験データからマクロスケール支配方程式を学習する。 実験では, 低周波状態下では, 2つのビーム状試料, 1つのアルミニウムおよび1つのIDOX/Estane複合体がせん断波励起を受け, その応答は試料表面の粒子速度の形で測定された。 The WSINDy for PDEs algorithm is applied to the result spatio-temporal data to find the effective dynamics of the specimens from a family of potential PDEs。 発見されたPDEは、Euler-Bernoulliビームモデルであり、2つの材料に対するヤング率を推定する。 また、WSINDyアルゴリズムのアンサンブルバージョンを使用して、PDE係数とヤング変調の不確かさに関する情報を得る。 検出されたPDEは有限要素コードでシミュレートされ、実験データと妥当な精度で比較される。 フルフィールドの実験データとWSINDyを併用することは、未知の統治方程式を学習し、力学系に関する洞察を得るための強力な非破壊的アプローチである。

This work leverages laser vibrometry and the weak form of the sparse identification of nonlinear dynamics (WSINDy) for partial differential equations to learn macroscale governing equations from full-field experimental data. In the experiments, two beam-like specimens, one aluminum and one IDOX/Estane composite, are subjected to shear wave excitation in the low frequency regime and the response is measured in the form of particle velocity on the specimen surface. The WSINDy for PDEs algorithm is applied to the resulting spatio-temporal data to discover the effective dynamics of the specimens from a family of potential PDEs. The discovered PDE is of the recognizable Euler-Bernoulli beam model form, from which the Young's modulus for the two materials are estimated. An ensemble version of the WSINDy algorithm is also used which results in information about the uncertainty in the PDE coefficients and Young's moduli. The discovered PDEs are also simulated with a finite element code to compare against the experimental data with reasonable accuracy. Using full-field experimental data and WSINDy together is a powerful non-destructive approach for learning unknown governing equations and gaining insights about mechanical systems in the dynamic regime.
翻訳日:2024-10-01 22:52:59 公開日:2024-09-30
# 正式に検証された物理インフォームドニューラルコントロールリアプノフ関数

Formally Verified Physics-Informed Neural Control Lyapunov Functions ( http://arxiv.org/abs/2409.20528v1 )

ライセンス: Link先を確認
Jun Liu, Maxwell Fitzsimmons, Ruikun Zhou, Yiming Meng, (参考訳) 制御リャプノフ関数は非線形系の安定化コントローラの設計と解析において中心的なツールである。 しかし、そのような機能の構築は依然として大きな課題である。 本稿では,ニューラルネットワーク制御Lyapunov関数の物理インフォームド学習と形式検証について検討する。 これらのニューラルネットワークは、ポントリャーギンの最大原理を用いて生成されたデータによって拡張されたハミルトン・ヤコビ・ベルマン方程式を解く。 ズボフの方程式が自律系のアトラクションの領域を特徴づけるのと同じように、この方程式は制御系のヌル可制御性集合を特徴づける。 このニューラルネットワーク制御の原理的学習は、数値的な例で示されるように、二乗和や有理制御のリアプノフ関数といった他のアプローチよりも優れている。 中間段階として、2次制御 Lyapunov 関数の形式的検証結果も提示する。これは、満足度モジュラー理論の解法によって支援され、より洗練されたアプローチと比較して驚くほどうまく機能し、ヌル可制御性のグローバルな証明を効率的に作成することができる。

Control Lyapunov functions are a central tool in the design and analysis of stabilizing controllers for nonlinear systems. Constructing such functions, however, remains a significant challenge. In this paper, we investigate physics-informed learning and formal verification of neural network control Lyapunov functions. These neural networks solve a transformed Hamilton-Jacobi-Bellman equation, augmented by data generated using Pontryagin's maximum principle. Similar to how Zubov's equation characterizes the domain of attraction for autonomous systems, this equation characterizes the null-controllability set of a controlled system. This principled learning of neural network control Lyapunov functions outperforms alternative approaches, such as sum-of-squares and rational control Lyapunov functions, as demonstrated by numerical examples. As an intermediate step, we also present results on the formal verification of quadratic control Lyapunov functions, which, aided by satisfiability modulo theories solvers, can perform surprisingly well compared to more sophisticated approaches and efficiently produce global certificates of null-controllability.
翻訳日:2024-10-01 22:52:59 公開日:2024-09-30
# 不確かさ下での最適化のためのエンド・ツー・エンド整形校正

End-to-End Conformal Calibration for Optimization Under Uncertainty ( http://arxiv.org/abs/2409.20534v1 )

ライセンス: Link先を確認
Christopher Yeh, Nicolas Christianson, Alan Wu, Adam Wierman, Yisong Yue, (参考訳) 機械学習は、幅広い領域において不確実性の下で意思決定のパフォーマンスを著しく向上させることができる。 しかし、ロバスト性を保証するには、よく校正された不確実性推定が必要であるため、ディープニューラルネットワークのような高容量予測モデルでは達成が難しい。 さらに、高次元設定では、それぞれが自身のパフォーマンスプロファイルを持つ、有効な不確実性推定が多数存在する可能性がある。 そこで本研究では, 条件付きロバスト最適化における不確実性推定を, 整合予測によるロバスト性および校正保証を用いて学習するためのエンドツーエンドフレームワークを開発した。 さらに,このフレームワークの一部として学習した部分入力凸ニューラルネットワークを用いて任意の凸不確実性集合を表現することを提案する。 提案手法は,エネルギー貯蔵仲裁およびポートフォリオ最適化における具体的応用に基づく2段階推定最適化ベースラインを継続的に改善する。

Machine learning can significantly improve performance for decision-making under uncertainty in a wide range of domains. However, ensuring robustness guarantees requires well-calibrated uncertainty estimates, which can be difficult to achieve in high-capacity prediction models such as deep neural networks. Moreover, in high-dimensional settings, there may be many valid uncertainty estimates, each with their own performance profile - i.e., not all uncertainty is equally valuable for downstream decision-making. To address this problem, this paper develops an end-to-end framework to learn the uncertainty estimates for conditional robust optimization, with robustness and calibration guarantees provided by conformal prediction. In addition, we propose to represent arbitrary convex uncertainty sets with partially input-convex neural networks, which are learned as part of our framework. Our approach consistently improves upon two-stage estimate-then-optimize baselines on concrete applications in energy storage arbitrage and portfolio optimization.
翻訳日:2024-10-01 22:52:59 公開日:2024-09-30
# ASCIIアートによるLSM攻撃と毒性検出システム

Read Over the Lines: Attacking LLMs and Toxicity Detection Systems with ASCII Art to Mask Profanity ( http://arxiv.org/abs/2409.18708v1 )

ライセンス: Link先を確認
Sergey Berezin, Reza Farahbakhsh, Noel Crespi, (参考訳) 言語モデルがASCIIアートを解釈できないことを生かした,敵対的攻撃の新たなファミリーを紹介した。 これらの攻撃を評価するため、ToxASCIIベンチマークを提案し、2つのカスタムASCIIアートフォントを開発する。 当社の攻撃は,OpenAIのo1-previewやLLaMA 3.1を含む10モデルで,完全な1.0アタック成功率を実現しています。 警告: 本論文は, 研究目的に使用される有毒言語の例を含む。

We introduce a novel family of adversarial attacks that exploit the inability of language models to interpret ASCII art. To evaluate these attacks, we propose the ToxASCII benchmark and develop two custom ASCII art fonts: one leveraging special tokens and another using text-filled letter shapes. Our attacks achieve a perfect 1.0 Attack Success Rate across ten models, including OpenAI's o1-preview and LLaMA 3.1. Warning: this paper contains examples of toxic language used for research purposes.
翻訳日:2024-10-01 15:09:41 公開日:2024-09-30