このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240125となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 動的構造系のモデリングとシミュレーションのためのベンチマーク形式
Benchmarking formalisms for dynamic structure system Modeling and Simulation ( http://arxiv.org/abs/2404.03661v1 ) ライセンス: Link先を確認 | Aya Attia, Clément Foucher, Luiz Fernando Lavado Villa, | (参考訳) 複雑なシステムのモデリングとシミュレーションは、システムのダイナミクスを探求する鍵となる。
多くの科学的アプローチが動的構造系を表現するために開発されたが、これらのアプローチの多くはある種のシステムでは効率的であり、他のシステムでは非効率的である。
どのアプローチを異なる動的構造系カテゴリに適用できるかは、多くの研究者にとって関心の的であり、これまで完全に解決されてこなかった。
したがって、既存のアプローチを探求し、理解し、ギャップを識別することが不可欠である。
この目的を達成するため,モデル生成から動的構造系のシミュレーションまで,スムーズな流れの基準を特定した。
これらの基準を用いて、DEC拡張に焦点を当てた既存のモデリング形式をベンチマークし、その結果を用いて、アプローチギャップを特定し、議論する。
Modeling and simulation of complex systems is key to explore systems dynamics. Many scientific approaches were developed to represent dynamic structure systems but most of these approaches are efficient for some kinds of systems and inefficient for others. Which approach can be adopted for different dynamic structure systems categories is a topic of interest for many researchers and until now has not been fully resolved. Therefore it is essential to explore the existing approaches, understand them, and identify gaps. To fulfil this goal, we identified criteria at stake for a smooth flow from model creation to its simulation for dynamic structure systems. Using these criteria, we benchmark the existing modeling formalisms focusing more on DEVS extensions, and use the results to identify approaches gaps and discuss them. | 翻訳日:2024-07-01 12:08:31 公開日:2024-01-25 |
# 量子ヒストリーとしての時間区間の絡み合いとその量子相関境界
Entanglement of temporal sections as quantum histories and their quantum correlation bounds ( http://arxiv.org/abs/2403.17941v1 ) ライセンス: Link先を確認 | Marcin Nowakowski, | (参考訳) 本稿では,時間的相関の基底となる量子構造に着目し,空間的量子相関と区別する特異な性質を示す。
量子状態をトポロジカルな対象として表現することへの関心が高まり、時間多様体に基づく量子ヒストリーバンドルを考察し、一夫一婦のベルのような不等式に反する原因を示す。
量子ヒストリーの混合の定義を導入し、それらの絡み合いをヒルベルトベクトル束上の切断として考える。
時空ベルのような不等式の一般化として、多時間ベルのような不等式に対する量子境界を導出する。
In this paper we focus on the underlying quantum structure of temporal correlations and show their peculiar nature which differentiate them from spatial quantum correlations. With a growing interest in representation of quantum states as topological objects, we consider quantum history bundles based on the temporal manifold and show the source of violation of monogamous temporal Bell-like inequalities. We introduce definitions for the mixture of quantum histories and consider their entanglement as sections over the Hilbert vector bundles. As a generalization of temporal Bell-like inequalities, we derive the quantum bound for multi-time Bell-like inequalities. | 翻訳日:2024-04-01 02:34:48 公開日:2024-01-25 |
# 認知の共通モデルによる生成ネットワークのブリッジ
Bridging Generative Networks with the Common Model of Cognition ( http://arxiv.org/abs/2403.18827v1 ) ライセンス: Link先を確認 | Robert L. West, Spencer Eckler, Brendan Conway-Smith, Nico Turcas, Eilene Tomkins-Flanagan, Mary Alexandria Kelly, | (参考訳) 本稿では,人工知能分野における大規模生成ネットワークモデルに認知共通モデルを適用するための理論的枠組みについて述べる。
これは、共通モデル内のモジュールを、シャドウ生産の出力に基づいて高いレベルの推論を処理する中央生産システムに周知なシャドウ生産システムに再構成することで達成できる。
Common Model内にこの新しい構造を実装することで、認知アーキテクチャと生成ニューラルネットワークのシームレスな接続が可能になる。
This article presents a theoretical framework for adapting the Common Model of Cognition to large generative network models within the field of artificial intelligence. This can be accomplished by restructuring modules within the Common Model into shadow production systems that are peripheral to a central production system, which handles higher-level reasoning based on the shadow productions' output. Implementing this novel structure within the Common Model allows for a seamless connection between cognitive architectures and generative neural networks. | 翻訳日:2024-04-01 02:34:48 公開日:2024-01-25 |
# オンラインソーシャルネットワーク上でのユーザネームスクワット : Xに関する研究
Username Squatting on Online Social Networks: A Study on X ( http://arxiv.org/abs/2401.09209v2 ) ライセンス: Link先を確認 | Anastasios Lepipas, Anastasia Borovykh, Soteris Demetriou, | (参考訳) 広告主は、タイポスクワット、モバイルアプリスクワット、さらには音声スクワット攻撃を起動するためのユニークな識別子をターゲットにしている。
オンラインソーシャルネットワーク(OSN)も、同様のユーザー名を使用するアカウントに悩まされているという逸話的な証拠がある。
これはユーザーにとって紛らわしいことだが、敵によって悪用されることもある。
しかし、これまでOSNでこの問題を特徴づける研究は行われていない。
本研究では,ユーザ名スクワット問題を定義し,Xで特徴付けるための最初の多面計測実験を設計し,有名人アカウントから派生した数十万のユーザ名変異を分析するユーザ名生成ツール(UsernameCrazy)を開発した。
我々の研究によると、何千ものスクワットされたユーザーネームがXによって停止されているのに対し、ネットワークにまだ存在する数万はボットである可能性が高い。
このうち、多数の人物が同一のプロフィール画像やプロフィール名を共有している。
我々は、スクワットされたアカウントが何十万回もツイートで誤って言及され、ネットワークの検索レコメンデーションアルゴリズムによって検索において優先順位付けされていることを発見した。
UsernameCrazyと新しい分類器を組み合わせて、不審なスクワットアカウントを効率的に検出するフレームワーク(SQUAD)を設計することで、私たちの洞察を利用し、この問題に対処する第一歩を踏み出します。
SQUADのプロトタイプ実装を評価したところ、小さなデータセットでトレーニングすると94%のF1スコアが達成できることがわかった。
Adversaries have been targeting unique identifiers to launch typo-squatting, mobile app squatting and even voice squatting attacks. Anecdotal evidence suggest that online social networks (OSNs) are also plagued with accounts that use similar usernames. This can be confusing to users but can also be exploited by adversaries. However, to date no study characterizes this problem on OSNs. In this work, we define the username squatting problem and design the first multi-faceted measurement study to characterize it on X. We develop a username generation tool (UsernameCrazy) to help us analyze hundreds of thousands of username variants derived from celebrity accounts. Our study reveals that thousands of squatted usernames have been suspended by X, while tens of thousands that still exist on the network are likely bots. Out of these, a large number share similar profile pictures and profile names to the original account signalling impersonation attempts. We found that squatted accounts are being mentioned by mistake in tweets hundreds of thousands of times and are even being prioritized in searches by the network's search recommendation algorithm exacerbating the negative impact squatted accounts can have in OSNs. We use our insights and take the first step to address this issue by designing a framework (SQUAD) that combines UsernameCrazy with a new classifier to efficiently detect suspicious squatted accounts. Our evaluation of SQUAD's prototype implementation shows that it can achieve 94% F1-score when trained on a small dataset. | 翻訳日:2024-03-25 12:27:42 公開日:2024-01-25 |
# プライバシー予算の段階的リリースによるランダム化応答
Randomized Response with Gradual Release of Privacy Budget ( http://arxiv.org/abs/2401.13952v1 ) ライセンス: Link先を確認 | Mingen Pan, | (参考訳) ランダム化応答の差分プライバシー(DP)保証を徐々に緩和するアルゴリズムを開発した。
各緩和からの出力は、同等のDP保証とともに標準ランダム化応答と同じ確率分布を保持し、標準アプローチと同じ実用性を保証する。
緩和プロセス全体は、最新の緩和保証と同じDP保証を持つことが証明されている。
DP緩和アルゴリズムは、ランダムな応答に依存する任意のローカル微分プライバシー(LDP)メカニズムに適応可能である。
LDPクラウドソーシング文字列収集ツールであるRAPPORにシームレスに統合され、収集されたデータの頻度を推定するユーティリティを最適化した。
さらに、ランダム化応答に基づく平均推定に対するDP保証の緩和を容易にする。
最後に,提案アルゴリズムの有効性とDP保証を検証する数値実験を行った。
An algorithm is developed to gradually relax the Differential Privacy (DP) guarantee of a randomized response. The output from each relaxation maintains the same probability distribution as a standard randomized response with the equivalent DP guarantee, ensuring identical utility as the standard approach. The entire relaxation process is proven to have the same DP guarantee as the most recent relaxed guarantee. The DP relaxation algorithm is adaptable to any Local Differential Privacy (LDP) mechanisms relying on randomized response. It has been seamlessly integrated into RAPPOR, an LDP crowdsourcing string-collecting tool, to optimize the utility of estimating the frequency of collected data. Additionally, it facilitates the relaxation of the DP guarantee for mean estimation based on randomized response. Finally, numerical experiments have been conducted to validate the utility and DP guarantee of the algorithm. | 翻訳日:2024-03-18 08:17:26 公開日:2024-01-25 |
# フレキシブルアクセス構造を持つ量子抵抗型暗号文属性ベースの暗号化方式
Quantum Resistant Ciphertext-Policy Attribute-Based Encryption Scheme with Flexible Access Structure ( http://arxiv.org/abs/2401.14076v1 ) ライセンス: Link先を確認 | Shida Shamsazad, | (参考訳) 本稿では、フレキシブルなアクセス構造を提供する新しい暗号文属性ベースの暗号方式(CP-ABE)を提案する。
提案方式では,アクセスツリーをアクセス制御ポリシとして組み込んで,暗号化データに対するきめ細かいアクセス制御を実現する。
提案手法の安全性は,R-LWE(Ring-Learning with Errors)問題において,不許可アクセスに対する堅牢な保護を確保することの困難さを前提として証明可能である。
CP-ABEは、データ所有者が属性の観点から定義されたアクセスポリシーでデータを暗号化する暗号化技術である。
必要な属性を持つユーザだけが、暗号化されたデータを復号してアクセスすることができる。
本手法は,アクセスツリーに基づくフレキシブルアクセス構造を導入することでCP-ABEの機能を拡張する。
この構造は、より複雑でカスタマイズ可能なアクセスポリシーを可能にし、より広範囲の現実世界のシナリオを収容する。
提案手法の安全性を確保するため,暗号における確固とした硬度仮定である決定的R-LWE問題に依存する。
この仮定の下で、我々の計画の安全性を証明することによって、潜在的な攻撃に対する保護の強い保証を提供する。
さらに,提案手法は標準モデルで動作するため,追加の仮定や理想的な暗号プリミティブに依存しない。
これにより,本手法の実用性と適用性が向上し,実世界の展開に適したものとなる。
提案手法の性能と効率を,既存のCP-ABE方式との比較により評価した。
その結果,提案手法の有効性と拡張性を示し,各領域におけるセキュアで柔軟なデータアクセス制御の可能性を強調した。
In this paper, we present a novel ciphertext-policy attribute based encryption (CP-ABE) scheme that offers a flexible access structure. Our proposed scheme incorporates an access tree as its access control policy, enabling fine-grained access control over encrypted data. The security of our scheme is provable under the hardness assumption of the decisional Ring-Learning with Errors (R-LWE) problem, ensuring robust protection against unauthorized access. CP-ABE is a cryptographic technique that allows data owners to encrypt their data with access policies defined in terms of attributes. Only users possessing the required attributes can decrypt and access the encrypted data. Our scheme extends the capabilities of CP-ABE by introducing a flexible access structure based on an access tree. This structure enables more complex and customizable access policies, accommodating a wider range of real-world scenarios. To ensure the security of our scheme, we rely on the decisional R-LWE problem, a well-established hardness assumption in cryptography. By proving the security of our scheme under this assumption, we provide a strong guarantee of protection against potential attacks. Furthermore, our proposed scheme operates in the standard model, which means it does not rely on any additional assumptions or idealized cryptographic primitives. This enhances the practicality and applicability of our scheme, making it suitable for real-world deployment. We evaluate the performance and efficiency of our scheme through extensive simulations and comparisons with existing CP-ABE schemes. The results demonstrate the effectiveness and scalability of our proposed approach, highlighting its potential for secure and flexible data access control in various domains. | 翻訳日:2024-03-18 08:17:26 公開日:2024-01-25 |
# 障害を搬送する: サイドチャネル保護されたLWEベースのKEM上での障害伝播攻撃
Carry Your Fault: A Fault Propagation Attack on Side-Channel Protected LWE-based KEM ( http://arxiv.org/abs/2401.14098v1 ) ライセンス: Link先を確認 | Suparna Kundu, Siddhartha Chowdhury, Sayandeep Saha, Angshuman Karmakar, Debdeep Mukhopadhyay, Ingrid Verbauwhede, | (参考訳) 量子後暗号(PQC)アルゴリズム、特にLWE(Learning with error)問題に基づくアルゴリズムは、近年、いくつかの物理的攻撃を受けてきた。
攻撃は受動的サイドチャネル攻撃と能動的フォールト攻撃という2つのクラスに分類されるが、そのようなアルゴリズム固有の複雑さのため、攻撃戦略は大きく異なる。
したがって、攻撃面のさらなる探索は、最終的にこれらのアルゴリズムの配置を確保するための重要なステップである。
また、この点に関して既に提案されている対策の堅牢性をテストすることも重要である。
そこで本研究では,LWEを用いたキーカプセル化機構(KEM)のサイドチャネル保護マスク実装における障害伝播を利用した新しい障害攻撃を提案する。
この攻撃は一般的に、マスキング、すなわちA2B(Arithmetic-to-Boolean)変換を可能にするために広く使われているアルゴリズムの修正によって引き起こされる。
我々は、A2Bにおける加算器のキャリーチェーンのデータ依存性を利用して、(任意の順序で)マスクされているにもかかわらず、機密情報を抽出する。
この情報漏洩の実用性を示す実例として、セイバーのような他のスキームにおいても、キーリカバリ攻撃が存在するものの、キーリカバリ攻撃を示す。
Kyberに対する攻撃はカプセル化モジュールをターゲットにしており、キーリカバリにはBelief Propagation (BP)を使用している。
私たちの知る限りでは、マスクによって引き起こされるランダム性を利用して(Delvauxが実施したように)望ましい障害を得るのではなく、マスキングを容易にするために導入されたアルゴリズムコンポーネントを利用する最初の攻撃である。
最後に,STM32プラットフォーム上で動作するオープンソースの一階セキュアKyber実装に対する,EM(simulated andmagnetic)障害に基づく攻撃の実用的検証を行った。
Post-quantum cryptographic (PQC) algorithms, especially those based on the learning with errors (LWE) problem, have been subjected to several physical attacks in the recent past. Although the attacks broadly belong to two classes - passive side-channel attacks and active fault attacks, the attack strategies vary significantly due to the inherent complexities of such algorithms. Exploring further attack surfaces is, therefore, an important step for eventually securing the deployment of these algorithms. Also, it is important to test the robustness of the already proposed countermeasures in this regard. In this work, we propose a new fault attack on side-channel secure masked implementation of LWE-based key-encapsulation mechanisms (KEMs) exploiting fault propagation. The attack typically originates due to an algorithmic modification widely used to enable masking, namely the Arithmetic-to-Boolean (A2B) conversion. We exploit the data dependency of the adder carry chain in A2B and extract sensitive information, albeit masking (of arbitrary order) being present. As a practical demonstration of the exploitability of this information leakage, we show key recovery attacks of Kyber, although the leakage also exists for other schemes like Saber. The attack on Kyber targets the decapsulation module and utilizes Belief Propagation (BP) for key recovery. To the best of our knowledge, it is the first attack exploiting an algorithmic component introduced to ease masking rather than only exploiting the randomness introduced by masking to obtain desired faults (as done by Delvaux). Finally, we performed both simulated and electromagnetic (EM) fault-based practical validation of the attack for an open-source first-order secure Kyber implementation running on an STM32 platform. | 翻訳日:2024-03-18 08:17:26 公開日:2024-01-25 |
# 5Gネットワークセキュリティプラクティスの概要と調査
5G Network Security Practices: An Overview and Survey ( http://arxiv.org/abs/2401.14350v1 ) ライセンス: Link先を確認 | Fatema Bannat Wala, Mariam Kiran, | (参考訳) 本資料では,5Gコアネットワークアーキテクチャのさまざまなコンポーネントと,これら5Gコンポーネントが提供するセキュリティサービスについて概説する。
また、欧州政府のIoTデバイスの商用化と5Gネットワーク上のサプライチェーン確保に対する取り組みに基づく調査資料に基づいて、5Gネットワーク管理者がセキュアな5Gネットワークを展開しながら考慮すべきベストプラクティスのいくつかを推奨している。
This document provides an overview of 5G network security, describing various components of the 5G core network architecture and what kind of security services are offered by these 5G components. It also explores the potential security risks and vulnerabilities presented by the security architecture in 5G and recommends some of the best practices for the 5G network admins to consider while deploying a secure 5G network, based on the surveyed documents from the European government's efforts in commercializing the IoT devices and securing supply chain over 5G networks. | 翻訳日:2024-03-18 08:17:26 公開日:2024-01-25 |
# LLMを用いたシリコン脳の設計:スパイキングニューロンアレイの自動記述のためのChatGPTの活用 Designing Silicon Brains using LLM: Leveraging ChatGPT for Automated Description of a Spiking Neuron Array ( http://arxiv.org/abs/2402.10920v1 ) ライセンス: Link先を確認 | Michael Tomlinson, Joe Li, Andreas Andreou | (参考訳) 大規模な言語モデル(llm)は、コード生成を含むさまざまなプロンプトに対する正しい音声応答を合成するための見出しを作った。
本稿では,ChatGPT4を誘導し,プログラム可能なスパイキングニューロン配列ASICの全体について,合成可能かつ機能的なベリログ記述を生成するプロンプトを提案する。
この設計フローは、自然言語駆動ハードウェア設計にChatGPT4を使用している現状を示している。
このAI生成設計は手作りテストベンチを用いてシミュレーションで検証され、オープンソースのEDAフローを用いてTiny Tapeout 5を介してスカイウォーター130nmで製造された。 Large language models (LLMs) have made headlines for synthesizing correct-sounding responses to a variety of prompts, including code generation. In this paper, we present the prompts used to guide ChatGPT4 to produce a synthesizable and functional verilog description for the entirety of a programmable Spiking Neuron Array ASIC. This design flow showcases the current state of using ChatGPT4 for natural language driven hardware design. The AI-generated design was verified in simulation using handcrafted testbenches and has been submitted for fabrication in Skywater 130nm through Tiny Tapeout 5 using an open-source EDA flow. | 翻訳日:2024-02-25 17:18:02 公開日:2024-01-25 |
# 強化学習による疫学制御政策のモデル化と最適化 Modeling and Optimization of Epidemiological Control Policies Through Reinforcement Learning ( http://arxiv.org/abs/2402.06640v1 ) ライセンス: Link先を確認 | Ishir Rao | (参考訳) パンデミック(英: Pandemics)は、世界の健康と経済のパターンに影響を与える病気の感染率が高いこと。
パンデミックの影響は、コミュニティに一定の制限を課すことで最小化することができる。
しかし、感染と死亡率を最小限に抑える一方で、これらの制限は経済危機につながる可能性がある。
疫学モデルは、ソーシャルディスタンシング、カーフェー、ロックダウンといった非製薬的介入に基づくパンデミックコントロール戦略の提案を支援し、これらの制限の経済的影響を減らす。
しかし、病気の広がりや経済状況を考慮して手動制御戦略を設計することは自明ではない。
最適な戦略は、多目的強化学習(morl)モデルを通じて設計することができ、パンデミックの結果を最適化するためにどのように制限を使用できるかを示す。
本研究では, 疫学的感受性, 感染性, 回復性, 回復性 (SEIRD) モデルを用いて, 毎日のパンデミックを仮想的にシミュレートするためのコンパートメントモデルを構築した。
我々は,SEIRDモデルと深度2重リカレントQ-ネットワークを組み合わせることで,報酬関数に基づくSEIRDシミュレーションに最適な制約を課す強化学習エージェントを訓練した。
独自の報酬機能とパンデミック目標を持つ2つのエージェントを試験して2つの戦略を得た。
最初のエージェントは、病気の初期拡散を減らすために長いロックダウンを配置し、続いて、病気の回復を緩和するために周期的および短いロックダウンを施した。
第2のエージェントは10日間のロックダウンと20日間の非制限サイクルによって、同様の感染率を提供するが、経済は改善する。
この強化学習と疫学モデルの使用により、複数のパンデミックシナリオにおける経済と感染の緩和が可能となった。 Pandemics involve the high transmission of a disease that impacts global and local health and economic patterns. The impact of a pandemic can be minimized by enforcing certain restrictions on a community. However, while minimizing infection and death rates, these restrictions can also lead to economic crises. Epidemiological models help propose pandemic control strategies based on non-pharmaceutical interventions such as social distancing, curfews, and lockdowns, reducing the economic impact of these restrictions. However, designing manual control strategies while considering disease spread and economic status is non-trivial. Optimal strategies can be designed through multi-objective reinforcement learning (MORL) models, which demonstrate how restrictions can be used to optimize the outcome of a pandemic. In this research, we utilized an epidemiological Susceptible, Exposed, Infected, Recovered, Deceased (SEIRD) model: a compartmental model for virtually simulating a pandemic day by day. We combined the SEIRD model with a deep double recurrent Q-network to train a reinforcement learning agent to enforce the optimal restriction on the SEIRD simulation based on a reward function. We tested two agents with unique reward functions and pandemic goals to obtain two strategies. The first agent placed long lockdowns to reduce the initial spread of the disease, followed by cyclical and shorter lockdowns to mitigate the resurgence of the disease. The second agent provided similar infection rates but an improved economy by implementing a 10-day lockdown and 20-day no-restriction cycle. This use of reinforcement learning and epidemiological modeling allowed for both economic and infection mitigation in multiple pandemic scenarios. | 翻訳日:2024-02-18 13:51:43 公開日:2024-01-25 |
# スパイクニューラルネットワークにおける高速変化の学習 Learning fast changing slow in spiking neural networks ( http://arxiv.org/abs/2402.10069v1 ) ライセンス: Link先を確認 | Cristiano Capone and Paolo Muratore | (参考訳) 強化学習 (Reinforcement Learning, RL) は実生活問題に適用する場合, 環境との相互作用が限られているため, 利用可能なデータの不足が主な原因となっている。
この制限は、RLがしばしば効果的な学習のためにかなりの量のデータを必要とするという事実によって悪化する。
リカレントスパイクネットワークでRLを実装すると複雑さはさらに増大し、スパイクによって引き起こされる固有のノイズは困難を増す。
生涯学習機械は本質的に可塑性安定パラドックスを解決する必要がある。
新しい知識の獲得と安定性維持のバランスを取ることは、人工エージェントにとって不可欠である。
この文脈では、機械学習技術から着想を得て、近位政策最適化の生物学的に妥当な実装を導入し、この課題を著しく軽減していると論じる。
提案手法は2つの顕著な進歩をもたらす: 第一に, 現行方針の変更を必要とせずに新たな情報を同化できる能力, 第二に, 政策のばらつきを伴わずに経験を再現できる能力である。
さらに,他の経験リプレイ(ER)手法と対比した場合,オンライン環境での計算効率が向上することを示す。
提案手法は学習効率を向上し,ニューロモルフィックおよび実世界の応用に対する潜在的な影響を示す。 Reinforcement learning (RL) faces substantial challenges when applied to real-life problems, primarily stemming from the scarcity of available data due to limited interactions with the environment. This limitation is exacerbated by the fact that RL often demands a considerable volume of data for effective learning. The complexity escalates further when implementing RL in recurrent spiking networks, where inherent noise introduced by spikes adds a layer of difficulty. Life-long learning machines must inherently resolve the plasticity-stability paradox. Striking a balance between acquiring new knowledge and maintaining stability is crucial for artificial agents. In this context, we take inspiration from machine learning technology and introduce a biologically plausible implementation of proximal policy optimization, arguing that it significantly alleviates this challenge. Our approach yields two notable advancements: first, the ability to assimilate new information without necessitating alterations to the current policy, and second, the capability to replay experiences without succumbing to policy divergence. Furthermore, when contrasted with other experience replay (ER) techniques, our method demonstrates the added advantage of being computationally efficient in an online setting. We demonstrate that the proposed methodology enhances the efficiency of learning, showcasing its potential impact on neuromorphic and real-world applications. | 翻訳日:2024-02-18 12:36:15 公開日:2024-01-25 |
# 中国人児童の性教育の活性化 : フォーマティブ・スタディ Revitalizing Sex Education for Chinese Children: A Formative Study ( http://arxiv.org/abs/2402.01707v1 ) ライセンス: Link先を確認 | Kyrie Zhixuan Zhou, Yilin Zhu, Jingwen Shan, Madelyn Rose Sanfilippo, Hee Rin Lee | (参考訳) 性教育は、子どもがセクシュアリティに関する知識と認識を得るのを助け、性感染症、妊娠、性的虐待から保護する。
性教育は中国の子供たちにあまり教えられていないが、学校ベースの教育も親のコミュニケーションも限られている。
中国における性教育の現状を疑問視し、適切な介入を探るため、インタビューやソーシャルメディア分析など一連の形式的研究を行った。
子ども、両親、教育実践者、一般大衆といった複数の利害関係者は、性教育の教育と学習に関する独自のニーズについて深い理解を求めていた。
学校による中国人児童の性教育は、現在不十分で制限的であることがわかった。
性教育における親の関与は、セクシュアリティの欠如や教育的知識の欠如、性教育の会話の開始を恥ずかしくさせるなど、いくつかの問題を引き起こした。
文化と政治は効果的な性教育の大きなハードルとなった。
この結果に基づき,文化,政治,教育政策,教育学の複雑な相互作用を考察し,より広い文化的・社会的文脈における性教育の位置づけ設計について考察した。 Sex education helps children obtain knowledge and awareness of sexuality, and protects them against sexually transmitted diseases, pregnancy, and sexual abuse. Sex education is not well taught to children in China -- both school-based education and parental communication on this topic are limited. To interrogate the status quo of sex education in China and explore suitable interventions, we conducted a series of formative studies including interviews and social media analysis. Multiple stakeholders such as children, parents, education practitioners, and the general public were engaged for an in-depth understanding of their unique needs regarding teaching and learning sex education. We found that school-based sex education for Chinese children was currently insufficient and restrictive. Involving parents in sex education posed several challenges, such as a lack of sexuality and pedagogy knowledge, and embarrassment in initiating sex education conversations. Culture and politics were major hurdles to effective sex education. Based on the findings, we reflect on the complex interactions between culture, politics, education policy, and pedagogy, and discuss situated design of sex education in broader cultural and social contexts. | 翻訳日:2024-02-11 16:44:21 公開日:2024-01-25 |
# MultiVERSE: 異世界における大規模言語モデルのアライメント問題 MULTIVERSE: Exposing Large Language Model Alignment Problems in Diverse Worlds ( http://arxiv.org/abs/2402.01706v1 ) ライセンス: Link先を確認 | Xiaolong Jin, Zhuo Zhang, Xiangyu Zhang | (参考訳) 大言語モデル(LLM)のアライメントは、LLM出力が人間の値と一致することを保証することを目的としている。
研究者たちは、会話中に悪意のあるコンテンツを生成するためにLSMを誘導する、大量のジェイルブレイクテクニックによるアライメント問題の深刻さを実証した。
対応するジェイルブレイクプロンプトを見つけるには、通常は人間の知性や計算資源が必要となる。
本稿では,LLMが様々な文脈で異なるアライメントレベルを持つことを報告する。
そのため、worldsと呼ばれる多くのコンテキストを体系的に構築し、可能な世界(例えば、時間、場所、文字、アクション、言語)と対応するコンパイラを記述するドメイン固有言語を活用することで、潜在的なアライメント問題をコスト効率良く露呈することができる。
提案手法の低コストを考えると,異なる世界におけるllmアライメント問題に関する大規模研究を行うことができる。
その結果,本手法は実効性と効率の両方において最先端のジェイルブレイク技術に勝ることがわかった。
さらに,既存のllmはネストする世界やプログラミング言語の世界に対して極めて脆弱であることを示す。
彼らは、既存のアライメントトレーニングが現実世界に焦点を当てており、LLMを活用できる様々な(仮想)世界に欠けていることを示唆している。 Large Language Model (LLM) alignment aims to ensure that LLM outputs match with human values. Researchers have demonstrated the severity of alignment problems with a large spectrum of jailbreak techniques that can induce LLMs to produce malicious content during conversations. Finding the corresponding jailbreaking prompts usually requires substantial human intelligence or computation resources. In this paper, we report that LLMs have different levels of alignment in various contexts. As such, by systematically constructing many contexts, called worlds, leveraging a Domain Specific Language describing possible worlds (e.g., time, location, characters, actions and languages) and the corresponding compiler, we can cost-effectively expose latent alignment issues. Given the low cost of our method, we are able to conduct a large scale study regarding LLM alignment issues in different worlds. Our results show that our method outperforms the-state-of-the-art jailbreaking techniques on both effectiveness and efficiency. In addition, our results indicate that existing LLMs are extremely vulnerable to nesting worlds and programming language worlds. They imply that existing alignment training focuses on the real-world and is lacking in various (virtual) worlds where LLMs can be exploited. | 翻訳日:2024-02-11 16:43:49 公開日:2024-01-25 |
# 行動主義的表現のハームを超えて : 測定と緩和のための計画 Beyond Behaviorist Representational Harms: A Plan for Measurement and Mitigation ( http://arxiv.org/abs/2402.01705v1 ) ライセンス: Link先を確認 | Jennifer Chien and David Danks | (参考訳) アルゴリズム的害は一般に、割当的または表現的に分類される。
本研究は, 表現的害の定義を考察し, 含まれるものとそうでないものを識別することに焦点を当て, 後者を具体的に扱う。
この分析は、行動の定義を超えて、認知的および情緒的状態への害を包含する我々の拡張を動機付けている。
本論文は,高レベルの測定要件を概説する。このアプローチを実装するために必要な専門知識を特定し,ケーススタディを通じてそれを例証する。
私たちの研究は、大きな言語モデルのユニークな脆弱性を強調して、表現上の危害を繰り返す。
この作業は、提案された緩和を提示し、いつ採用するかを明記することで締めくくられる。
本研究の総括的目的は,表現的害の定義を拡大する枠組みを確立し,公平性研究からの洞察を実践的測定・緩和実践に翻訳することである。 Algorithmic harms are commonly categorized as either allocative or representational. This study specifically addresses the latter, focusing on an examination of current definitions of representational harms to discern what is included and what is not. This analysis motivates our expansion beyond behavioral definitions to encompass harms to cognitive and affective states. The paper outlines high-level requirements for measurement: identifying the necessary expertise to implement this approach and illustrating it through a case study. Our work highlights the unique vulnerabilities of large language models to perpetrating representational harms, particularly when these harms go unmeasured and unmitigated. The work concludes by presenting proposed mitigations and delineating when to employ them. The overarching aim of this research is to establish a framework for broadening the definition of representational harms and to translate insights from fairness research into practical measurement and mitigation praxis. | 翻訳日:2024-02-11 16:43:10 公開日:2024-01-25 |
# 多言語感性分析におけるChatGPT vs Gemini vs LLaMA ChatGPT vs Gemini vs LLaMA on Multilingual Sentiment Analysis ( http://arxiv.org/abs/2402.01715v1 ) ライセンス: Link先を確認 | Alessio Buscemi and Daniele Proverbio | (参考訳) 大規模言語モデル(LLM)ベースのモデルであるChatGPT、Gemini、LLaMA2を用いた感情分析の自動化は、学術研究と産業応用の両方において広く普及している。
しかし、曖昧または皮肉な文章の場合、その性能の評価と検証は依然として貧弱である。
本研究では,曖昧で曖昧なシナリオを構築し,それらを10言語で翻訳し,それらの感情をLLMを用いて予測した。
結果はポストホックヒトの反応に対して検証される。
あいまいなシナリオは、しばしばchatgptとgeminiによってうまく処理されますが、モデル間の大きなバイアスと一貫性のないパフォーマンスを認識し、人間言語を評価します。
この研究は、感情分析の自動評価のための標準化された方法論を提供し、アルゴリズムとその基礎となるデータをさらに改善し、そのパフォーマンス、解釈可能性、適用性を改善するためのアクションを呼び出す。 Automated sentiment analysis using Large Language Model (LLM)-based models like ChatGPT, Gemini or LLaMA2 is becoming widespread, both in academic research and in industrial applications. However, assessment and validation of their performance in case of ambiguous or ironic text is still poor. In this study, we constructed nuanced and ambiguous scenarios, we translated them in 10 languages, and we predicted their associated sentiment using popular LLMs. The results are validated against post-hoc human responses. Ambiguous scenarios are often well-coped by ChatGPT and Gemini, but we recognise significant biases and inconsistent performance across models and evaluated human languages. This work provides a standardised methodology for automated sentiment analysis evaluation and makes a call for action to further improve the algorithms and their underlying data, to improve their performance, interpretability and applicability. | 翻訳日:2024-02-11 16:27:53 公開日:2024-01-25 |
# TrICy: 意図を意識したトリガー誘導型テキスト生成 TrICy: Trigger-guided Data-to-text Generation with Intent aware Attention-Copy ( http://arxiv.org/abs/2402.01714v1 ) ライセンス: Link先を確認 | Vibhav Agarwal, Sourav Ghosh, Harichandana BSS, Himanshu Arora, Barath Raj Kandur Raja | (参考訳) データ・トゥ・テキスト(D2T)生成は、多くの自然言語理解(NLU)アプリケーションにおいて重要なタスクであり、タスク指向対話システムの基盤を形成する。
ユーザのデバイス上のローカルデータを直接扱える会話型AIソリューションのコンテキストでは、大きな事前学習言語モデル(PLM)を使用するアーキテクチャは、メモリフットプリントが高いため、デバイス上でのデプロイメントには実用的ではない。
そこで本稿では,コンテキストのインテントに基づいてテキストシーケンスを生成する拡張d2tタスクのための新しい軽量フレームワークtricyを提案する。
我々は注意コピー機構を利用して単語の単語を正確に予測する。
E2E NLGデータセット(BLEU:66.43%、ROUGE-L:70.14%)、WebNLGデータセット(BLEU:Seen 64.08%、Unseen 52.35%)および私たちのテキストメッセージアプリケーションに関連するカスタムデータセットのパフォーマンス分析は、アーキテクチャの有効性を示している。
さらに、任意のトリガ入力を利用することで、データからテキストへの生成品質が大幅に向上し、新たなSOTAスコアが69.29% BLEU for E2E NLGとなることを示す。
さらに,GPT-3, ChatGPT, Llama 2などのLLMに対して, BLEUおよびMETEORの少なくとも24%, 3%の改善が達成された。
また,いくつかのシナリオでは,訓練中であってもトリガによるパフォーマンス向上が観察される。 Data-to-text (D2T) generation is a crucial task in many natural language understanding (NLU) applications and forms the foundation of task-oriented dialog systems. In the context of conversational AI solutions that can work directly with local data on the user's device, architectures utilizing large pre-trained language models (PLMs) are impractical for on-device deployment due to a high memory footprint. To this end, we propose TrICy, a novel lightweight framework for an enhanced D2T task that generates text sequences based on the intent in context and may further be guided by user-provided triggers. We leverage an attention-copy mechanism to predict out-of-vocabulary (OOV) words accurately. Performance analyses on E2E NLG dataset (BLEU: 66.43%, ROUGE-L: 70.14%), WebNLG dataset (BLEU: Seen 64.08%, Unseen 52.35%), and our Custom dataset related to text messaging applications, showcase our architecture's effectiveness. Moreover, we show that by leveraging an optional trigger input, data-to-text generation quality increases significantly and achieves the new SOTA score of 69.29% BLEU for E2E NLG. Furthermore, our analyses show that TrICy achieves at least 24% and 3% improvement in BLEU and METEOR respectively over LLMs like GPT-3, ChatGPT, and Llama 2. We also demonstrate that in some scenarios, performance improvement due to triggers is observed even when they are absent in training. | 翻訳日:2024-02-11 16:27:37 公開日:2024-01-25 |
# 縦型電子健康記録データを用いたゼロショット臨床予測のための大規模言語モデルの提案 Prompting Large Language Models for Zero-Shot Clinical Prediction with Structured Longitudinal Electronic Health Record Data ( http://arxiv.org/abs/2402.01713v1 ) ライセンス: Link先を確認 | Yinghao Zhu, Zixiang Wang, Junyi Gao, Yuning Tong, Jingkun An, Weibin Liao, Ewen M. Harrison, Liantao Ma, Chengwei Pan | (参考訳) 構造化された縦型電子健康記録(EHR)データの本質的な複雑さは、伝統的に自然言語処理に適したLarge Language Models(LLM)との統合において、大きな課題となる。
本研究は, 従来の予測モデルは, 過去のデータ不足によりしばしば失敗する新たな疾患発生時の迅速な意思決定の必要性から, GPT-4などのLCMのEHRデータへの適応性について検討した。
特にゼロショット機能に重点を置いており、明示的にトレーニングされていないシナリオで予測することが可能です。
EHRデータの長手性、スパース性、知識注入性に対応するため、本研究では、単位や基準範囲などの特定のEHR特性を考慮し、臨床状況に合わせてコンテキスト内学習戦略を採用する。
MIMIC-IVとTJHデータセットに関する包括的な実験は、精巧に設計されたプロンプトフレームワークにより、LSMは、死亡率、待ち時間、30日間の読み出しといった重要なタスクにおける予測性能を、数ショット設定でMLモデルを上回る約35倍改善できることを示した。
我々の研究は、臨床意思決定の強化、特にラベル付きデータのない新興疾患の発生のような緊急医療状況におけるLSMsの可能性を明らかにする。
コードはhttps://github.com/yhzhu99/llm4healthcare for reproducibilityで公開されている。 The inherent complexity of structured longitudinal Electronic Health Records (EHR) data poses a significant challenge when integrated with Large Language Models (LLMs), which are traditionally tailored for natural language processing. Motivated by the urgent need for swift decision-making during new disease outbreaks, where traditional predictive models often fail due to a lack of historical data, this research investigates the adaptability of LLMs, like GPT-4, to EHR data. We particularly focus on their zero-shot capabilities, which enable them to make predictions in scenarios in which they haven't been explicitly trained. In response to the longitudinal, sparse, and knowledge-infused nature of EHR data, our prompting approach involves taking into account specific EHR characteristics such as units and reference ranges, and employing an in-context learning strategy that aligns with clinical contexts. Our comprehensive experiments on the MIMIC-IV and TJH datasets demonstrate that with our elaborately designed prompting framework, LLMs can improve prediction performance in key tasks such as mortality, length-of-stay, and 30-day readmission by about 35\%, surpassing ML models in few-shot settings. Our research underscores the potential of LLMs in enhancing clinical decision-making, especially in urgent healthcare situations like the outbreak of emerging diseases with no labeled data. The code is publicly available at https://github.com/yhzhu99/llm4healthcare for reproducibility. | 翻訳日:2024-02-11 16:27:07 公開日:2024-01-25 |
# 大規模言語モデルを用いた適切なアイデア検出のための社会認識型合成データ生成 Socially Aware Synthetic Data Generation for Suicidal Ideation Detection Using Large Language Models ( http://arxiv.org/abs/2402.01712v1 ) ライセンス: Link先を確認 | Hamideh Ghanadian, Isar Nejadgholi, Hussein Al Osman | (参考訳) 自殺イデオレーション検出は、メンタルヘルス支援システムを改善する大きな可能性を秘めている重要な研究分野である。
しかし、自殺関連データを取り巻く感受性は、効果的な機械学習モデルのトレーニングに必要な大規模な注釈付きデータセットにアクセスする上で問題となる。
この制限に対処するために,チャットgpt,flan-t5,llamaなどの生成型aiモデルの機能を活用し,自殺イデオレーション検出のための合成データを作成する革新的な戦略を導入する。
データ生成アプローチは,心理学文献から抽出した社会的要因を基盤とし,自殺イデオロギーに関連する本質的情報を網羅することを目的としている。
本研究では,最新のNLP分類モデル,特にBERTファミリー構造を中心としてベンチマークを行った。
実世界のデータセットであるUDDでトレーニングすると、従来のモデルでは0.75から0.87までのF1スコアが得られる傾向にある。
我々の合成データ駆動方式は,両モデルに一貫したF1スコアが0.82であることから,合成データにおけるトピックの豊かさが,異なるモデル複雑度間の性能ギャップを橋渡しできる可能性が示唆された。
もっとも印象的なことに、UMDデータセットの30%を合成データと組み合わせると、パフォーマンスが大幅に向上し、UDDテストセットでF1スコアが0.88に達した。
このような結果は、データ不足やデータ表現の多様性の追求など、この分野の主要な課題に直面する際の、当社のアプローチの費用対効果と可能性を強調します。 Suicidal ideation detection is a vital research area that holds great potential for improving mental health support systems. However, the sensitivity surrounding suicide-related data poses challenges in accessing large-scale, annotated datasets necessary for training effective machine learning models. To address this limitation, we introduce an innovative strategy that leverages the capabilities of generative AI models, such as ChatGPT, Flan-T5, and Llama, to create synthetic data for suicidal ideation detection. Our data generation approach is grounded in social factors extracted from psychology literature and aims to ensure coverage of essential information related to suicidal ideation. In our study, we benchmarked against state-of-the-art NLP classification models, specifically, those centered around the BERT family structures. When trained on the real-world dataset, UMD, these conventional models tend to yield F1-scores ranging from 0.75 to 0.87. Our synthetic data-driven method, informed by social factors, offers consistent F1-scores of 0.82 for both models, suggesting that the richness of topics in synthetic data can bridge the performance gap across different model complexities. Most impressively, when we combined a mere 30% of the UMD dataset with our synthetic data, we witnessed a substantial increase in performance, achieving an F1-score of 0.88 on the UMD test set. Such results underscore the cost-effectiveness and potential of our approach in confronting major challenges in the field, such as data scarcity and the quest for diversity in data representation. | 翻訳日:2024-02-11 16:26:38 公開日:2024-01-25 |
# LLM on FHIR -- Demystifying Health Records LLM on FHIR -- Demystifying Health Records ( http://arxiv.org/abs/2402.01711v1 ) ライセンス: Link先を確認 | Paul Schmiedmayer, Adrit Rao, Philipp Zagar, Vishnu Ravi, Aydin Zahedivash, Arash Fereydooni, Oliver Aalami | (参考訳) 目的:大規模言語モデル(LLM)とFHIR(Fast Healthcare Interoperability Resources)アプリケーションプログラミングインタフェース(API)を用いて、患者中心の人工知能(AI)ソリューションを開発することにより、多様な患者の健康情報の可読性とアクセシビリティを高める。
Materials and Methods: この研究は、オープンソースのモバイルアプリケーションであるFHIR上でLLMを開発することを目的としている。
アプリはスタンフォード大学のSpeziエコシステム上に構築され、OpenAIのGPT-4を使用している。
SyntheticMass患者データセットを用いてパイロット研究を行い、医療専門家によって評価され、アプリの健康リテラシー向上効果を評価する。
評価は, LLMの患者に対する反応の正確性, 関連性, 理解性に焦点をあてた。
結果: FHIR 上の LLM は,患者に理解可能な健康情報の提供において,高い精度と関連性を示した。
アプリは効果的に医療データを患者フレンドリーな言語に翻訳し、その反応を異なる患者プロフィールに適応させることができた。
しかし、LSM応答のばらつきや、健康データの正確なフィルタリングの必要性が課題であった。
議論と結論: LLMは、健康リテラシーを改善し、健康記録をよりアクセスしやすいものにする大きな可能性を秘めている。
本分野の先駆的応用であるFHIR上のLSMは、LCMを患者医療に統合する可能性と課題を実証する。
有望だが、実装とパイロットは一貫性のない応答や複製可能なアウトプットの重要性といったリスクも強調する。
今後の方向性には、より優れたリソース識別機構と、プライバシの向上とコスト削減のためにデバイス上でLLMを実行することが含まれる。 Objective: To enhance health literacy and accessibility of health information for a diverse patient population by developing a patient-centered artificial intelligence (AI) solution using large language models (LLMs) and Fast Healthcare Interoperability Resources (FHIR) application programming interfaces (APIs). Materials and Methods: The research involved developing LLM on FHIR, an open-source mobile application allowing users to interact with their health records using LLMs. The app is built on Stanford's Spezi ecosystem and uses OpenAI's GPT-4. A pilot study was conducted with the SyntheticMass patient dataset and evaluated by medical experts to assess the app's effectiveness in increasing health literacy. The evaluation focused on the accuracy, relevance, and understandability of the LLM's responses to common patient questions. Results: LLM on FHIR demonstrated varying but generally high degrees of accuracy and relevance in providing understandable health information to patients. The app effectively translated medical data into patient-friendly language and was able to adapt its responses to different patient profiles. However, challenges included variability in LLM responses and the need for precise filtering of health data. Discussion and Conclusion: LLMs offer significant potential in improving health literacy and making health records more accessible. LLM on FHIR, as a pioneering application in this field, demonstrates the feasibility and challenges of integrating LLMs into patient care. While promising, the implementation and pilot also highlight risks such as inconsistent responses and the importance of replicable output. Future directions include better resource identification mechanisms and executing LLMs on-device to enhance privacy and reduce costs. | 翻訳日:2024-02-11 16:26:10 公開日:2024-01-25 |
# 教育の平等を探求する:ジョージアにおける達成格差の解き放つ機械学習アプローチ Exploring Educational Equity: A Machine Learning Approach to Unravel Achievement Disparities in Georgia ( http://arxiv.org/abs/2402.01710v1 ) ライセンス: Link先を確認 | Yichen Ma, Dima Nazzal | (参考訳) 新型コロナウイルス(covid-19)のパンデミックは、ジョージア州のk-12制度における既存の教育格差を著しく悪化させた。
機械学習の手法を用いて、異なる人口層、地域、主題にわたる学生の達成率を包括的に分析する。
この結果は、パンデミック中の英語と数学の習熟度が著しく低下し、スコアの分布が著しく縮小し、経済的に不利な学生や黒人の学生に大きな影響を及ぼしたことを示している。
フリーランチの資格を持つ学生の割合は、直接認定された割合で表される社会経済的地位が最も重要な要素として現れ、教員の給与や教育費といった教職員のリソースから得られた洞察が増す。
この研究はまた、都市と農村の達成率の差、および郡全体の変動を識別し、地理的、社会経済的要因の影響を裏付けている。
対象とする介入や資源配分、特に経済的に不利な生徒の割合が高い学校では、教育格差の緩和が不可欠であることが示唆された。 The COVID-19 pandemic has significantly exacerbated existing educational disparities in Georgia's K-12 system, particularly in terms of racial and ethnic achievement gaps. Utilizing machine learning methods, the study conducts a comprehensive analysis of student achievement rates across different demographics, regions, and subjects. The findings highlight a significant decline in proficiency in English and Math during the pandemic, with a noticeable contraction in score distribution and a greater impact on economically disadvantaged and Black students. Socio-economic status, as represented by the Directly Certified Percentage -- the percentage of students eligible for free lunch, emerges as the most crucial factor, with additional insights drawn from faculty resources such as teacher salaries and expenditure on instruction. The study also identifies disparities in achievement rates between urban and rural settings, as well as variations across counties, underscoring the influence of geographical and socio-economic factors. The data suggests that targeted interventions and resource allocation, particularly in schools with higher percentages of economically disadvantaged students, are essential for mitigating educational disparities. | 翻訳日:2024-02-11 16:25:43 公開日:2024-01-25 |
# 早期警告システムを用いたプログラミングコースにおける学生の学習支援に向けて Toward Finding and Supporting Struggling Students in a Programming Course with an Early Warning System ( http://arxiv.org/abs/2402.01709v1 ) ライセンス: Link先を確認 | Belinda Schantong, Dominik Gorgosch, Janet Siegmund | (参考訳) 背景:プログラミングスキルは今日の社会をナビゲートするのに有利なので、学生に教えることが重要です。
しかし、プログラミングコースの失敗率は高く、特に入門プログラミングコースの初期段階で遅れている学生は、遅れがちである。
目的:これらの学生をできるだけ早く捕えるために,早期警戒システムを開発することを目指しており,例えば,構文訓練・実践演習という形で,学生を支援することができる。
方法:早期警戒システムを開発するために,導入型プログラミングコースの学生の異なる認知スキルを評価する。
コースのいくつかのポイントにおいて、学生はプログラミング、言語スキル、注意力、流動知能のメンタルモデルを開発する能力を測定するテストを完成させる。
そして,学生がプログラミングのスキルを習得するかどうかを,これらのスキルがどの程度予測するかを評価する。
さらに,構文訓練・実践演習がプログラミングスキルの獲得方法を改善するかを評価する。
結論: 認知能力の大部分は,学生がプログラミングスキルをある程度習得するかどうかを予測できる。
特に、プログラミングと言語スキルの初期のメンタルモデルを開発する能力は重要と思われる。
流体知能はまた、予測能力を示すが、メンタルモデルを開発する能力に匹敵するように見える。
さらに,授業成功に対する構文訓練・実践演習の有意な効果が認められた。
意味: 早期警告システムの最初の提案は,プログラムコースに統合可能な,あるいはコース開始前に適用可能な,ごく少数の簡単なテストで構成されています。
このように、プログラミングコースの開始によって、失敗のリスクが高い学生を識別し、例えば、プログラミングスキルの開発を支援するための構文ドリル・アンド・実践演習の形で支援することが可能になる。 Background: Programming skills are advantageous to navigate today's society, so it is important to teach them to students. However, failure rates for programming courses are high, and especially students who fall behind early in introductory programming courses tend to stay behind. Objective: To catch these students as early as possible, we aim to develop an early warning system, so we can offer the students support, for example, in the form of syntax drill-and-practice exercises. Method: To develop the early warning system, we assess different cognitive skills of students of an introductory programming course. On several points in time over the course, students complete tests that measure their ability to develop a mental model of programming, language skills, attention, and fluid intelligence. Then, we evaluated to what extent these skills predict whether students acquire programming skills. Additionally, we assess how syntax drill-and-practice exercises improve how students acquire programming skill. Findings: Most of the cognitive skills can predict whether students acquire programming skills to a certain degree. Especially the ability to develop an early mental model of programming and language skills appear to be relevant. Fluid intelligence also shows predictive power, but appears to be comparable with the ability to develop a mental model. Furthermore, we found a significant positive effect of the syntax drill-and-practice exercises on the success of a course. Implications: Our first suggestion of an early warning system consists of few, easy-to-apply tests that can be integrated in programming courses or applied even before a course starts. Thus, with the start of a programming course, students who are at high risk of failing can be identified and offered support, for example, in the form of syntax drill-and-practice exercises to help students to develop programming skills. | 翻訳日:2024-02-11 16:25:22 公開日:2024-01-25 |
# 私の声じゃない!
音声発生器の倫理的・安全的ハームの分類 Not My Voice! A Taxonomy of Ethical and Safety Harms of Speech Generators ( http://arxiv.org/abs/2402.01708v1 ) ライセンス: Link先を確認 | Wiebke Hutiri, Oresiti Papakyriakopoulos, Alice Xiang | (参考訳) 人間のスピーチを生成するためのAIの迅速かつ大規模な採用は、対処すべき社会に対して、幅広い倫理的および安全上のリスクをもたらす。
例えば、米国では、警察が学校や病院を閉鎖するよう呼びかけたり、無実の市民の自宅に暴力的にアクセスするために、匿名の加害者が合成音声を作成している。
このようなインシデントは、マルチモーダル生成AIのリスクと害が独立して存在するのではなく、複数の利害関係者と技術的AIシステムの相互作用から生じることを示している。
本稿では,音声生成インシデントを分析し,特定の害の発生パターンについて検討する。
特定の害は、影響を受けた個人の露出に応じて分類でき、それは、それらが音声生成システムから被写体であるか、相互作用しているか、苦しむか、あるいは除外されるかである。
同様に、特定の害は、システムの作成者とデプロイ者のモチベーションの結果でもある。
これらの知見に基づいて,AIの倫理的・安全的害に対する経路をモデル化するための概念的枠組みを提案する。
我々のリレーショナルアプローチは、社会技術AIシステムにおけるリスクと害の複雑さを捉え、適切な政策介入や意思決定を支援するための拡張可能な分類を与え、マルチモーダルモデルの開発と音声生成装置のリリースに責任を負う。 The rapid and wide-scale adoption of AI to generate human speech poses a range of significant ethical and safety risks to society that need to be addressed. For example, a growing number of speech generation incidents are associated with swatting attacks in the United States, where anonymous perpetrators create synthetic voices that call police officers to close down schools and hospitals, or to violently gain access to innocent citizens' homes. Incidents like this demonstrate that multimodal generative AI risks and harms do not exist in isolation, but arise from the interactions of multiple stakeholders and technical AI systems. In this paper we analyse speech generation incidents to study how patterns of specific harms arise. We find that specific harms can be categorised according to the exposure of affected individuals, that is to say whether they are a subject of, interact with, suffer due to, or are excluded from speech generation systems. Similarly, specific harms are also a consequence of the motives of the creators and deployers of the systems. Based on these insights we propose a conceptual framework for modelling pathways to ethical and safety harms of AI, which we use to develop a taxonomy of harms of speech generators. Our relational approach captures the complexity of risks and harms in sociotechnical AI systems, and yields an extensible taxonomy that can support appropriate policy interventions and decision making for responsible multimodal model development and release of speech generators. | 翻訳日:2024-02-11 16:24:54 公開日:2024-01-25 |
# 熱浴中における単一・絡み合った原子系とフルリング・ダビエ・ウンルー効果 Single and entangled atomic systems in thermal bath and the Fulling-Davies-Unruh effect ( http://arxiv.org/abs/2402.03351v1 ) ライセンス: Link先を確認 | Arnab Mukherjee, Sunandan Gangopadhyay, and Archan S. Majumdar | (参考訳) 熱浴で均一に加速されるか静的な2段階の単原子系と絡み合った原子系の文脈で、フリング・デイビス・アンルー効果を再検討する。
系と無質量スカラー場との相互作用を考察し,空洞内だけでなく自由空間のシナリオについても考察する。
原子遷移速度の計算により,自由空間では,熱浴の温度がウンルー温度に一致する限り,観測者に対して一様加速原子と,観測者に対して静的で熱浴に浸漬される単一原子との間に等価性があることが判明した。
この等価性は空洞の存在下で崩壊する。
二原子系では、初期状態は一般に純粋に絡み合った形であると考える。
この場合、加速熱浴と静的熱浴の等価性は、自由空間内の特定の制限条件下でのみ保持されるが、キャビティ設定では完全に破壊される。 We revisit the Fulling-Davies-Unruh effect in the context of two-level single and entangled atomic systems that are either uniformly accelerated or static in a thermal bath. We consider the interaction between the systems and a massless scalar field, covering the scenarios of free space as well as within a cavity. Through the calculation of atomic transition rates, it is found that in free space there is an equivalence between a uniformly accelerated atom with respect to an observer with that of a single atom which is static with respect to the observer and immersed in a thermal bath, as long as the temperature of the thermal bath matches the Unruh temperature. This equivalence breaks down in the presence of a cavity. For two-atom systems, we consider the initial state to be in a general pure entangled form. We find that in this case, the equivalence between the accelerated and static thermal bath scenarios holds only under specific limiting conditions in free space but breaks down completely in a cavity set-up. | 翻訳日:2024-02-11 15:40:00 公開日:2024-01-25 |
# Geoscienceが生成AIと大規模言語モデルに出会ったとき - 基礎,トレンド,今後の課題 When Geoscience Meets Generative AI and Large Language Models: Foundations, Trends, and Future Challenges ( http://arxiv.org/abs/2402.03349v1 ) ライセンス: Link先を確認 | Abdenour Hadid, Tanujit Chakraborty, Daniel Busby | (参考訳) 生成人工知能 (Generative Artificial Intelligence, GAI) は、合成データと出力を異なるモードで生成することを約束する新興分野である。
GAIは最近、生物学、医学、教育、法律、コンピュータサイエンス、ファイナンスなど、幅広い分野のアプリケーションで印象的な成果を上げている。
安全性、効率、持続可能性を高める努力として、生成AIは確かに重要な差別化要因として現れ、この分野におけるパラダイムシフトを約束する。
本稿では,地球科学における生成型AIと大規模言語モデルの可能性について検討する。
機械学習と深層学習の分野での最近の進歩は、多様な予測問題、シミュレーション、地学と地球系の力学に関連する多条件決定課題に対処するための生成モデルの実用性を可能にしている。
本調査では, 生成逆数ネットワーク(GAN), 物理インフォーマルニューラルネットワーク(PINN), 生成事前学習型トランスフォーマー(GPT)に基づく構造を含む, 地質学で使用されているGAIモデルについて検討した。
これらのツールは、データ生成/表示、超解像、パンクロマティックシャープニング、ヘイズ除去、修復、陸地表面の変化を含む、いくつかの応用において、ジオサイエンスコミュニティを助けてきた。
物理的な解釈、有害なユースケース、信頼性の確保など、いくつかの課題はまだ残っている。
さらに、GAIモデルは、特に気候変動、都市科学、大気科学、海洋科学、惑星科学への支援を、データ駆動モデリングと不確実な定量化という異常な能力を通じて、地球科学コミュニティに約束している。 Generative Artificial Intelligence (GAI) represents an emerging field that promises the creation of synthetic data and outputs in different modalities. GAI has recently shown impressive results across a large spectrum of applications ranging from biology, medicine, education, legislation, computer science, and finance. As one strives for enhanced safety, efficiency, and sustainability, generative AI indeed emerges as a key differentiator and promises a paradigm shift in the field. This paper explores the potential applications of generative AI and large language models in geoscience. The recent developments in the field of machine learning and deep learning have enabled the generative model's utility for tackling diverse prediction problems, simulation, and multi-criteria decision-making challenges related to geoscience and Earth system dynamics. This survey discusses several GAI models that have been used in geoscience comprising generative adversarial networks (GANs), physics-informed neural networks (PINNs), and generative pre-trained transformer (GPT)-based structures. These tools have helped the geoscience community in several applications, including (but not limited to) data generation/augmentation, super-resolution, panchromatic sharpening, haze removal, restoration, and land surface changing. Some challenges still remain such as ensuring physical interpretation, nefarious use cases, and trustworthiness. Beyond that, GAI models show promises to the geoscience community, especially with the support to climate change, urban science, atmospheric science, marine science, and planetary science through their extraordinary ability to data-driven modeling and uncertainty quantification. | 翻訳日:2024-02-11 15:39:40 公開日:2024-01-25 |
# モデルを考える:共有比分解による細粒度とロバストな説明 Respect the model: Fine-grained and Robust Explanation with Sharing Ratio Decomposition ( http://arxiv.org/abs/2402.03348v1 ) ライセンス: Link先を確認 | Sangyu Han, Yearim Kim, Nojun Kwak | (参考訳) モデル決定過程を真に解明する既存の説明手法の真偽は疑問視されている。
既存の手法はモデルを忠実に表現することから逸脱しており、従って敵対的な攻撃に影響を受けやすい。
そこで本研究では,モデルの推論過程を忠実に反映し,説明におけるロバスト性を大幅に向上させる,srd(shareing ratio decomposition)と呼ばれる新しい説明可能なai(xai)手法を提案する。
従来の神経レベルでの強調と異なり、フィルタ間の複雑な非線形相互作用を考えるためにベクトル的視点を採用する。
また,アクティベーションパターンのみ予測(apop)という興味深い観察手法を導入し,不活性ニューロンの重要性を強調し,活性ニューロンと不活性ニューロンの両方を含むすべての関連情報をカプセル化する。
本手法は,任意の層において高分解能有効受容場(erf)を提供する点的特徴ベクトル(pfv)の再帰的分解を可能にする。 The truthfulness of existing explanation methods in authentically elucidating the underlying model's decision-making process has been questioned. Existing methods have deviated from faithfully representing the model, thus susceptible to adversarial attacks. To address this, we propose a novel eXplainable AI (XAI) method called SRD (Sharing Ratio Decomposition), which sincerely reflects the model's inference process, resulting in significantly enhanced robustness in our explanations. Different from the conventional emphasis on the neuronal level, we adopt a vector perspective to consider the intricate nonlinear interactions between filters. We also introduce an interesting observation termed Activation-Pattern-Only Prediction (APOP), letting us emphasize the importance of inactive neurons and redefine relevance encapsulating all relevant information including both active and inactive neurons. Our method, SRD, allows for the recursive decomposition of a Pointwise Feature Vector (PFV), providing a high-resolution Effective Receptive Field (ERF) at any layer. | 翻訳日:2024-02-11 15:39:12 公開日:2024-01-25 |
# densenet201アーキテクチャモデルを用いたポテト葉病分類のための転送学習 Transfer Learning With Densenet201 Architecture Model For Potato Leaf Disease Classification ( http://arxiv.org/abs/2402.03347v1 ) ライセンス: Link先を確認 | Rifqi Alfinnur Charisma and Faisal Dharma Adhinata | (参考訳) ジャガイモ植物は人間にとって有益な植物です。
他の植物と同様に、ポテト植物にも病気があり、この病気が直ちに治療されないと、食料生産が大幅に減少する。
そのため, 疾患の迅速かつ正確に検出し, 効果的かつ効果的に疾患のコントロールを行えるようにする必要がある。
ジャガイモの葉病の分類は直接行うことができる。
しかし、この症状はポテト葉を襲う病気の種類を必ずしも説明できない。
人間はまた、ジャガイモの葉病の特定結果を決定することにも欠陥があるため、個人間の識別結果が異なる場合もある。
したがって, ジャガイモ葉病の分類過程におけるDeep Learningの使用は, 時間を短縮し, 高い分類精度が期待できる。
本研究では,DenseNet201アーキテクチャを用いたディープラーニング手法を提案する。
この研究でDenseNet201アルゴリズムを使う選択は、ジャガイモの葉の重要な特徴を識別し、新しい病気の早期の兆候を認識できるためである。
本研究の目的は,従来の分類法と比較して,ジャガイモ葉病の分類精度を高めるために,DenseNet201アーキテクチャを用いた転写学習手法の有効性を評価することである。
本研究は2つのシナリオ,すなわち,ドロップアウト数の比較と3つのオプティマイザの比較を行う。
このテストは、トレーニングに99.5%、バリデーションに95.2%、混乱マトリックスに96%の精度でdropout 0.1とadam optimizerを用いた最良のモデルを生成する。
本研究では、データテストを用いて、構築されたモデルに最大40枚の画像がテストされた。
このモデルによる試験結果は、ジャガイモ葉病(92.5%)の分類に新たな精度をもたらした。 Potato plants are plants that are beneficial to humans. Like other plants in general, potato plants also have diseases; if this disease is not treated immediately, there will be a significant decrease in food production. Therefore, it is necessary to detect diseases quickly and precisely so that disease control can be carried out effectively and efficiently. Classification of potato leaf disease can be done directly. Still, the symptoms cannot always explain the type of disease that attacks potato leaves because there are many types of diseases with symptoms that look the same. Humans also have deficiencies in determining the results of identification of potato leaf disease, so sometimes the results of identification between individuals can be different. Therefore, the use of Deep Learning for the classification process of potato leaf disease is expected to shorten the time and have a high classification accuracy. This study uses a deep learning method with the DenseNet201 architecture. The choice to use the DenseNet201 algorithm in this study is because the model can identify important features of potato leaves and recognize early signs of emerging diseases. This study aimed to evaluate the effectiveness of the transfer learning method with the DenseNet201 architecture in increasing the classification accuracy of potato leaf disease compared to traditional classification methods. This study uses two types of scenarios, namely, comparing the number of dropouts and comparing the three optimizers. This test produces the best model using dropout 0.1 and Adam optimizer with an accuracy of 99.5% for training, 95.2% for validation, and 96% for the confusion matrix. In this study, using data testing, as many as 40 images were tested into the model that has been built. The test results on this model resulted in a new accuracy for classifying potato leaf disease, namely 92.5%. | 翻訳日:2024-02-11 15:38:53 公開日:2024-01-25 |
# グラフニューラルネットワークによる古典的プランナの選択 Choosing a Classical Planner with Graph Neural Networks ( http://arxiv.org/abs/2402.04874v1 ) ライセンス: Link先を確認 | Jana Vatter, Ruben Mayer, Hans-Arno Jacobsen, Horst Samulowitz, Michael Katz | (参考訳) オンラインプランナーの選択は、与えられた計画問題の事前定義されたセットから解決者を選択するタスクである。
計画は計算が難しいため、解法の性能は計画問題によって大きく異なる。
したがって、与えられた問題でパフォーマンスを予測する能力は非常に重要である。
様々な学習手法が採用されているが、古典的なコスト最適計画では、一般的なアプローチはグラフニューラルネットワーク(GNN)を用いる。
本研究では,オンラインプランナ選択におけるGNNの利用について,引き続き検討する。
我々は,選択したGNNモデル,グラフ表現,ノード特徴,および予測タスクの影響を徹底的に調査する。
さらに,gnnによって得られたグラフ表現を,xgboostモデルへの入力として用いることにより,資源効率が向上し,かつ精度が向上する手法を提案する。
GNNに基づくオンラインプランナー選択手法の有効性を示し、オンラインプランナー選択に関する研究に新たなエキサイティングな道を開く。 Online planner selection is the task of choosing a solver out of a predefined set for a given planning problem. As planning is computationally hard, the performance of solvers varies greatly on planning problems. Thus, the ability to predict their performance on a given problem is of great importance. While a variety of learning methods have been employed, for classical cost-optimal planning the prevailing approach uses Graph Neural Networks (GNNs). In this work, we continue the line of work on using GNNs for online planner selection. We perform a thorough investigation of the impact of the chosen GNN model, graph representation and node features, as well as prediction task. Going further, we propose using the graph representation obtained by a GNN as an input to the Extreme Gradient Boosting (XGBoost) model, resulting in a more resource-efficient yet accurate approach. We show the effectiveness of a variety of GNN-based online planner selection methods, opening up new exciting avenues for research on online planner selection. | 翻訳日:2024-02-11 15:12:16 公開日:2024-01-25 |
# ニューラル・パターン・アソシエータによるbasket内レコメンデーション Within-basket Recommendation via Neural Pattern Associator ( http://arxiv.org/abs/2401.16433v1 ) ライセンス: Link先を確認 | Kai Luo, Tianshu Shen, Lan Yao, Ga Wu, Aaron Liblong, Istvan Fehervari, Ruijian An, Jawad Ahmed, Harshit Mishra, Charu Pujari | (参考訳) インサイド・ケーキ・レコメンデーション(inside-basket recommendation、wbr)は、ショッピングセッション中に空でない買い物カゴを完了するまでアイテムを推薦するタスクである。
この分野における最新のイノベーションは、ベンチマークデータセットのパフォーマンスが著しく向上したことを示しているが、実際にはユーザ行動の複雑さを見落としていることが多い。
1) 複数のショッピング意図の共存
2)そのような意図の多元性,及び
3)ショッピングセッションにおける行動(意図の切り替え)のインターリーブ
本稿では,前述の因子を明示的にモデル化する深部項目連想マイニングモデルであるneural pattern associator (npa)を提案する。
具体的には、ベクトル量子化にインスパイアされたNPAモデルは、共通のユーザ意図(またはアイテム結合パターン)を量子化表現(コードブック)として符号化することを学び、推論フェーズ中に注意駆動的なルックアップを通じてユーザのショッピング意図を識別する。
これによりコヒーレントで自己解釈可能なレコメンデーションが得られる。
提案したNPAモデルは,食品電子商取引(買い物バスケット完備)と音楽(プレイリスト拡張)の領域を包含する複数の広範囲なデータセットにまたがって評価した結果,NPAモデルは,複雑なユーザ意図を明示的にモデル化することのメリットを反映して,既存のWBRソリューションよりも大幅に優れていることが示された。 Within-basket recommendation (WBR) refers to the task of recommending items to the end of completing a non-empty shopping basket during a shopping session. While the latest innovations in this space demonstrate remarkable performance improvement on benchmark datasets, they often overlook the complexity of user behaviors in practice, such as 1) co-existence of multiple shopping intentions, 2) multi-granularity of such intentions, and 3) interleaving behavior (switching intentions) in a shopping session. This paper presents Neural Pattern Associator (NPA), a deep item-association-mining model that explicitly models the aforementioned factors. Specifically, inspired by vector quantization, the NPA model learns to encode common user intentions (or item-combination patterns) as quantized representations (a.k.a. codebook), which permits identification of users's shopping intentions via attention-driven lookup during the reasoning phase. This yields coherent and self-interpretable recommendations. We evaluated the proposed NPA model across multiple extensive datasets, encompassing the domains of grocery e-commerce (shopping basket completion) and music (playlist extension), where our quantitative evaluations show that the NPA model significantly outperforms a wide range of existing WBR solutions, reflecting the benefit of explicitly modeling complex user intentions. | 翻訳日:2024-02-04 05:37:24 公開日:2024-01-25 |
# オンライン広告における自己指導型事前学習による変換率予測の改善 Improving conversion rate prediction via self-supervised pre-training in online advertising ( http://arxiv.org/abs/2401.16432v1 ) ライセンス: Link先を確認 | Alex Shtoff, Yohay Kaplan, Ariel Raviv | (参考訳) コンバージョンレート(CVR)を予測するタスクは、広告主のパフォーマンス要求を満たすために入札を最適化することを目的としたオンライン広告システムの中心にある。
近年のディープニューラルネットワークの台頭にもかかわらず、これらの予測は、特に推論レイテンシが鍵となる商用環境では、ファクタライズマシン(FM)によって行われることが多い。
これらのモデルは、目の前のタスクに関連する過去のユーザアクティビティから形成されたラベル付き表データ上のロジスティック回帰フレームワークを使用してトレーニングされる。
多くの広告主はクリックアトリビュート変換だけを気にしている。
変換-given-clickを予測するトレーニングモデルにおける大きな課題は、データのスペーサ性にある - クリックは稀であり、クリックに起因する変換はさらに稀である。
しかし、トレーニングセットのキャリブレーションにクリック貢献しない変換を追加することで、スパーシリティを緩和する。
キャリブレーションは広告主の目標達成に不可欠であるため、実現不可能である。
本研究では,自己教師付き事前学習というよく知られたアイデアを用いて,CVR予測モデルを充実させる機能抽出器として,クリックアコメンテーションと非コンバージョンイベントの双方で訓練された補助オートエンコーダモデルを用いる。
主モデルは非クリック帰属変換を訓練しないため、校正が損なわれることはない。
グラフデータ用に設計された損失関数を使用し、オートエンコーダの安定性を確保して継続学習を容易にし、ニューラルネットワークを数千の広告をランク付けし、厳格なレイテンシ制約の下で、大きなエンジニアリングコストを伴わずに、大規模なリアルタイム広告オークションに組み込むことにより、基本的な自己指導型事前学習のアイデアをオンライン広告設定に適用する。
オフライン、トレーニング中、オンラインA/Bテストで改善を示す。
a/bテストの成功により、われわれのソリューションはyahooネイティブ広告システムに完全にデプロイされた。 The task of predicting conversion rates (CVR) lies at the heart of online advertising systems aiming to optimize bids to meet advertiser performance requirements. Even with the recent rise of deep neural networks, these predictions are often made by factorization machines (FM), especially in commercial settings where inference latency is key. These models are trained using the logistic regression framework on labeled tabular data formed from past user activity that is relevant to the task at hand. Many advertisers only care about click-attributed conversions. A major challenge in training models that predict conversions-given-clicks comes from data sparsity - clicks are rare, conversions attributed to clicks are even rarer. However, mitigating sparsity by adding conversions that are not click-attributed to the training set impairs model calibration. Since calibration is critical to achieving advertiser goals, this is infeasible. In this work we use the well-known idea of self-supervised pre-training, and use an auxiliary auto-encoder model trained on all conversion events, both click-attributed and not, as a feature extractor to enrich the main CVR prediction model. Since the main model does not train on non click-attributed conversions, this does not impair calibration. We adapt the basic self-supervised pre-training idea to our online advertising setup by using a loss function designed for tabular data, facilitating continual learning by ensuring auto-encoder stability, and incorporating a neural network into a large-scale real-time ad auction that ranks tens of thousands of ads, under strict latency constraints, and without incurring a major engineering cost. We show improvements both offline, during training, and in an online A/B test. Following its success in A/B tests, our solution is now fully deployed to the Yahoo native advertising system. | 翻訳日:2024-02-04 05:36:59 公開日:2024-01-25 |
# 分散連合学習: セキュリティとプライバシに関する調査 Decentralized Federated Learning: A Survey on Security and Privacy ( http://arxiv.org/abs/2401.17319v1 ) ライセンス: Link先を確認 | Ehsan Hallaji and Roozbeh Razavi-Far and Mehrdad Saif and Boyu Wang and Qiang Yang | (参考訳) フェデレーション学習は、プライバシ保護機能などによって、近年急速に進化し、人気が高まっている。
それでも、このアーキテクチャにおけるモデル更新と勾配の交換は、モデルのパフォーマンスとユーザおよびデータプライバシを脅かす可能性のある、悪意のあるネットワークユーザに対する新たな攻撃面を提供する。
この理由から、分散連合学習の主な動機の1つは、サーバーをネットワークから取り除き、ブロックチェーンのような技術で補償することで、サーバー関連の脅威を取り除くことである。
しかし、この利点は、新しいプライバシーの脅威でシステムに挑戦するコストにかかっている。
したがって、この新しいパラダイムで徹底的なセキュリティ分析を行う必要がある。
本調査は,分散連帯学習における脅威と敵意の変動の可能性を調査し,潜在的防衛メカニズムを概観する。
本研究は,分散化フェデレーション学習の信頼性と妥当性についても考察する。 Federated learning has been rapidly evolving and gaining popularity in recent years due to its privacy-preserving features, among other advantages. Nevertheless, the exchange of model updates and gradients in this architecture provides new attack surfaces for malicious users of the network which may jeopardize the model performance and user and data privacy. For this reason, one of the main motivations for decentralized federated learning is to eliminate server-related threats by removing the server from the network and compensating for it through technologies such as blockchain. However, this advantage comes at the cost of challenging the system with new privacy threats. Thus, performing a thorough security analysis in this new paradigm is necessary. This survey studies possible variations of threats and adversaries in decentralized federated learning and overviews the potential defense mechanisms. Trustability and verifiability of decentralized federated learning are also considered in this study. | 翻訳日:2024-02-04 05:20:19 公開日:2024-01-25 |
# 時間を無駄にするか?
知識グラフリンク予測のための高速かつ正確な性能評価フレームワーク Are We Wasting Time? A Fast, Accurate Performance Evaluation Framework for Knowledge Graph Link Predictors ( http://arxiv.org/abs/2402.00053v1 ) ライセンス: Link先を確認 | Filip Cornell, Yifei Jin, Jussi Karlgren, Sarunas Girdzijauskas | (参考訳) 知識グラフ補完手法の品質を測定するための標準評価プロトコル - グラフに付加される新しいリンクを推測するタスクは、知識グラフのすべてのエンティティをランク付けし、その適合度を候補リンクのヘッドまたはテールとして評価するステップを含む。
より大規模な知識グラフでは、このタスクは急速に重くなります。
以前のアプローチでは、予測または提案するリンクの品質を評価するためにエンティティのランダムサンプリングを使用することでこの問題を軽減する。
しかし,本手法では,評価基準が真の結果を適切に反映していないため,厳密な制約があることがわかった。
本稿では,これらの効果について,以下の知見とともに徹底的な分析を行う。
まず,ランダムにサンプリングする手法が評価性能を著しく過大評価する理由を実験的に発見し,理論的に動機付けする。
このことは, 難易度と難易度が負の候補に与える影響によるものと考えられる。
第2に,リレーショナルレコメンデータを用いた評価対象の選定を支援するフレームワークを提案する。
我々は、理論と経験的正当化の両方を提供し、単純で高速な手法が極めてうまく機能し、それらは高度な神経アプローチと一致することを見出します。
不動産の真の候補の大部分が欠落しても、見積もりはほとんど悪化しない。
提案手法では,ランダムサンプリング戦略と同様の時間と計算量を削減し,推定精度を大幅に向上させることが可能であり,ogbl-wikikg2では,フィルタ付きランキングの正確な推定を30分ではなく20秒で得ることができることを示した。
その結果、効果的な前処理とサンプリング手法によってかなりの計算労力を節約でき、ランキング手続き全体の真の性能を正確に予測できることがわかった。 The standard evaluation protocol for measuring the quality of Knowledge Graph Completion methods - the task of inferring new links to be added to a graph - typically involves a step which ranks every entity of a Knowledge Graph to assess their fit as a head or tail of a candidate link to be added. In Knowledge Graphs on a larger scale, this task rapidly becomes prohibitively heavy. Previous approaches mitigate this problem by using random sampling of entities to assess the quality of links predicted or suggested by a method. However, we show that this approach has serious limitations since the ranking metrics produced do not properly reflect true outcomes. In this paper, we present a thorough analysis of these effects along with the following findings. First, we empirically find and theoretically motivate why sampling uniformly at random vastly overestimates the ranking performance of a method. We show that this can be attributed to the effect of easy versus hard negative candidates. Second, we propose a framework that uses relational recommenders to guide the selection of candidates for evaluation. We provide both theoretical and empirical justification of our methodology, and find that simple and fast methods can work extremely well, and that they match advanced neural approaches. Even when a large portion of true candidates for a property are missed, the estimation barely deteriorates. With our proposed framework, we can reduce the time and computation needed similar to random sampling strategies while vastly improving the estimation; on ogbl-wikikg2, we show that accurate estimations of the full, filtered ranking can be obtained in 20 seconds instead of 30 minutes. We conclude that considerable computational effort can be saved by effective preprocessing and sampling methods and still reliably predict performance accurately of the true performance for the entire ranking procedure. | 翻訳日:2024-02-04 05:13:15 公開日:2024-01-25 |
# ゼロショット連続ニューロシンボリック推論によるアーキテクチャ設計の自動生成 Zero-shot Sequential Neuro-symbolic Reasoning for Automatically Generating Architecture Schematic Designs ( http://arxiv.org/abs/2402.00052v1 ) ライセンス: Link先を確認 | Milin Kodnongbua, Lawrence H. Curtis, Adriana Schulz | (参考訳) 本稿では,多家族不動産開発プロジェクト開始時の複雑な意思決定を合理化するためのアーキテクチャ設計を自動生成するシステムを提案する。
生成型ai(ニューロ推論)と数学的プログラムソルバ(シンボリック推論)の強みを組み合わせることで、この手法は専門家の洞察とアーキテクチャ設計における技術的な課題の両方に対処できる。
建物全体の設計に必要な設計決定の大規模かつ相互接続的な性質に対処するために,我々は,従来の設計プロセスを初期概念から詳細なレイアウトへエミュレートする,新しい逐次的ニューロシンボリック推論手法を提案する。
目的を近似するためにコスト関数を手作業で作成する必要をなくすため、我々は、神経推論を用いて、シンボリック・ソルバが解ける制約とコスト関数を生成するソリューションを提案する。
また、各設計段階でフィードバックループを組み込んで、神経とシンボリック推論の緊密な統合を確保します。
gpt-4を用いてさらなる訓練を行わずに開発し,実世界の建物との比較研究により,本手法の有効性を検証した。
本手法は, 建築設計の領域を変容させる可能性を示すとともに, 近所の理解に基づき, 様々な建築設計を生成できる。 This paper introduces a novel automated system for generating architecture schematic designs aimed at streamlining complex decision-making at the multifamily real estate development project's outset. Leveraging the combined strengths of generative AI (neuro reasoning) and mathematical program solvers (symbolic reasoning), the method addresses both the reliance on expert insights and technical challenges in architectural schematic design. To address the large-scale and interconnected nature of design decisions needed for designing a whole building, we proposed a novel sequential neuro-symbolic reasoning approach, emulating traditional architecture design processes from initial concept to detailed layout. To remove the need to hand-craft a cost function to approximate the desired objectives, we propose a solution that uses neuro reasoning to generate constraints and cost functions that the symbolic solvers can use to solve. We also incorporate feedback loops for each design stage to ensure a tight integration between neuro and symbolic reasoning. Developed using GPT-4 without further training, our method's effectiveness is validated through comparative studies with real-world buildings. Our method can generate various building designs in accordance with the understanding of the neighborhood, showcasing its potential to transform the realm of architectural schematic design. | 翻訳日:2024-02-04 05:12:45 公開日:2024-01-25 |
# ニューラル処理用ハードウェア加速器の設計と実装 Design and Implementation of Hardware Accelerators for Neural Processing Applications ( http://arxiv.org/abs/2402.00051v1 ) ライセンス: Link先を確認 | Shilpa Mayannavar and Uday Wali | (参考訳) この研究の主な動機は、ロボット・モーション・プランニングのためにAuto Resonance Network(ARN)と呼ばれる新しいANN構造のためのハードウェア・アクセラレーターを実装する必要性であった。
ARNはフィードフォワード階層的で説明可能なネットワークである。
さまざまなAIアプリケーションで使用できるが、アプリケーションベースは小さかった。
そのため、研究の目的は、ALNを使った新しいアプリケーションを開発することと、ARNのためのハードウェアアクセラレータを実装することである。
博士委員会が提案したように、ARNを用いた画像認識システムが実装されている。
ARNの2層だけで、およそ94%の精度が達成された。
ネットワークには、約500枚の画像からなる小さなトレーニングデータセットも必要だった。
この実験では、一般公開されたMNISTデータセットが使用された。
コーディングはすべてPythonで行われました。
ANNに見られる大規模な並列処理は、CPU設計にいくつかの課題を提示している。
与えられた機能、例えば乗算の場合、複数のシリアルモジュールのコピーは、パラレルモジュールと同じ領域内で実現することができる。
領域制約下での並列モジュールに対するシリアルモジュールの使用の有用性について論じる。
ANNでよく使われるモジュールの1つは、マルチオペランドの追加である。
その実装における1つの問題は、オペランド数の変化によるキャリービットの推定である。
マルチオペランド加算に必要なキャリービットの正確な数を計算する定理が、この問題を緩和する論文で提示されている。
マルチオペレーション付加に対するモジュラーアプローチの主な利点は、再設定オーバーヘッドの少ないパイプライン付加の可能性である。
これにより、多数の追加に対してスループットが全般的に向上し、通常はいくつかのDNN構成で見られるようになる。 Primary motivation for this work was the need to implement hardware accelerators for a newly proposed ANN structure called Auto Resonance Network (ARN) for robotic motion planning. ARN is an approximating feed-forward hierarchical and explainable network. It can be used in various AI applications but the application base was small. Therefore, the objective of the research was twofold: to develop a new application using ARN and to implement a hardware accelerator for ARN. As per the suggestions given by the Doctoral Committee, an image recognition system using ARN has been implemented. An accuracy of around 94% was achieved with only 2 layers of ARN. The network also required a small training data set of about 500 images. Publicly available MNIST dataset was used for this experiment. All the coding was done in Python. Massive parallelism seen in ANNs presents several challenges to CPU design. For a given functionality, e.g., multiplication, several copies of serial modules can be realized within the same area as a parallel module. Advantage of using serial modules compared to parallel modules under area constraints has been discussed. One of the module often useful in ANNs is a multi-operand addition. One problem in its implementation is that the estimation of carry bits when the number of operands changes. A theorem to calculate exact number of carry bits required for a multi-operand addition has been presented in the thesis which alleviates this problem. The main advantage of the modular approach to multi-operand addition is the possibility of pipelined addition with low reconfiguration overhead. This results in overall increase in throughput for large number of additions, typically seen in several DNN configurations. | 翻訳日:2024-02-04 05:12:22 公開日:2024-01-25 |
# prunesymnet:シンボリックニューラルネットワークおよびシンボリック回帰のためのプルーニングアルゴリズム PruneSymNet: A Symbolic Neural Network and Pruning Algorithm for Symbolic Regression ( http://arxiv.org/abs/2401.15103v1 ) ライセンス: Link先を確認 | Min Wu, Weijun Li, Lina Yu, Wenqiang Li, Jingyi Liu, Yanjie Li, Meilan Hao | (参考訳) 記号回帰は、データの理解と解釈をより良くするために、データから解釈可能な記号表現を導出することを目的としている。
%は知識発見と解釈可能な機械学習において重要な役割を担っている。
本研究では,記号回帰のためにPruneSymNetと呼ばれるシンボルネットワークを提案する。
これは、アクティベーション関数が共通の基本機能と演算子からなる新しいニューラルネットワークである。
ネットワーク全体は微分可能であり、勾配降下法で訓練することができる。
ネットワーク内の各サブネットワークは式に対応しており、我々の目標はそのようなサブネットワークを抽出して所望のシンボル表現を得ることである。
そのため,データフィッティングの精度を確保しつつ,ネットワークをサブネットワークにプルーピングするために,欲深いプルーニングアルゴリズムが提案されている。
提案したグリージープルーニングアルゴリズムは,各プルーニングにおいて最小損失のエッジを保持するが,グリージーアルゴリズムは最適解を得ることができないことが多い。
この問題を軽減するために,プルーニング中のビーム探索を組み合わせることで,複数の候補表現をそれぞれ取得し,最終結果として最小の損失で表現を選択する。
公開データセット上でテストされ、現在の一般的なアルゴリズムと比較された。
その結果,提案アルゴリズムの精度は向上した。 Symbolic regression aims to derive interpretable symbolic expressions from data in order to better understand and interpret data. %which plays an important role in knowledge discovery and interpretable machine learning. In this study, a symbolic network called PruneSymNet is proposed for symbolic regression. This is a novel neural network whose activation function consists of common elementary functions and operators. The whole network is differentiable and can be trained by gradient descent method. Each subnetwork in the network corresponds to an expression, and our goal is to extract such subnetworks to get the desired symbolic expression. Therefore, a greedy pruning algorithm is proposed to prune the network into a subnetwork while ensuring the accuracy of data fitting. The proposed greedy pruning algorithm preserves the edge with the least loss in each pruning, but greedy algorithm often can not get the optimal solution. In order to alleviate this problem, we combine beam search during pruning to obtain multiple candidate expressions each time, and finally select the expression with the smallest loss as the final result. It was tested on the public data set and compared with the current popular algorithms. The results showed that the proposed algorithm had better accuracy. | 翻訳日:2024-01-30 20:02:53 公開日:2024-01-25 |
# Hi-Core:継続的強化学習のための階層的知識伝達 Hi-Core: Hierarchical Knowledge Transfer for Continual Reinforcement Learning ( http://arxiv.org/abs/2401.15098v1 ) ライセンス: Link先を確認 | Chaofan Pan, Xin Yang, Hao Wang, Wei Wei, Tianrui Li | (参考訳) 継続的強化学習(CRL)は、RLエージェントに一連のタスクから学習し、以前の知識を保存し、それを活用して将来の学習を促進する能力を与える。
しかし、既存の手法は、人間の認知制御の階層構造を無視し、様々なタスク間での知識伝達が不十分になるような、類似のタスク間で低レベルな知識の伝達に焦点を当てることが多い。
高レベルの知識伝達を強化するために,2つの層からなるhi-core(hierarchical knowledge transfer for continual reinforcement learning)という新しいフレームワークを提案する。
1)大言語モデル(LLM)の強力な推論能力を利用して目標を設定する高レベルの政策定式化
2)高レベルの目標を指向したRLによる低レベルの政策学習。
さらに、階層的な知識伝達のために検索可能なポリシーを保持するために、知識基盤(政治図書館)を構築している。
MiniGridで実施された実験では、多種多様なCRLタスクの処理におけるHi-Coreの有効性が実証されており、一般的なベースラインを上回っている。 Continual reinforcement learning (CRL) empowers RL agents with the ability to learn from a sequence of tasks, preserving previous knowledge and leveraging it to facilitate future learning. However, existing methods often focus on transferring low-level knowledge across similar tasks, which neglects the hierarchical structure of human cognitive control, resulting in insufficient knowledge transfer across diverse tasks. To enhance high-level knowledge transfer, we propose a novel framework named Hi-Core (Hierarchical knowledge transfer for Continual reinforcement learning), which is structured in two layers: 1) the high-level policy formulation which utilizes the powerful reasoning ability of the Large Language Model (LLM) to set goals and 2) the low-level policy learning through RL which is oriented by high-level goals. Moreover, the knowledge base (policy library) is constructed to store policies that can be retrieved for hierarchical knowledge transfer. Experiments conducted in MiniGrid have demonstrated the effectiveness of Hi-Core in handling diverse CRL tasks, outperforming popular baselines. | 翻訳日:2024-01-30 20:02:35 公開日:2024-01-25 |
# 複雑なアノテーションによる効率的なオンラインクラウドソーシング Efficient Online Crowdsourcing with Complex Annotations ( http://arxiv.org/abs/2401.15116v1 ) ライセンス: Link先を確認 | Reshef Meir, Viet-An Nguyen, Xu Chen, Jagdish Ramakrishnan, Udi Weinsberg | (参考訳) クラウドソーシングプラットフォームは、さまざまな真実発見アルゴリズムを使用して、複数のラベルからのアノテーションを集約する。
しかし、オンライン環境では、集約されたアノテーションの品質のためにコスト(つまり、アノテーションの数)を効率的にトレードオフするために、各項目により多くのアノテーションを求めるかどうかを決めることが主な課題である。
本稿では,オンラインのクラウドソーシング環境で機能する,一般的な複雑なアノテーション(バウンディングボックスや分類パスなど)に対する新しいアプローチを提案する。
ラベルの予測平均類似性は,報告されたラベル上でのemph{ Conditional}の精度で線形であることを示す。
これにより、報告されたラベルの精度を幅広いシナリオで推測できる。
metaから実世界のクラウドソーシングデータを広範囲に評価し、提案するオンラインアルゴリズムがコスト品質のトレードオフを改善する効果を示す。 Crowdsourcing platforms use various truth discovery algorithms to aggregate annotations from multiple labelers. In an online setting, however, the main challenge is to decide whether to ask for more annotations for each item to efficiently trade off cost (i.e., the number of annotations) for quality of the aggregated annotations. In this paper, we propose a novel approach for general complex annotation (such as bounding boxes and taxonomy paths), that works in an online crowdsourcing setting. We prove that the expected average similarity of a labeler is linear in their accuracy \emph{conditional on the reported label}. This enables us to infer reported label accuracy in a broad range of scenarios. We conduct extensive evaluations on real-world crowdsourcing data from Meta and show the effectiveness of our proposed online algorithms in improving the cost-quality trade-off. | 翻訳日:2024-01-30 19:49:11 公開日:2024-01-25 |
# 深層学習とオープンアース観測データを用いたグローバル氷河マッピングに向けて Towards Global Glacier Mapping with Deep Learning and Open Earth Observation Data ( http://arxiv.org/abs/2401.15113v1 ) ライセンス: Link先を確認 | Konstantin A. Maslov and Claudio Persello and Thomas Schellenberger and Alfred Stein | (参考訳) 正確な世界氷河マッピングは気候変動の影響を理解するために重要である。
氷河の多様性、破片の分類が難しいこと、ビッグデータ処理に悩まされている。
本稿では,glacier-visiontransformer-u-net (glavitu),畳み込み変換型深層学習モデル,オープン衛星画像を用いた多時期的グローバルスケール氷河マッピングのための5つの戦略を提案する。
空間的, 時間的, クロスセンサーの一般化を評価することで, 従来観測されていなかった画像に対して, 我々の最善策は >0.85 の団結を達成し, 高山アジアなどの破片の多い地域では >0.75 まで低下し, クリーンアイスが支配する地域では >0.90 まで上昇することを示す。
さらに、合成開口レーダデータ、すなわち後方散乱と干渉コヒーレンスを追加することで、利用可能なすべての領域の精度が向上する。
氷河の度合いの調整された信頼性が報告され、予測はより信頼性が高く解釈可能である。
また、世界中の氷河の9%をカバーするベンチマークデータセットもリリースしました。
本研究は, 自動多時期・グローバル氷河マッピングへの取り組みを支援する。 Accurate global glacier mapping is critical for understanding climate change impacts. It is challenged by glacier diversity, difficult-to-classify debris and big data processing. Here we propose Glacier-VisionTransformer-U-Net (GlaViTU), a convolutional-transformer deep learning model, and five strategies for multitemporal global-scale glacier mapping using open satellite imagery. Assessing the spatial, temporal and cross-sensor generalisation shows that our best strategy achieves intersection over union >0.85 on previously unobserved images in most cases, which drops to >0.75 for debris-rich areas such as High-Mountain Asia and increases to >0.90 for regions dominated by clean ice. Additionally, adding synthetic aperture radar data, namely, backscatter and interferometric coherence, increases the accuracy in all regions where available. The calibrated confidence for glacier extents is reported making the predictions more reliable and interpretable. We also release a benchmark dataset that covers 9% of glaciers worldwide. Our results support efforts towards automated multitemporal and global glacier mapping. | 翻訳日:2024-01-30 19:48:59 公開日:2024-01-25 |
# コントラスト学習による胸部X線自動診断の公正性向上 Improving Fairness of Automated Chest X-ray Diagnosis by Contrastive Learning ( http://arxiv.org/abs/2401.15111v1 ) ライセンス: Link先を確認 | Mingquan Lin, Tianhao Li, Zhaoyi Sun, Gregory Holste, Ying Ding, Fei Wang, George Shih, Yifan Peng | (参考訳) 目的: 放射線領域におけるモデルフェアネスに取り組むための具体的な方法やアプローチを探求する限られた研究。
提案するaiモデルは,cxr診断におけるバイアスを最小限に抑えるために教師付きコントラスト学習を用いる。
資料と方法:本回顧研究では,2023年4月20日現在27,796例の医療画像およびデータ資源センター(midrc)データセットと,1992年から2015年にかけて収集された30,805例の112,120 cxr画像を用いたnih胸部x線(nih-cxr)データセットの2つのデータセットについて検討した。
nih-cxrデータセットでは、胸腔の異常はatelectasis、cardiomegaly、effusion、浸透、質量、結節、肺炎、気胸、圧密、浮腫、気腫、線維症、胸膜肥厚、またはヘルニアである。
提案手法は,胸部X線(CXR)診断におけるバイアスを低減するために,教師付きコントラスト学習と,慎重に選択された正および負のサンプルを用いて公正な画像埋め込みを生成する。
本手法を限界auc差分($\delta$ mauc)を用いて評価した。
結果: 提案モデルでは, 対t-test (p<0.0001) で示されるように, ベースラインモデルと比較すると, 全サブグループで有意な偏りがみられた。
本法により得られた$\delta$ mAUCは,性別・人種・年齢は0.0116 (95\% CI, 0.0110-0.0123), 0.2102 (95% CI, 0.2087-0.2118), 0.1000 (95\% CI, 0.0988-0.1011), 性は0.0090 (95\% CI, 0.0082-0.0097) , NIH-CXRでは0.0512 (95% CI, 0.0512-0.0532) であった。
結論: 教師付きコントラスト学習を用いることは,CXR診断におけるバイアスを軽減し,深層学習に基づく診断手法における公平性と信頼性の懸念に対処する。 Purpose: Limited studies exploring concrete methods or approaches to tackle and enhance model fairness in the radiology domain. Our proposed AI model utilizes supervised contrastive learning to minimize bias in CXR diagnosis. Materials and Methods: In this retrospective study, we evaluated our proposed method on two datasets: the Medical Imaging and Data Resource Center (MIDRC) dataset with 77,887 CXR images from 27,796 patients collected as of April 20, 2023 for COVID-19 diagnosis, and the NIH Chest X-ray (NIH-CXR) dataset with 112,120 CXR images from 30,805 patients collected between 1992 and 2015. In the NIH-CXR dataset, thoracic abnormalities include atelectasis, cardiomegaly, effusion, infiltration, mass, nodule, pneumonia, pneumothorax, consolidation, edema, emphysema, fibrosis, pleural thickening, or hernia. Our proposed method utilizes supervised contrastive learning with carefully selected positive and negative samples to generate fair image embeddings, which are fine-tuned for subsequent tasks to reduce bias in chest X-ray (CXR) diagnosis. We evaluated the methods using the marginal AUC difference ($\delta$ mAUC). Results: The proposed model showed a significant decrease in bias across all subgroups when compared to the baseline models, as evidenced by a paired T-test (p<0.0001). The $\delta$ mAUC obtained by our method were 0.0116 (95\% CI, 0.0110-0.0123), 0.2102 (95% CI, 0.2087-0.2118), and 0.1000 (95\% CI, 0.0988-0.1011) for sex, race, and age on MIDRC, and 0.0090 (95\% CI, 0.0082-0.0097) for sex and 0.0512 (95% CI, 0.0512-0.0532) for age on NIH-CXR, respectively. Conclusion: Employing supervised contrastive learning can mitigate bias in CXR diagnosis, addressing concerns of fairness and reliability in deep learning-based diagnostic methods. | 翻訳日:2024-01-30 19:48:38 公開日:2024-01-25 |
# シュレーディンガーの波動力学における波動関数の崩壊 Collapse of wave functions in Schroedinger's wave mechanics ( http://arxiv.org/abs/2401.15110v1 ) ライセンス: Link先を確認 | Rainer Dick | (参考訳) 非弾性散乱は、シュレーディンガー方程式を通した標準進化における波動関数の崩壊につながることを示す。
崩壊の操作的な定義は、非弾性散乱における創発波関数の初期幅は、主に参加散乱中心の大きさによって決定されるが、入射波関数の幅によって決定されるわけではない。
しかし、非弾性散乱による崩壊は量子力学のボルン則を置き換えることはできないが、測定問題のより簡潔な定式化につながることも指摘した。 We show that inelastic scattering can lead to a collapse of the wave function within standard evolution through the Schroedinger equation. The operational definition of collapse only requires that the initial width of the emerging wave function in inelastic scattering is primarily determined by the size of the participating scattering center, but not by the width of the incoming wave function. However, we also point out that collapse through inelastic scattering cannot replace the Born rule in quantum mechanics, but it leads to a more concise formulation of the measurement problem. | 翻訳日:2024-01-30 19:47:46 公開日:2024-01-25 |
# 集団超知能を目指して:会話群を用いたグループIQの増幅 Towards Collective Superintelligence: Amplifying Group IQ using Conversational Swarms ( http://arxiv.org/abs/2401.15109v1 ) ライセンス: Link先を確認 | Louis Rosenberg, Gregg Willcox, Hans Schumann, and Ganesh Mani | (参考訳) 群知能(swarm intelligence, si)は、生物群が複合知性を増幅する自然現象である。
人工知能(Artificial Swarm Intelligence、またはSwarm AI)は、ネットワーク化された人間グループが、類似したシステムを形成することで、統合されたインテリジェンスを増幅することを可能にする技術である。
過去には、Swarmベースの手法は確率予測や複数選択決定といった狭義のタスクに制約されていた。
2023年、会話型集団知能(csi)と呼ばれる新しい技術が開発された。
最近の研究では、csiプラットフォームを用いてraven's advanced progressive matrices(rapm)と呼ばれる共通のiqテストを行うリアルタイムグループの性能を評価した。
まず、参加者のベースライングループが伝統的な調査でRavenのIQテストを受けました。
このグループの平均値は45.6%だった。
その後、約35人の被験者がThinkscapeと呼ばれるCSIプラットフォームを使用してIQテストの質問に答えた。
平均80.5%の正解率であった。
これは、csi群をiqテストテイカーの97パーセントに配置し、有効iq増加率28ポイント(p<0.001)に対応する。
これは有望な結果であり、CSIは大規模ネットワークグループにおける対話的集団知性を実現する強力な方法であることを示している。
加えて、csiはあらゆるサイズのグループにまたがってスケーラブルであるため、この技術は集団的な超知能を構築するための有効な経路を提供するかもしれない。 Swarm Intelligence (SI) is a natural phenomenon that enables biological groups to amplify their combined intellect by forming real-time systems. Artificial Swarm Intelligence (or Swarm AI) is a technology that enables networked human groups to amplify their combined intelligence by forming similar systems. In the past, swarm-based methods were constrained to narrowly defined tasks like probabilistic forecasting and multiple-choice decision making. A new technology called Conversational Swarm Intelligence (CSI) was developed in 2023 that amplifies the decision-making accuracy of networked human groups through natural conversational deliberations. The current study evaluated the ability of real-time groups using a CSI platform to take a common IQ test known as Raven's Advanced Progressive Matrices (RAPM). First, a baseline group of participants took the Raven's IQ test by traditional survey. This group averaged 45.6% correct. Then, groups of approximately 35 individuals answered IQ test questions together using a CSI platform called Thinkscape. These groups averaged 80.5% correct. This places the CSI groups in the 97th percentile of IQ test-takers and corresponds to an effective IQ increase of 28 points (p<0.001). This is an encouraging result and suggests that CSI is a powerful method for enabling conversational collective intelligence in large, networked groups. In addition, because CSI is scalable across groups of potentially any size, this technology may provide a viable pathway to building a Collective Superintelligence. | 翻訳日:2024-01-30 19:47:36 公開日:2024-01-25 |
# 高速充電電気自動車ハブによる動的価格設定のためのマルチエージェント深部強化学習 Multi-agent Deep Reinforcement Learning for Dynamic Pricing by Fast-charging Electric Vehicle Hubs in ccompetition ( http://arxiv.org/abs/2401.15108v1 ) ライセンス: Link先を確認 | Diwas Paudel, Tapas K. Das | (参考訳) 電気自動車の高速充電ハブは、世界中の輸送電化のために新しく建設されたインフラの一部になる。
これらのハブは、多くのDC高速充電ステーションをホストし、充電のみのEVを許可する予定である。
ガソリン再給油ステーションのように、近所の高速充電ハブは価格を動的に変化させ、同じev所有者のプールと競う。
これらのハブは、日頭(DA)電力市場における電力需要のかなりの部分の購入を約束し、リアルタイム(RT)市場との違いを満たすことで、電力ネットワークと相互作用する。
ハブには補充バッテリーストレージシステム(BSS)があり、それを仲裁に使用する。
本稿では,価格競争におけるハブの2段階データ駆動動的価格決定手法を開発した。
まず,確率的DAコミットメントモデルを解くことで,DAコミットメントを得る。
その後,競争的マルコフ決定過程 (CMDP) としてゲームをモデル化し,マルチエージェント深部強化学習 (MADRL) アプローチを用いてこれを解くことにより,ハブ価格戦略を得る。
2つの充電ハブ間の価格設定ゲームのための数値ケーススタディを開発した。
dqnとsacという2つの異なるdrlアルゴリズムと、2つの異なるニューラルネットワーク(nn)アーキテクチャ、フィードフォワード(ff)ニューラルネットワーク、マルチヘッドアテンション(mha)ニューラルネットワークの組み合わせを用いて、この手法を用いてケーススタディを解決した。
ハブ利益を用いた共謀(インデックス)尺度を構築した。
この指数に対する0の値は結束(完全競合)を示しず、1の値は完全な結束(独占的行動)を示す。
この結果から,アルゴリズムとハブが選択したアーキテクチャの組み合わせによって,約0.14~0.45の相関指数が変化することがわかった。 Fast-charging hubs for electric vehicles will soon become part of the newly built infrastructure for transportation electrification across the world. These hubs are expected to host many DC fast-charging stations and will admit EVs only for charging. Like the gasoline refueling stations, fast-charging hubs in a neighborhood will dynamically vary their prices to compete for the same pool of EV owners. These hubs will interact with the electric power network by making purchase commitments for a significant part of their power needs in the day-ahead (DA) electricity market and meeting the difference from the real-time (RT) market. Hubs may have supplemental battery storage systems (BSS), which they will use for arbitrage. In this paper, we develop a two-step data-driven dynamic pricing methodology for hubs in price competition. We first obtain the DA commitment by solving a stochastic DA commitment model. Thereafter we obtain the hub pricing strategies by modeling the game as a competitive Markov decision process (CMDP) and solving it using a multi-agent deep reinforcement learning (MADRL) approach. We develop a numerical case study for a pricing game between two charging hubs. We solve the case study with our methodology by using combinations of two different DRL algorithms, DQN and SAC, and two different neural networks (NN) architectures, a feed-forward (FF) neural network, and a multi-head attention (MHA) neural network. We construct a measure of collusion (index) using the hub profits. A value of zero for this index indicates no collusion (perfect competition) and a value of one indicates full collusion (monopolistic behavior). Our results show that the collusion index varies approximately between 0.14 and 0.45 depending on the combinations of the algorithms and the architectures chosen by the hubs. | 翻訳日:2024-01-30 19:47:10 公開日:2024-01-25 |
# リー群上のニューラルネットワークによるSE(3)上の最適電位整形 Optimal Potential Shaping on SE(3) via Neural ODEs on Lie Groups ( http://arxiv.org/abs/2401.15107v1 ) ライセンス: Link先を確認 | Yannik P. Wotte, Federico Califano, Stefano Stramigioli | (参考訳) 本稿では,有限次元リー群上の動的システムの最適化のための新しい手法を提案する。
我々は、力学系をいわゆるニューラル常微分方程式 (neural ODEs) と表現し、リー群上の最適化問題を定式化する。
勾配降下最適化アルゴリズムを提案し,最適化を数値的に解く。
我々のアルゴリズムはスケーラブルであり、行列リー群を含む任意の有限次元リー群に適用できる。
リー代数レベルでシステムを表現することにより、勾配計算の計算コストを削減できる。
広範な例では、剛体を制御するための最適ポテンシャルエネルギー形状が扱われる。
最適制御問題は、リー群SE(3)上のニューラルODEの最適化として表現され、コントローラは反復的に最適化される。
最後のコントローラは状態規制タスクで検証される。 This work presents a novel approach for the optimization of dynamic systems on finite-dimensional Lie groups. We rephrase dynamic systems as so-called neural ordinary differential equations (neural ODEs), and formulate the optimization problem on Lie groups. A gradient descent optimization algorithm is presented to tackle the optimization numerically. Our algorithm is scalable, and applicable to any finite dimensional Lie group, including matrix Lie groups. By representing the system at the Lie algebra level, we reduce the computational cost of the gradient computation. In an extensive example, optimal potential energy shaping for control of a rigid body is treated. The optimal control problem is phrased as an optimization of a neural ODE on the Lie group SE(3), and the controller is iteratively optimized. The final controller is validated on a state-regulation task. | 翻訳日:2024-01-30 19:46:39 公開日:2024-01-25 |
# 人間の意思決定を評価する実験のための決定論的基礎 Decision Theoretic Foundations for Experiments Evaluating Human Decisions ( http://arxiv.org/abs/2401.15106v1 ) ライセンス: Link先を確認 | Jessica Hullman, Alex Kale, Jason Hartline | (参考訳) 情報ディスプレイによる意思決定は、説明可能なAI、人間とAIのコラボレーション、データ視覚化といった分野における研究の重要な焦点である。
しかし、決定問題を構成するものや、人間の決定に何らかの欠陥があることを結論付ける実験に何が必要かは、憶測の余地がある。
本稿では,統計決定理論と情報経済学から合成された決定問題の広く適用可能な定義を提案する。
我々は、人間のパフォーマンスの損失をバイアスの形で評価するためには、合理的なエージェントが規範的決定を識別する必要があるという情報を参加者に提供する必要があると論じる。
本稿では,ai支援意思決定に関する文献から,近年の意思決定評価の程度を評価する。
偏見のある行動の特定を主張する35の研究のうち6(17\%)は、その行動が良い意思決定から逸脱していると特徴づける十分な情報を持っている。
我々は、よく定義された意思決定問題を研究することの価値を、彼らが認識できるパフォーマンス損失の特徴を説明することによって動機づける。
対照的に、疎結合な決定問題の曖昧さは規範的な解釈を妨げる。
私たちは練習の推奨で締めくくる。 Decision-making with information displays is a key focus of research in areas like explainable AI, human-AI teaming, and data visualization. However, what constitutes a decision problem, and what is required for an experiment to be capable of concluding that human decisions are flawed in some way, remain open to speculation. We present a widely applicable definition of a decision problem synthesized from statistical decision theory and information economics. We argue that to attribute loss in human performance to forms of bias, an experiment must provide participants with the information that a rational agent would need to identify the normative decision. We evaluate the extent to which recent evaluations of decision-making from the literature on AI-assisted decisions achieve this criteria. We find that only 6 (17\%) of 35 studies that claim to identify biased behavior present participants with sufficient information to characterize their behavior as deviating from good decision-making. We motivate the value of studying well-defined decision problems by describing a characterization of performance losses they allow us to conceive. In contrast, the ambiguities of a poorly communicated decision problem preclude normative interpretation. We conclude with recommendations for practice. | 翻訳日:2024-01-30 19:46:19 公開日:2024-01-25 |
# 超解像リモートセンシング画像における雲除去のための拡散促進 Diffusion Enhancement for Cloud Removal in Ultra-Resolution Remote Sensing Imagery ( http://arxiv.org/abs/2401.15105v1 ) ライセンス: Link先を確認 | Jialu Sui, Yiyang Ma, Wenhan Yang, Xiaokang Zhang, Man-On Pun and Jiaying Liu | (参考訳) 雲層の存在は、光学リモートセンシング(RS)画像の品質と効果を著しく損なう。
しかし、既存のディープラーニング(DL)ベースのクラウド除去(CR)技術は、元の視覚的正当性と画像の詳細なセマンティック内容の正確な再構築に苦慮している。
この課題に対処するため、この研究はデータと方法論の面での強化を包括することを提案する。
データ側では、0.5m空間解像度のCUHKクラウド除去(CUHK-CR)と呼ばれる超高解像度のベンチマークが確立されている。
このベンチマークには、詳細なテクスチャと多様なクラウドカバレッジが含まれており、crモデルの設計と評価のための堅牢な基盤となっている。
方法論の観点からは,拡散強調 (de) と呼ばれる新しい拡散ベースcrフレームワークを提案し, プログレッシブテクスチャディテールリカバリを行い, 推定精度の向上によりトレーニング難易度を軽減した。
さらに、特に超高解像度画像生成において、特徴融合の重みを動的に調整し、さらに性能を向上させるために、ウェイトアロケーション(WA)ネットワークを開発した。
さらに,超高解像度画像の処理に要する計算複雑性を低減しつつ,トレーニング収束を効果的に行うために,粗大なトレーニング戦略を適用した。
新たに確立されたCUHK-CRと、RICEなどの既存のデータセットに関する広範な実験により、提案されたDECフレームワークは、知覚品質と信号忠実性の両方の観点から、既存のDLベースの手法よりも優れていることを確認した。 The presence of cloud layers severely compromises the quality and effectiveness of optical remote sensing (RS) images. However, existing deep-learning (DL)-based Cloud Removal (CR) techniques encounter difficulties in accurately reconstructing the original visual authenticity and detailed semantic content of the images. To tackle this challenge, this work proposes to encompass enhancements at the data and methodology fronts. On the data side, an ultra-resolution benchmark named CUHK Cloud Removal (CUHK-CR) of 0.5m spatial resolution is established. This benchmark incorporates rich detailed textures and diverse cloud coverage, serving as a robust foundation for designing and assessing CR models. From the methodology perspective, a novel diffusion-based framework for CR called Diffusion Enhancement (DE) is proposed to perform progressive texture detail recovery, which mitigates the training difficulty with improved inference accuracy. Additionally, a Weight Allocation (WA) network is developed to dynamically adjust the weights for feature fusion, thereby further improving performance, particularly in the context of ultra-resolution image generation. Furthermore, a coarse-to-fine training strategy is applied to effectively expedite training convergence while reducing the computational complexity required to handle ultra-resolution images. Extensive experiments on the newly established CUHK-CR and existing datasets such as RICE confirm that the proposed DE framework outperforms existing DL-based methods in terms of both perceptual quality and signal fidelity. | 翻訳日:2024-01-30 19:45:46 公開日:2024-01-25 |
# 非べき半環に対する最短文字列復号法 A* shortest string decoding for non-idempotent semirings ( http://arxiv.org/abs/2204.07236v2 ) ライセンス: Link先を確認 | Kyle Gorman and Cyril Allauzen | (参考訳) 単一最短経路アルゴリズムは、最短経路の存在を保証しないため、非等方半環上の重み付き有限状態オートマトンに対して未定義である。
しかし、単調条件を満たす順序(プラス時間やログ半環など)を許容する非イデミネーション半環では、最短弦の概念はよく定義される。
本稿では,同値な決定論的オートマトン(DFA)の後方最短距離を用いて,重み付き非決定論的オートマトンに対する最短文字列を求めるアルゴリズムについて述べる。
DFAには指数関数的に多くの状態が存在するかもしれないが、このアルゴリズムは、決定が「オンザフライ」で実行される場合、少数の状態のみにアクセスする必要がある。 The single shortest path algorithm is undefined for weighted finite-state automata over non-idempotent semirings because such semirings do not guarantee the existence of a shortest path. However, in non-idempotent semirings admitting an order satisfying a monotonicity condition (such as the plus-times or log semirings), the notion of shortest string is well-defined. We describe an algorithm which finds the shortest string for a weighted non-deterministic automaton over such semirings using the backwards shortest distance of an equivalent deterministic automaton (DFA) as a heuristic for A* search performed over a companion idempotent semiring, which is proven to return the shortest string. While there may be exponentially more states in the DFA, this algorithm needs to visit only a small fraction of them if determinization is performed "on the fly". | 翻訳日:2024-01-29 18:58:17 公開日:2024-01-25 |
# 左利きジョセフソン伝送線路を用いた自己位相整合ブロードバンド増幅 Self phase-matched broadband amplification with a left-handed Josephson transmission line ( http://arxiv.org/abs/2201.04660v2 ) ライセンス: Link先を確認 | C. Kow, V. Podolskiy, A. Kamal | (参考訳) Josephson Traveling Wave Parametric Amplifiers (J-TWPAs) はマイクロ波信号のブロードバンド量子制限増幅を実現するための有望なプラットフォームである。
しかし、そのようなシステムの実質的な利得は、信号、アイドラー、ポンプ波の位相マッチングに関する厳密な制約が満たされている場合にのみ達成可能であり、伝播信号の強度にスケールする自己位相変調やクロス位相変調のような非線形効果の存在下では特に困難である。
本稿では,複雑な回路や分散工学を必要とせずに,その設計に固有の位相マッチングを有する,'左利き'(負インデックス)非線形ジョセフソンメタマテリアルに基づく,単純なJ-TWPA設計を提案する。
4波混合プロセスの結果としての効率は、従来の実装よりもはるかに短い数GHz帯域で20dBを超えるゲインを実現できる。
さらに、位相マッチングの自律性は'右利き'(正のインデックス)ジョセフソンメタマテリアルに基づく従来の実装よりも大幅に単純化され、提案アーキテクチャは特に製造の観点から魅力的である。
ここで導入された左利きJTLは、分散ジョセフソン回路における新しいモダリティを構成し、ブロードバンドマイクロ波増幅器の最適設計と動作を知らせるために使用できる統一フレームワークの重要な部分を形成する。 Josephson Traveling Wave Parametric Amplifiers (J-TWPAs) are promising platforms for realizing broadband quantum-limited amplification of microwave signals. However, substantial gain in such systems is attainable only when strict constraints on phase matching of the signal, idler and pump waves are satisfied -- this is rendered particularly challenging in the presence of nonlinear effects, such as self- and cross-phase modulation, which scale with the intensity of propagating signals. In this work, we present a simple J-TWPA design based on `left-handed' (negative-index) nonlinear Josephson metamaterial, which has phase matching native to its design precluding the need for any complicated circuit or dispersion engineering. The resultant efficiency of four-wave mixing process can implement gains in excess of 20 dB over few GHz bandwidths with much shorter lines than previous implementations. Furthermore, the autonomous nature of phase matching considerably simplifies the J-TWPA design than previous implementations based on `right-handed' (positive index) Josephson metamaterials, making the proposed architecture particularly appealing from a fabrication perspective. The left-handed JTL introduced here constitutes a new modality in distributed Josephson circuits, and forms a crucial piece of the unified framework that can be used to inform the optimal design and operation of broadband microwave amplifiers. | 翻訳日:2024-01-29 18:56:38 公開日:2024-01-25 |
# 非線形回帰水平制御の安定性について:幾何学的視点 On the Stability of Nonlinear Receding Horizon Control: A Geometric Perspective ( http://arxiv.org/abs/2103.15010v3 ) ライセンス: Link先を確認 | Tyler Westenbroek, Max Simchowitz, Michael I. Jordan, S. Shankar Sastry | (参考訳) %!
TEX root = LCSS_main_max.tex 産業における非線形回帰水平制御(RHC)戦略の普及により、これらの手法の安定性を保証するための30年以上の研究努力が続けられている。
しかし、現在の理論的な保証では、各(一般的には非凸な)計画問題を(概ね)大域的最適性に解くことが必要であり、これはrhcの実用的実装で一般的に用いられる微分型局所最適化法に対する非現実的な要件である。
本稿では,一階定常点に対して内部計画問題を解く際に,非線形rhcの安定性保証を理解するための第一歩を踏み出す。
フィードバック線形化システムには特に注意が払われ、正と負の混合結果が提供される。
強条件下では、rhc に対する一階解が指数関数的に安定化する。
驚くべきことに、これらの条件は \textit{spurious local minima が存在する場合でさえ保持できる。
重要なことは、この保証は、計画問題に適用される状態コストが、システムのグローバルな幾何学と「相容れない」意味にあることを必要とし、単純な逆例は、この条件の必要性を示している。
これらの結果は、最適化に基づく制御の文脈におけるグローバルジオメトリの役割を再考する必要性を浮き彫りにする。 %!TEX root = LCSS_main_max.tex The widespread adoption of nonlinear Receding Horizon Control (RHC) strategies by industry has led to more than 30 years of intense research efforts to provide stability guarantees for these methods. However, current theoretical guarantees require that each (generally nonconvex) planning problem can be solved to (approximate) global optimality, which is an unrealistic requirement for the derivative-based local optimization methods generally used in practical implementations of RHC. This paper takes the first step towards understanding stability guarantees for nonlinear RHC when the inner planning problem is solved to first-order stationary points, but not necessarily global optima. Special attention is given to feedback linearizable systems, and a mixture of positive and negative results are provided. We establish that, under certain strong conditions, first-order solutions to RHC exponentially stabilize linearizable systems. Surprisingly, these conditions can hold even in situations where there may be \textit{spurious local minima.} Crucially, this guarantee requires that state costs applied to the planning problems are in a certain sense `compatible' with the global geometry of the system, and a simple counter-example demonstrates the necessity of this condition. These results highlight the need to rethink the role of global geometry in the context of optimization-based control. | 翻訳日:2024-01-29 18:55:03 公開日:2024-01-25 |
# 二元積分布に対する多項式時間、純粋微分プライベート推定器 A Polynomial Time, Pure Differentially Private Estimator for Binary Product Distributions ( http://arxiv.org/abs/2304.06787v4 ) ライセンス: Link先を確認 | Vikrant Singhal | (参考訳) 我々は,全変数距離で正確に$\{0,1\}^d$ の積分布平均を推定する最初の$\varepsilon$-differentially private, computationally efficientアルゴリズムを提案する。
以前の作業では、この問題をより弱いプライバシー概念の下で効率的かつ最適に解決するか、指数的な実行時間を持ちながら最適に解決していた。 We present the first $\varepsilon$-differentially private, computationally efficient algorithm that estimates the means of product distributions over $\{0,1\}^d$ accurately in total-variation distance, whilst attaining the optimal sample complexity to within polylogarithmic factors. The prior work had either solved this problem efficiently and optimally under weaker notions of privacy, or had solved it optimally while having exponential running times. | 翻訳日:2024-01-29 18:49:03 公開日:2024-01-25 |
# 未知のカテゴリとカメラポーズを用いた少数視点物体再構成 Few-View Object Reconstruction with Unknown Categories and Camera Poses ( http://arxiv.org/abs/2212.04492v3 ) ライセンス: Link先を確認 | Hanwen Jiang, Zhenyu Jiang, Kristen Grauman and Yuke Zhu | (参考訳) 近年では物体の復元が大きな進歩を遂げているが、現在の手法では一般的に高密度に撮影された画像やカメラのポーズが必要となる。
本研究は,自然界におけるオブジェクトの再構築に向けて,カメラのポーズやオブジェクトのカテゴリを知らない少数の画像から,一般的な現実世界のオブジェクトを再構築する。
私たちの研究の要点は、統一されたアプローチで2つの基本的な3D視覚問題(形状再構成とポーズ推定)を解決することです。
信頼性の高いカメラポーズ推定は正確な形状再構成を生じさせ、正確な再構成は異なる視点間のロバストな対応を誘発し、ポーズ推定を促進する。
提案手法は,各視点から3次元特徴を予測し,入力画像と連動して,相対カメラポーズ推定のためのクロスビュー対応を確立する。
3D特徴は、推定されたポーズによって共有空間に変換され、神経放射場に融合される。
復元結果はボリュームレンダリング技術によってレンダリングされ、3次元形状のグラウンドトルースを使わずにモデルを訓練することができる。
実験の結果,forgeは5つの視点から確実にオブジェクトを再構築できることがわかった。
ポーズ推定法は既存のものよりも大きなマージンで優れている。
予測されたポーズによる再構成結果は,接地姿勢と同等である。
新たなテストカテゴリのパフォーマンスは、トレーニング中に見られるカテゴリの結果にマッチする。
プロジェクトページ: https://ut-austin-rpl.github.io/forge/ While object reconstruction has made great strides in recent years, current methods typically require densely captured images and/or known camera poses, and generalize poorly to novel object categories. To step toward object reconstruction in the wild, this work explores reconstructing general real-world objects from a few images without known camera poses or object categories. The crux of our work is solving two fundamental 3D vision problems -- shape reconstruction and pose estimation -- in a unified approach. Our approach captures the synergies of these two problems: reliable camera pose estimation gives rise to accurate shape reconstruction, and the accurate reconstruction, in turn, induces robust correspondence between different views and facilitates pose estimation. Our method FORGE predicts 3D features from each view and leverages them in conjunction with the input images to establish cross-view correspondence for estimating relative camera poses. The 3D features are then transformed by the estimated poses into a shared space and are fused into a neural radiance field. The reconstruction results are rendered by volume rendering techniques, enabling us to train the model without 3D shape ground-truth. Our experiments show that FORGE reliably reconstructs objects from five views. Our pose estimation method outperforms existing ones by a large margin. The reconstruction results under predicted poses are comparable to the ones using ground-truth poses. The performance on novel testing categories matches the results on categories seen during training. Project page: https://ut-austin-rpl.github.io/FORGE/ | 翻訳日:2024-01-29 18:44:40 公開日:2024-01-25 |
# MicroSegNet: マイクロ超音波画像における前立腺分割の深層学習手法 MicroSegNet: A Deep Learning Approach for Prostate Segmentation on Micro-Ultrasound Images ( http://arxiv.org/abs/2305.19956v3 ) ライセンス: Link先を確認 | Hongxu Jiang, Muhammad Imran, Preethika Muralidharan, Anjali Patel, Jake Pensa, Muxuan Liang, Tarik Benidir, Joseph R. Grajo, Jason P. Joseph, Russell Terry, John Michael DiBianco, Li-Ming Su, Yuyin Zhou, Wayne G. Brisbane, and Wei Shao | (参考訳) micro-ultrasound (micro-us) は、従来の超音波より3-4倍高い解像度を提供し、前立腺癌の低コストで正確な診断を可能にする新しい29mhz超音波技術である。
正確な前立腺分画は前立腺体積測定、がん診断、前立腺生検、治療計画に不可欠である。
しかし, 前立腺, 膀胱, 尿道間の境界が不明瞭なため, マイクロusの前立腺分画は困難である。
本稿では,これらの課題に対処するために設計されたマルチスケールアノテーション誘導変換器UNetモデルであるMicroSegNetを提案する。
トレーニングプロセスでは、microsegnetは、専門家と非専門家のアノテーションの相違を特徴とする、(ハードな領域)セグメンテーションが難しい領域にフォーカスしている。
我々は、ハード領域における予測誤差に重みを割り当て、容易領域における予測誤差に低重みを割り当てるアノテーション誘導二元交叉エントロピー(AG-BCE)損失を提案する。
AG-BCEの損失は、マルチスケールの深層監視を利用することで、トレーニングプロセスにシームレスに統合され、MicroSegNetはグローバルなコンテキスト依存やローカル情報をさまざまなスケールでキャプチャできるようになりました。
55例のmicro-US画像を用いてモデルを訓練し,20例の評価を行った。
我々のMicroSegNetモデルはDice係数0.939とHausdorff距離2.02mmを達成し、いくつかの最先端セグメンテーション法、および経験レベルの異なる3つのアノテータを上回りました。
私たちのコードはhttps://github.com/mirthAI/MicroSegNetで公開されており、データセットはhttps://zenodo.org/records/10475293で公開されています。 Micro-ultrasound (micro-US) is a novel 29-MHz ultrasound technique that provides 3-4 times higher resolution than traditional ultrasound, potentially enabling low-cost, accurate diagnosis of prostate cancer. Accurate prostate segmentation is crucial for prostate volume measurement, cancer diagnosis, prostate biopsy, and treatment planning. However, prostate segmentation on micro-US is challenging due to artifacts and indistinct borders between the prostate, bladder, and urethra in the midline. This paper presents MicroSegNet, a multi-scale annotation-guided transformer UNet model designed specifically to tackle these challenges. During the training process, MicroSegNet focuses more on regions that are hard to segment (hard regions), characterized by discrepancies between expert and non-expert annotations. We achieve this by proposing an annotation-guided binary cross entropy (AG-BCE) loss that assigns a larger weight to prediction errors in hard regions and a lower weight to prediction errors in easy regions. The AG-BCE loss was seamlessly integrated into the training process through the utilization of multi-scale deep supervision, enabling MicroSegNet to capture global contextual dependencies and local information at various scales. We trained our model using micro-US images from 55 patients, followed by evaluation on 20 patients. Our MicroSegNet model achieved a Dice coefficient of 0.939 and a Hausdorff distance of 2.02 mm, outperforming several state-of-the-art segmentation methods, as well as three human annotators with different experience levels. Our code is publicly available at https://github.com/mirthAI/MicroSegNet and our dataset is publicly available at https://zenodo.org/records/10475293. | 翻訳日:2024-01-29 18:37:24 公開日:2024-01-25 |
# Sasha: 大規模言語モデルを備えたスマートホームにおける目標指向推論 Sasha: Creative Goal-Oriented Reasoning in Smart Homes with Large Language Models ( http://arxiv.org/abs/2305.09802v3 ) ライセンス: Link先を確認 | Evan King, Haoxiang Yu, Sangsu Lee, Christine Julien | (参考訳) スマートホームアシスタントは、ユーザーコマンドが直接的でよく特定されたとき(例えば「キッチンライトをオン」)、またはハードコードされたルーチンが応答を指定するときに最もよく機能する。
しかし、より自然なコミュニケーションでは、人間のスピーチは訓練されていないため、特定のターゲットデバイスやそれらのデバイスで実行するアクションを示すのではなく、目標(例えば「ここを快適にする」や「省エネを手助けする」など)を記述することが多い。
現在のシステムは、人間の状況に関連するデバイスや設定を推論できないため、これらの未特定コマンドを理解できない。
我々は,この問題空間に大規模言語モデル(LLM)を導入し,スマートホームにおける不特定ユーザコマンドへの対応として,デバイス制御と自動化ルーチン作成の活用を探求する。
LLMによるアクションプランのベースライン品質と障害モードを年齢差ユーザを対象に実証研究を行った。
LLMは創造的に挑戦的な目標を達成することができるが、その有用性を損なうような失敗のパターンを経験する。
スマートホームアシスタントのSashaでは、これらのギャップに対処しています。
sashaは、例えば利用可能なデバイスで気分を設定する、自動化ルーチンを開発するなど、ユーザの目標を達成するための計画を実行することで、ゆるやかに制約されたコマンドに応答する。
我々は,制約のないユーザ生成シナリオに直面した際にllm駆動のスマートホームの能力と限界を示す,ハンズオンユーザスタディで sasha を実装し,評価する。 Smart home assistants function best when user commands are direct and well-specified (e.g., "turn on the kitchen light"), or when a hard-coded routine specifies the response. In more natural communication, however, human speech is unconstrained, often describing goals (e.g., "make it cozy in here" or "help me save energy") rather than indicating specific target devices and actions to take on those devices. Current systems fail to understand these under-specified commands since they cannot reason about devices and settings as they relate to human situations. We introduce large language models (LLMs) to this problem space, exploring their use for controlling devices and creating automation routines in response to under-specified user commands in smart homes. We empirically study the baseline quality and failure modes of LLM-created action plans with a survey of age-diverse users. We find that LLMs can reason creatively to achieve challenging goals, but they experience patterns of failure that diminish their usefulness. We address these gaps with Sasha, a smarter smart home assistant. Sasha responds to loosely-constrained commands like "make it cozy" or "help me sleep better" by executing plans to achieve user goals, e.g., setting a mood with available devices, or devising automation routines. We implement and evaluate Sasha in a hands-on user study, showing the capabilities and limitations of LLM-driven smart homes when faced with unconstrained user-generated scenarios. | 翻訳日:2024-01-29 18:35:47 公開日:2024-01-25 |
# シャドウベース核殻モデルのための量子部分空間アルゴリズム Shadow-based quantum subspace algorithm for the nuclear shell model ( http://arxiv.org/abs/2306.08885v3 ) ライセンス: Link先を確認 | Ruyu Yang, Tianren Wang, Bing-Nan Lu, Ying Li, and Xiaosi Xu | (参考訳) 近年,様々な分野におけるノイズの多い中間規模量子(NISQ)計算の応用が研究されている。
量子計算が古典的コンピュータより優れている重要な領域の1つは、核のような多体系の基底状態問題である。
しかし、NISQ時代に量子コンピュータを使って意味のあるスケールのシステムを解くことは依然として困難である。
原子核系の基底エネルギーを計算するために,古典影と部分空間対角化技術を組み合わせた新しいアルゴリズムを提案する。
我々の部分空間は行列で構成され、部分空間の基礎は量子状態の古典的な影である。
我々はCohen-KurathシェルモデルとUSDシェルモデルによって記述された核上で,我々のアルゴリズムをテストする。
ハイゼンベルクのスケーリングにより,ショット数の増加に伴い,結果の精度が向上することが判明した。 In recent years, researchers have been exploring the applications of noisy intermediate-scale quantum (NISQ) computation in various fields. One important area in which quantum computation can outperform classical computers is the ground state problem of a many-body system, e.g., the nucleus. However, using a quantum computer in the NISQ era to solve a meaningful-scale system remains a challenge. To calculate the ground energy of nuclear systems, we propose a new algorithm that combines classical shadow and subspace diagonalization techniques. Our subspace is composed of matrices, with the basis of the subspace being the classical shadow of the quantum state. We test our algorithm on nuclei described by Cohen-Kurath shell model and USD shell model. We find that the accuracy of the results improves as the number of shots increases, following the Heisenberg scaling. | 翻訳日:2024-01-29 18:23:22 公開日:2024-01-25 |
# ゼロショット教育へ向けて Toward Zero-Shot Instruction Following ( http://arxiv.org/abs/2308.03795v2 ) ライセンス: Link先を確認 | Renze Lou, Wenpeng Yin | (参考訳) 本研究は,ゼロショット型タスク定義の存在を前提として,ゼロショット型タスク定義の存在を前提として,ゼロショット型タスク一般化のためのより現実的な設定を提案する。
定義からタスク監督をより良く学ぶために、我々は2つの戦略を提案する: まず、定義のクリティカルな文を自動的に見つけ出す; 第二に、これらの重要な部分が強調されたときに、モデルにより高い確率で金の出力を生成するように強制するランキングの目的。
2つの戦略の共同作業は、超自然教育における最先端のパフォーマンスをもたらす。
コードはgithubから入手できます。 This work proposes a challenging yet more realistic setting for zero-shot cross-task generalization: zero-shot instruction following, presuming the existence of a paragraph-style task definition while no demonstrations exist. To better learn the task supervision from the definition, we propose two strategies: first, to automatically find out the critical sentences in the definition; second, a ranking objective to force the model to generate the gold outputs with higher probabilities when those critical parts are highlighted in the definition. The joint efforts of the two strategies yield state-of-the-art performance on the Super-NaturalInstructions. Our code is available on GitHub. | 翻訳日:2024-01-29 18:12:37 公開日:2024-01-25 |
# MeetEval: 会議記述システムのための単語誤り率計算用ツールキット MeetEval: A Toolkit for Computation of Word Error Rates for Meeting Transcription Systems ( http://arxiv.org/abs/2307.11394v3 ) ライセンス: Link先を確認 | Thilo von Neumann, Christoph Boeddeker, Marc Delcroix, Reinhold Haeb-Umbach | (参考訳) meetevalは、あらゆる種類の会議転写システムを評価するためのオープンソースのツールキットである。
一般に使われているWord Error Rates(WER)、特にcpWER、ORC-WER、MIMO-WERの計算のための統一インターフェースを提供する。
我々は,時間的制約によってcpwer計算を拡張し,時間的アライメントが妥当な場合にのみ単語が正しいと認識されるようにする。
これにより、仮説文字列と実際の書き起こし品質によりよく似た参照文字列とのマッチングの品質が向上し、時間が不足している場合にペナルティが課される。
単語レベルのタイミング情報はしばしば入手できないため、セグメントレベルのタイミング(例えば文)から正確な単語レベルのタイミングを近似する方法を示し、その近似が正確な単語レベルのアノテーションと一致したWERにつながることを示す。
同時に、時間制約はマッチングアルゴリズムの高速化につながるため、タイムスタンプの処理によるオーバーヘッドが増大する。 MeetEval is an open-source toolkit to evaluate all kinds of meeting transcription systems. It provides a unified interface for the computation of commonly used Word Error Rates (WERs), specifically cpWER, ORC-WER and MIMO-WER along other WER definitions. We extend the cpWER computation by a temporal constraint to ensure that only words are identified as correct when the temporal alignment is plausible. This leads to a better quality of the matching of the hypothesis string to the reference string that more closely resembles the actual transcription quality, and a system is penalized if it provides poor time annotations. Since word-level timing information is often not available, we present a way to approximate exact word-level timings from segment-level timings (e.g., a sentence) and show that the approximation leads to a similar WER as a matching with exact word-level annotations. At the same time, the time constraint leads to a speedup of the matching algorithm, which outweighs the additional overhead caused by processing the time stamps. | 翻訳日:2024-01-29 18:12:12 公開日:2024-01-25 |
# 時間不変リレーショナル知識によるハイパーリレーショナル時間知識グラフのリンク予測 Exploring Link Prediction over Hyper-Relational Temporal Knowledge Graphs Enhanced with Time-Invariant Relational Knowledge ( http://arxiv.org/abs/2307.10219v2 ) ライセンス: Link先を確認 | Zifeng Ding, Jingcheng Wu, Jingpei Wu, Yan Xia, Volker Tresp | (参考訳) ハイパーリレーショナルKG(HKG)に対するグラフ推論の研究への関心が高まっている。
従来の知識グラフ (kgs) と比較すると、hkg は各 kg 事実に対する修飾子 (key-value pair) という形で追加の事実情報を導入する。
一方、世界知識の進化を続ける性質から、時間的KG(TKG)推論の研究が盛んである。
各TKG事実は、その時間の有効性を示すタイムスタンプ(または時間周期)と結合したKG事実と見なすことができる。
既存のhkg推論アプローチは、以前のベンチマークデータセットで明示的に指定されていないため、時間情報を考慮していない。
さらに、伝統的なtkg推論法は時間的推論にのみ焦点をあて、修飾子から学ぶ方法がない。
この目的のために、我々はTKGとHKGの推論のギャップを埋めることを目指している。
Wiki-hy と YAGO-hy という2つのベンチマークハイパーリレーショナル TKG (HTKG) データセットを開発し,時間的事実と等式の両方を効率的にモデル化するHTKG推論モデルを提案する。
我々はさらに,HTKG推論を改善するために,Wikidataナレッジベースから追加の時間不変リレーショナル知識を活用する。
時間不変な関係知識は、時間的に変化しない知識である(例えば、サシャ・オバマはバラク・オバマの子である)。
実験結果から,HTKGリンクの予測性能が向上し,時間的および時間的不変な関係知識を両立させることにより,拡張可能であることが示された。 There has been an increasing interest in studying graph reasoning over hyper-relational KGs (HKGs). Compared with traditional knowledge graphs (KGs), HKGs introduce additional factual information in the form of qualifiers (key-value pairs) for each KG fact that helps to better restrict the fact validity. Meanwhile, due to the ever-evolving nature of world knowledge, extensive parallel works have been studying temporal KG (TKG) reasoning. Each TKG fact can be viewed as a KG fact coupled with a timestamp (or time period) specifying its time validity. The existing HKG reasoning approaches do not consider temporal information because it is not explicitly specified in previous benchmark datasets. Besides, traditional TKG reasoning methods only focus on temporal reasoning and have no way to learn from qualifiers. To this end, we aim to fill the gap between TKG and HKG reasoning. We develop two new benchmark hyper-relational TKG (HTKG) datasets, i.e., Wiki-hy and YAGO-hy, and propose an HTKG reasoning model that efficiently models both temporal facts and qualifiers. We further exploit additional time-invariant relational knowledge from the Wikidata knowledge base to improve HTKG reasoning. Time-invariant relational knowledge serves as the knowledge that remains unchanged in time (e.g., Sasha Obama is the child of Barack Obama). Experimental results show that our model achieves strong performance on HTKG link prediction and can be enhanced by jointly leveraging both temporal and time-invariant relational knowledge. | 翻訳日:2024-01-29 18:11:53 公開日:2024-01-25 |
# 野生におけるデータセットアノテーションの品質管理の分析 Analyzing Dataset Annotation Quality Management in the Wild ( http://arxiv.org/abs/2307.08153v3 ) ライセンス: Link先を確認 | Jan-Christoph Klie, Richard Eckart de Castilho, Iryna Gurevych | (参考訳) データ品質は、正確で偏りのない、信頼できる機械学習モデルをトレーニングするだけでなく、正しい評価のためにも重要です。
しかし、最近の研究では、最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アーティファクトの量を含むことが示されている。
データセット作成プロジェクトに関するプラクティスやガイドラインは存在するが、私たちの知る限り、自然言語データセットを作成する際の品質管理の実施方法や、これらの推奨事項に従うかどうかについて、大規模な分析はまだ行われていない。
そこで本論文では,まず,データセット作成のための推奨品質管理プラクティスを概説し,適用するための提案を行う。
次に,テキストデータセットを導入した591の学術出版物のコーパスをコンパイルし,アノテータ管理やアノテータ管理,合意,判断,データ検証などの品質関連側面に注釈を付ける。
次に,これらのアノテーションを用いて品質管理の実施方法を分析する。
注釈付き出版物の大半は優れた品質管理を施している。
しかし、作品の30\%の努力は副次的なものであると考えます。
また,アノテーション間の一致やアノテーションの誤り率の計算では,一般的な誤りも見られる。 Data quality is crucial for training accurate, unbiased, and trustworthy machine learning models as well as for their correct evaluation. Recent works, however, have shown that even popular datasets used to train and evaluate state-of-the-art models contain a non-negligible amount of erroneous annotations, biases, or artifacts. While practices and guidelines regarding dataset creation projects exist, to our knowledge, large-scale analysis has yet to be performed on how quality management is conducted when creating natural language datasets and whether these recommendations are followed. Therefore, we first survey and summarize recommended quality management practices for dataset creation as described in the literature and provide suggestions for applying them. Then, we compile a corpus of 591 scientific publications introducing text datasets and annotate it for quality-related aspects, such as annotator management, agreement, adjudication, or data validation. Using these annotations, we then analyze how quality management is conducted in practice. A majority of the annotated publications apply good or excellent quality management. However, we deem the effort of 30\% of the works as only subpar. Our analysis also shows common errors, especially when using inter-annotator agreement and computing annotation error rates. | 翻訳日:2024-01-29 18:10:34 公開日:2024-01-25 |
# 因果推論:次世代AI-Native Wireless Networkの革命的コースをグラフ化する Causal Reasoning: Charting a Revolutionary Course for Next-Generation AI-Native Wireless Networks ( http://arxiv.org/abs/2309.13223v2 ) ライセンス: Link先を確認 | Christo Kurisummoottil Thomas, Christina Chaccour, Walid Saad, Merouane Debbah and Choong Seon Hong | (参考訳) 次世代無線ネットワーク(例えば6G)が人工知能(AI)ネイティブであるという基本的な前提にもかかわらず、既存の「無線用AI」パラダイムへの定性的または漸進的な拡張は依然として残っている。
実際、AIネイティブな無線ネットワークを作ることは、データ駆動のトレーニング集約型AIの限界のために、重要な技術的課題に直面している。
これらの制限には、aiモデルのブラックボックスの性質、推論と適応の能力を制限する曲線適合性、大量のトレーニングデータへの依存、大規模ニューラルネットワークのエネルギー効率の非効率などが含まれる。
これらの制限に対応するために、この記事では、AIネイティブな無線ネットワークを構築するための新しいフレームワークを導入することで、これらの欠点に対処する包括的で先進的なビジョンを提示します。
因果的発見、因果的表現学習、因果的推論に基づく因果的推論は、説明可能で合理的で持続可能なワイヤレスネットワークを構築するのに役立つ。
このビジョンの実現に向けて、我々はまず、テラヘルツ(THz)システムのための超信頼性ビームフォーミング、ディジタル双生児のためのほぼ正確な物理双対モデリング、トレーニングデータ拡張、セマンティックコミュニケーションなど、因果発見と表現によって対処できるいくつかの無線ネットワーク課題を強調した。
これらの課題に対処する上で,因果的発見が動的適応性,レジリエンス,認知を達成する上でどのように役立つかを紹介する。
さらに,意図管理や動的適応性,人間レベルの認識,推論,時間感受性の重要な要素など,次世代ネットワークの包括的な目標を達成するために因果推論を利用する潜在的なフレームワークについて概説する。 Despite the basic premise that next-generation wireless networks (e.g., 6G) will be artificial intelligence (AI)-native, to date, most existing efforts remain either qualitative or incremental extensions to existing "AI for wireless" paradigms. Indeed, creating AI-native wireless networks faces significant technical challenges due to the limitations of data-driven, training-intensive AI. These limitations include the black-box nature of the AI models, their curve-fitting nature, which can limit their ability to reason and adapt, their reliance on large amounts of training data, and the energy inefficiency of large neural networks. In response to these limitations, this article presents a comprehensive, forward-looking vision that addresses these shortcomings by introducing a novel framework for building AI-native wireless networks; grounded in the emerging field of causal reasoning. Causal reasoning, founded on causal discovery, causal representation learning, and causal inference, can help build explainable, reasoning-aware, and sustainable wireless networks. Towards fulfilling this vision, we first highlight several wireless networking challenges that can be addressed by causal discovery and representation, including ultra-reliable beamforming for terahertz (THz) systems, near-accurate physical twin modeling for digital twins, training data augmentation, and semantic communication. We showcase how incorporating causal discovery can assist in achieving dynamic adaptability, resilience, and cognition in addressing these challenges. Furthermore, we outline potential frameworks that leverage causal inference to achieve the overarching objectives of future-generation networks, including intent management, dynamic adaptability, human-level cognition, reasoning, and the critical element of time sensitivity. | 翻訳日:2024-01-29 18:01:48 公開日:2024-01-25 |
# 最小二乗、正則化、古典影の関連について On the connection between least squares, regularization, and classical shadows ( http://arxiv.org/abs/2310.16921v2 ) ライセンス: Link先を確認 | Zhihui Zhu, Joseph M. Lukens, Brian T. Kirby | (参考訳) 古典的なシャドウ(cs)は、徹底的な状態トモグラフィの必要性を回避し、量子観測量の推定に資源効率のよい手段を提供する。
本稿では,CS技術と最小二乗法(LS)と,機械学習やデータ解析によく用いられる正則最小二乗法(RLS)の関連性を明らかにする。
LS と RLS の形式的同定により、LS と RLS の「陰影」は完全にCS のものと類似しており、すなわち、単一測定の経験的な周波数から計算された点推定器は、LS と CS の両方を、未決定状態の正則化器と見なすことができ、偽逆を可逆的な代替品に置き換えることができる。
数値シミュレーションにより, RLS と CS は, バイアスと分散のトレードオフ, 期待値と実測値のミスマッチ, 計測数と撮影数との相互作用の3つの異なる角度から評価した。
CSと比較して、RSSはバイアスを犠牲にして低い分散を実現し、分散ミスマッチに対して堅牢であり、一定の数の状態コピーのショット数に敏感である。
概念的には,ls,rls,csの一体化は,cs技術の全体像を前進させる上での「シャドー」傘支援であり,実際の結果は,これらの測定手法に固有のトレードオフを浮き彫りにして,前者や未バイアス推定者に対する検証不能なランダム性など,rlとcsのどちらが好ましいかという条件を照らしている。 Classical shadows (CS) offer a resource-efficient means to estimate quantum observables, circumventing the need for exhaustive state tomography. Here, we clarify and explore the connection between CS techniques and least squares (LS) and regularized least squares (RLS) methods commonly used in machine learning and data analysis. By formal identification of LS and RLS "shadows" completely analogous to those in CS -- namely, point estimators calculated from the empirical frequencies of single measurements -- we show that both RLS and CS can be viewed as regularizers for the underdetermined regime, replacing the pseudoinverse with invertible alternatives. Through numerical simulations, we evaluate RLS and CS from three distinct angles: the tradeoff in bias and variance, mismatch between the expected and actual measurement distributions, and the interplay between the number of measurements and number of shots per measurement. Compared to CS, RLS attains lower variance at the expense of bias, is robust to distribution mismatch, and is more sensitive to the number of shots for a fixed number of state copies -- differences that can be understood from the distinct approaches taken to regularization. Conceptually, our integration of LS, RLS, and CS under a unifying "shadow" umbrella aids in advancing the overall picture of CS techniques, while practically our results highlight the tradeoffs intrinsic to these measurement approaches, illuminating the circumstances under which either RLS or CS would be preferred, such as unverified randomness for the former or unbiased estimation for the latter. | 翻訳日:2024-01-29 17:49:58 公開日:2024-01-25 |
# 推薦のための大規模言語モデルによる表現学習 Representation Learning with Large Language Models for Recommendation ( http://arxiv.org/abs/2310.15950v3 ) ライセンス: Link先を確認 | Xubin Ren, Wei Wei, Lianghao Xia, Lixin Su, Suqi Cheng, Junfeng Wang, Dawei Yin, Chao Huang | (参考訳) レコメンダシステムは、ディープラーニングとグラフニューラルネットワークの影響、特に複雑なユーザとテーマの関係を捉えることで大きな進歩を遂げている。
しかし、これらのグラフベースのレコメンデータは、IDベースのデータに大きく依存しており、ユーザやアイテムに関連する貴重なテキスト情報を無視する可能性がある。
さらに、暗黙的なフィードバックデータの利用は潜在的なノイズとバイアスを導入し、ユーザの嗜好学習の有効性に挑戦する。
大規模言語モデル(LLM)を従来のIDベースのレコメンダに統合することは注目されているが、スケーラビリティの問題、テキストのみ依存の制限、実用的なレコメンダシステムにおける効果的な実装のためには入力制約に対処する必要がある。
これらの課題に対処するため,LLMを用いた表現学習により既存のレコメンデータを強化することを目的としたモデルに依存しないフレームワーク RLMRec を提案する。
ユーザ行動や嗜好の複雑な意味的側面を捉えるために,表現学習とLLMを統合したレコメンデーションパラダイムを提案する。
RLMRecには補助的なテキスト信号が組み込まれており、LLMによって強化されたユーザ/イテムプロファイリングのパラダイムが開発されており、LLMのセマンティック空間と協調的な関係信号の表現空間を、クロスビューアライメントフレームワークを通じて整列する。
この研究はさらに、相互情報最大化によるテキスト信号の統合が表現の質を高めることを実証する理論的基礎を確立する。
本評価では,rlmrecを最先端のレコメンダモデルに統合するとともに,ノイズデータに対する効率性とロバスト性を分析する。
実装コードはhttps://github.com/hkuds/rlmrecで利用可能です。 Recommender systems have seen significant advancements with the influence of deep learning and graph neural networks, particularly in capturing complex user-item relationships. However, these graph-based recommenders heavily depend on ID-based data, potentially disregarding valuable textual information associated with users and items, resulting in less informative learned representations. Moreover, the utilization of implicit feedback data introduces potential noise and bias, posing challenges for the effectiveness of user preference learning. While the integration of large language models (LLMs) into traditional ID-based recommenders has gained attention, challenges such as scalability issues, limitations in text-only reliance, and prompt input constraints need to be addressed for effective implementation in practical recommender systems. To address these challenges, we propose a model-agnostic framework RLMRec that aims to enhance existing recommenders with LLM-empowered representation learning. It proposes a recommendation paradigm that integrates representation learning with LLMs to capture intricate semantic aspects of user behaviors and preferences. RLMRec incorporates auxiliary textual signals, develops a user/item profiling paradigm empowered by LLMs, and aligns the semantic space of LLMs with the representation space of collaborative relational signals through a cross-view alignment framework. This work further establish a theoretical foundation demonstrating that incorporating textual signals through mutual information maximization enhances the quality of representations. In our evaluation, we integrate RLMRec with state-of-the-art recommender models, while also analyzing its efficiency and robustness to noise data. Our implementation codes are available at https://github.com/HKUDS/RLMRec. | 翻訳日:2024-01-29 17:49:22 公開日:2024-01-25 |
# レーダーによる最大垂直速度の機械学習推定 Machine Learning Estimation of Maximum Vertical Velocity from Radar ( http://arxiv.org/abs/2310.09392v2 ) ライセンス: Link先を確認 | Randy J. Chase, Amy McGovern, Cameron Homeyer, Peter Marinescu, Corey Potvin | (参考訳) ストームアップドラフトの定量化は、対流に固有の重要性とそれに伴う深刻な気象災害にもかかわらず、運用上の予測には利用できないままである。
衛星画像からトップエリアをオーバーシューティングするようなアップドラフトプロキシは、深刻な気象災害に関係しているが、ストームアップドラフト全体の限られた部分にのみ関係している。
本研究では,3次元格子型レーダの反射率のみから,機械学習モデル,すなわちU-Netsが最大垂直速度とそのアレー範囲を巧みに取得できるかどうかを検討する。
機械学習モデルは、national severe storm laboratoryのconvection allown on forecast system (wofs) からシミュレートされたレーダー反射率と垂直速度を用いて訓練される。
sinh-arcsinh正規分布を用いたパラメトリック回帰手法は、U-Netsで実行するために適応され、最大垂直速度の決定論的および確率的予測が可能である。
ハイパーパラメータ探索後の最良のモデルでは、WoFSデータからなる独立テストセット上で50%以下のルート平均二乗誤差、0.65以上の決定係数、および0.45以上の結合(IoU)が与えられた。
wofs解析以外にも,実レーダデータとそれに対応するスーパーセル内の垂直速度のデュアルドップラー解析を用いてケーススタディを行った。
u-netは、dual-doppler updraftの速度推定を一貫して50$\%$で過小評価している。
一方、5と10m s^-1のアップドラフトコアの面積は0.25のIoUである。
上記の統計は例外ではないが、機械学習モデルは、嵐の深刻なポテンシャルを評価するのに役立つ最大垂直速度に関連する3dレーダーデータの迅速な蒸留を可能にする。 The quantification of storm updrafts remains unavailable for operational forecasting despite their inherent importance to convection and its associated severe weather hazards. Updraft proxies, like overshooting top area from satellite images, have been linked to severe weather hazards but only relate to a limited portion of the total storm updraft. This study investigates if a machine learning model, namely U-Nets, can skillfully retrieve maximum vertical velocity and its areal extent from 3-dimensional gridded radar reflectivity alone. The machine learning model is trained using simulated radar reflectivity and vertical velocity from the National Severe Storm Laboratory's convection permitting Warn on Forecast System (WoFS). A parametric regression technique using the sinh-arcsinh-normal distribution is adapted to run with U-Nets, allowing for both deterministic and probabilistic predictions of maximum vertical velocity. The best models after hyperparameter search provided less than 50% root mean squared error, a coefficient of determination greater than 0.65 and an intersection over union (IoU) of more than 0.45 on the independent test set composed of WoFS data. Beyond the WoFS analysis, a case study was conducted using real radar data and corresponding dual-Doppler analyses of vertical velocity within a supercell. The U-Net consistently underestimates the dual-Doppler updraft speed estimates by 50$\%$. Meanwhile, the area of the 5 and 10 m s^-1 updraft cores show an IoU of 0.25. While the above statistics are not exceptional, the machine learning model enables quick distillation of 3D radar data that is related to the maximum vertical velocity which could be useful in assessing a storm's severe potential. | 翻訳日:2024-01-29 17:48:11 公開日:2024-01-25 |
# アクシオン検出用トランスモン量子ビットチップの設計とシミュレーション Design and simulation of a transmon qubit chip for Axion detection ( http://arxiv.org/abs/2310.05238v2 ) ライセンス: Link先を確認 | Roberto Moretti, Herv\`e Ats\`e Corti, Danilo Labranca, Felix Ahrens, Guerino Avallone, Danilo Babusci, Leonardo Banchi, Carlo Barone, Matteo Mario Beretta, Matteo Borghesi, Bruno Buonomo, Enrico Calore, Giovanni Carapella, Fabio Chiarello, Alessandro Cian, Alessando Cidronali, Filippo Costa, Alessandro Cuccoli, Alessandro D'Elia, Daniele Di Gioacchino, Stefano Di Pascoli, Paolo Falferi, Marco Fanciulli, Marco Faverzani, Giulietto Felici, Elena Ferri, Giovanni Filatrella, Luca Gennaro Foggetta, Claudio Gatti, Andrea Giachero, Francesco Giazotto, Damiano Giubertoni, Veronica Granata, Claudio Guarcello, Gianluca Lamanna, Carlo Ligi, Giovanni Maccarrone, Massimo Macucci, Giuliano Manara, Federica Mantegazzini, Paolo Marconcini, Benno Margesin, Francesco Mattioli, Andrea Miola, Angelo Nucciotti, Luca Origo, Sergio Pagano, Federico Paolucci, Luca Piersanti, Alessio Rettaroli, Stefano Sanguinetti, Sebastiano Fabio Schifano, Paolo Spagnolo, Simone Tocci, Alessandra Toncelli, Guido Torrioli, Andrea Vinante | (参考訳) 量子センシング(Quantum Sensing)は、ダークマター(ダークマター)の探索として基礎物理学に応用されている分野である。
超伝導量子ビットに基づくデバイスは、量子非劣化測定(QND)による数GHzの単一光子の検出にすでに成功している。
この技術により、AxionsやDark Photons検索などの高精度マイクロ波光子検出に基づく実験において、感度の向上と暗カウント率の大幅な抑制を実現することができる。
この文脈において、infn qub-itプロジェクトの目的は、qndを軸探索実験の強化に活用する超伝導量子ビットに基づく単光子カウンタを実現することである。
そこで本研究では,Qub-ITによる最初の超伝導量子ビットデバイスの実現,設計とシミュレーションの手順,および試作用コプラナー導波管共振器(CPW)の特性について述べる。
対象の量子ビットパラメータを照合し、集中要素モデルと分散要素モデルの間の数パーセントのレベルアグリーメントを評価する。
最大内部品質係数は-92 dbmオンチップ読み出し電力で9.2x10^5に達する。 Quantum Sensing is a rapidly expanding research field that finds one of its applications in Fundamental Physics, as the search for Dark Matter. Devices based on superconducting qubits have already been successfully applied in detecting few-GHz single photons via Quantum Non-Demolition measurement (QND). This technique allows us to perform repeatable measurements, bringing remarkable sensitivity improvements and dark count rate suppression in experiments based on high-precision microwave photon detection, such as for Axions and Dark Photons search. In this context, the INFN Qub-IT project goal is to realize an itinerant single-photon counter based on superconducting qubits that will exploit QND for enhancing Axion search experiments. In this study, we present Qub-IT's status towards the realization of its first superconducting qubit device, illustrating design and simulation procedures and the characterization of fabricated Coplanar Waveguide Resonators (CPWs) for readout. We match target qubit parameters and assess a few-percent level agreement between lumped and distributed element simulation models. We reach a maximum internal quality factor of 9.2x10^5 for -92 dBm on-chip readout power. | 翻訳日:2024-01-29 17:46:37 公開日:2024-01-25 |
# ZX計算における量子回路の因果流保存最適化 Causal flow preserving optimisation of quantum circuits in the ZX-calculus ( http://arxiv.org/abs/2312.02793v2 ) ライセンス: Link先を確認 | Calum Holker | (参考訳) リソース使用量を最小化するための量子回路の最適化は、特に量子ボリュームに制限された短期ハードウェアにおいて重要である。
本稿では,ZX計算に基づく戦略に基づいて,非クリフォードゲート数と2ビットゲート数を最小化する最適化アルゴリズムを提案する。
回路をZXダイアグラムに変換することで、回路に戻る前に単純化することができる。
単純化は因果フローと呼ばれるグラフ理論的な性質を保存できると主張する。
これは、量子ビット線が全体にわたってよく定義され、自明な抽出手順を許容し、その結果の回路に対する個々の変換の影響の計算を可能にするという利点を持つ。
決定戦略の一般的な手順は、既存のヒューリスティックな手法にインスパイアされたものである。
位相テレポーテーションと近隣のアンフュージョンルールの両方が一般化される。
特に、複数の隣人を解離させることは、最適化の大幅な改善につながることが示されている。
ベンチマーク回路上で実行される場合、アルゴリズムは2ビットゲート数を平均19.8%削減し、それまでの最高のZXベースの戦略(14.6%)と非ZX戦略(18.5%)を上回った。
これは、改善の複数の道の基礎となる。
QFT回路を最適化するための特に効果的な戦略も注目されており、非クリフォードゲートに対して正確に1つの2ビットゲートとなる。 Optimising quantum circuits to minimise resource usage is crucial, especially with near-term hardware limited by quantum volume. This paper introduces an optimisation algorithm aiming to minimise non-Clifford gate count and two-qubit gate count by building on ZX-calculus-based strategies. By translating a circuit into a ZX-diagram it can be simplified before being extracted back into a circuit. We assert that simplifications preserve a graph-theoretic property called causal flow. This has the advantage that qubit lines are well defined throughout, permitting a trivial extraction procedure and in turn enabling the calculation of an individual transformation's impact on the resulting circuit. A general procedure for a decision strategy is introduced, inspired by an existing heuristic based method. Both phase teleportation and the neighbour unfusion rule are generalised. In particular, allowing unfusion of multiple neighbours is shown to lead to significant improvements in optimisation. When run on a set of benchmark circuits, the algorithm developed reduces the two-qubit gate count by an average of 19.8%, beating both the previous best ZX-based strategy (14.6%) and non-ZX strategy (18.5%) at the time of publication. This lays a foundation for multiple avenues of improvement. A particularly effective strategy for optimising QFT circuits is also noted, resulting in exactly one two-qubit gate per non-Clifford gate. | 翻訳日:2024-01-29 17:39:04 公開日:2024-01-25 |
# GPT-4V:歩行者行動予測の約束と課題 GPT-4V Takes the Wheel: Promises and Challenges for Pedestrian Behavior Prediction ( http://arxiv.org/abs/2311.14786v2 ) ライセンス: Link先を確認 | Jia Huang, Peng Jiang, Alvika Gautam, and Srikanth Saripalli | (参考訳) 歩行者行動の予測は、自動運転車の安全性と信頼性を確保するための鍵である。
ディープラーニングの手法は、注釈付きビデオフレームシーケンスから学ぶことで有望だが、歩行者と交通の動的な相互作用を完全に把握できず、正確な予測に不可欠である。
これらのモデルは、ニュアンス的な常識推論も欠いている。
さらに、これらのモデルのデータセットのマニュアルアノテーションは高価で、新しい状況に適応するのは難しい。
ビジョン言語モデル(VLM)の出現は、高度な視覚的および因果推論技術のおかげで、これらの問題に対する有望な代替手段を導入する。
本研究は,自律運転における歩行者行動予測の文脈において,VLMの定量的,定性的な評価を行う最初の試みである。
JAAD と WiDEVIEW を用いて GPT-4V(ision) の評価を行った。
gpt-4vの現在および将来のフレームにおける歩行者行動予測能力に着目した定量的解析を行った。
このモデルは、ゼロショット方式で57%の精度で達成されているが、それでもなお、歩行者の横断行動を予測する最先端のドメイン固有モデル(70%)の背後にある。
定性的には、GPT-4Vは複雑な交通シナリオを処理し、解釈し、様々な歩行者行動の区別を行い、グループを検出し、分析することができる。
しかし、小型歩行者の検出や歩行者と自走車との相対的な動きの把握が難しいなどの課題に直面している。 Predicting pedestrian behavior is the key to ensure safety and reliability of autonomous vehicles. While deep learning methods have been promising by learning from annotated video frame sequences, they often fail to fully grasp the dynamic interactions between pedestrians and traffic, crucial for accurate predictions. These models also lack nuanced common sense reasoning. Moreover, the manual annotation of datasets for these models is expensive and challenging to adapt to new situations. The advent of Vision Language Models (VLMs) introduces promising alternatives to these issues, thanks to their advanced visual and causal reasoning skills. To our knowledge, this research is the first to conduct both quantitative and qualitative evaluations of VLMs in the context of pedestrian behavior prediction for autonomous driving. We evaluate GPT-4V(ision) on publicly available pedestrian datasets: JAAD and WiDEVIEW. Our quantitative analysis focuses on GPT-4V's ability to predict pedestrian behavior in current and future frames. The model achieves a 57% accuracy in a zero-shot manner, which, while impressive, is still behind the state-of-the-art domain-specific models (70%) in predicting pedestrian crossing actions. Qualitatively, GPT-4V shows an impressive ability to process and interpret complex traffic scenarios, differentiate between various pedestrian behaviors, and detect and analyze groups. However, it faces challenges, such as difficulty in detecting smaller pedestrians and assessing the relative motion between pedestrians and the ego vehicle. | 翻訳日:2024-01-29 17:37:35 公開日:2024-01-25 |
# エージェントAI:マルチモーダルインタラクションのホライズンを調査 Agent AI: Surveying the Horizons of Multimodal Interaction ( http://arxiv.org/abs/2401.03568v2 ) ライセンス: Link先を確認 | Zane Durante, Qiuyuan Huang, Naoki Wake, Ran Gong, Jae Sung Park, Bidipta Sarkar, Rohan Taori, Yusuke Noda, Demetri Terzopoulos, Yejin Choi, Katsushi Ikeuchi, Hoi Vo, Li Fei-Fei, Jianfeng Gao | (参考訳) マルチモーダルAIシステムは、私たちの日常生活においてユビキタスな存在になるだろう。
これらのシステムをよりインタラクティブにするための有望なアプローチは、物理環境と仮想環境のエージェントとして具現化することだ。
現在、システムはエンボディエージェント作成のための基本的なビルディングブロックとして既存の基礎モデルを活用している。
このような環境にエージェントを埋め込むことで、モデルが視覚的およびコンテキスト的データを処理および解釈することが可能になる。
例えば、ユーザーの行動、人間の行動、環境オブジェクト、音声表現、シーンの集団感情を知覚できるシステムは、所定の環境内でエージェント応答を通知したり、指示したりするのに使うことができる。
エージェントベースのマルチモーダルインテリジェンスの研究を加速するために、視覚刺激、言語入力、その他の環境に接するデータを知覚し、有意義な実施行動を生み出すことのできる対話型システムとして「エージェントAI」を定義した。
特に,外的知識,多感覚入力,人的フィードバックを組み込んだ次世代行動予測に基づくエージェント改善を目的としたシステムについて検討する。
我々は,接地環境におけるエージェント型aiシステムの開発により,大規模基礎モデルの幻覚と環境的不正確なアウトプットの生成傾向を緩和できると主張している。
agent aiの新たな分野は、マルチモーダルインタラクションのより広範な具体化とエージェント的側面を消費する。
物理的な世界で行動し、相互作用するエージェント以外にも、バーチャルリアリティやシミュレートされたシーンを簡単に作成し、仮想環境に埋め込まれたエージェントと対話できる未来を想像する。 Multi-modal AI systems will likely become a ubiquitous presence in our everyday lives. A promising approach to making these systems more interactive is to embody them as agents within physical and virtual environments. At present, systems leverage existing foundation models as the basic building blocks for the creation of embodied agents. Embedding agents within such environments facilitates the ability of models to process and interpret visual and contextual data, which is critical for the creation of more sophisticated and context-aware AI systems. For example, a system that can perceive user actions, human behavior, environmental objects, audio expressions, and the collective sentiment of a scene can be used to inform and direct agent responses within the given environment. To accelerate research on agent-based multimodal intelligence, we define "Agent AI" as a class of interactive systems that can perceive visual stimuli, language inputs, and other environmentally-grounded data, and can produce meaningful embodied actions. In particular, we explore systems that aim to improve agents based on next-embodied action prediction by incorporating external knowledge, multi-sensory inputs, and human feedback. We argue that by developing agentic AI systems in grounded environments, one can also mitigate the hallucinations of large foundation models and their tendency to generate environmentally incorrect outputs. The emerging field of Agent AI subsumes the broader embodied and agentic aspects of multimodal interactions. Beyond agents acting and interacting in the physical world, we envision a future where people can easily create any virtual reality or simulated scene and interact with agents embodied within the virtual environment. | 翻訳日:2024-01-29 17:24:58 公開日:2024-01-25 |
# 2次元遅延核融合によるロングテール3次元検出 Long-Tailed 3D Detection via 2D Late Fusion ( http://arxiv.org/abs/2312.10986v2 ) ライセンス: Link先を確認 | Yechi Ma, Neehar Peri, Shuoquan Wei, Wei Hua, Deva Ramanan, Yanan Li, Shu Kong | (参考訳) 自律走行車(AV)は、安全ナビゲーションのために、一般的なクラスと稀なクラスのオブジェクトを正確に検出する必要がある。
現代のLiDARベースの3D検出器は、希少なクラス(例えば、CenterPointはベビーカーで5.1 APしか達成していない)で性能が良くない。
RGB画像は、そのような曖昧さを解決するための視覚的証拠を提供し、RGB-LiDAR融合の研究を動機付けている。
本稿では,RGBおよびLiDAR検出器を独立に訓練した,シンプルな遅延融合フレームワークを探索する。
ペア化されたマルチモーダルトレーニングデータを必要とする最近のエンドツーエンド手法とは異なり、我々のレイトフュージョンアプローチは大規模ユニモーダルデータセットを容易に活用でき、希少なクラス検出を大幅に改善できる。
In particular, we examine three critical components in this late-fusion framework from first principles, including whether to train 2D or 3D RGB detectors, whether to match RGB and LiDAR detections in 3D or the projected 2D image plane, and how to fuse matched detections.Extensive experiments reveal that 2D RGB detectors achieve better recognition accuracy than 3D RGB detectors, matching on the 2D image plane mitigates depth estimation errors, and fusing scores probabilistically with calibration leads to state-of-the-art LT3D performance.
我々のレイトフュージョンアプローチは、確立されたnuScenes LT3Dベンチマークで51.4 mAPを達成する。 Autonomous vehicles (AVs) must accurately detect objects from both common and rare classes for safe navigation, motivating the problem of Long-Tailed 3D Object Detection (LT3D). Contemporary LiDAR-based 3D detectors perform poorly on rare classes (e.g., CenterPoint only achieves 5.1 AP on stroller) as it is difficult to recognize objects from sparse LiDAR points alone. RGB images provide visual evidence to help resolve such ambiguities, motivating the study of RGB-LiDAR fusion. In this paper, we delve into a simple late-fusion framework that ensembles independently trained RGB and LiDAR detectors. Unlike recent end-to-end methods which require paired multi-modal training data, our late-fusion approach can easily leverage large-scale uni-modal datasets, significantly improving rare class detection. In particular, we examine three critical components in this late-fusion framework from first principles, including whether to train 2D or 3D RGB detectors, whether to match RGB and LiDAR detections in 3D or the projected 2D image plane, and how to fuse matched detections.Extensive experiments reveal that 2D RGB detectors achieve better recognition accuracy than 3D RGB detectors, matching on the 2D image plane mitigates depth estimation errors, and fusing scores probabilistically with calibration leads to state-of-the-art LT3D performance. Our late-fusion approach achieves 51.4 mAP on the established nuScenes LT3D benchmark, improving over prior work by 5.9 mAP. | 翻訳日:2024-01-29 17:23:38 公開日:2024-01-25 |
# データ集約型アプリケーションの構築 : データアーキテクチャ設計から品質保証まで Architecting Data-Intensive Applications : From Data Architecture Design to Its Quality Assurance ( http://arxiv.org/abs/2401.12011v2 ) ライセンス: Link先を確認 | Moamin Abughazala | (参考訳) コンテキスト - データの指数的な成長は重要な関心事になりつつある。
このデータの管理は、特にさまざまなフォーマットと速度でさまざまなソースを扱う場合、非常に難しくなっています。
さらに、効果的な意思決定と運用プロセスでは、データ品質の確保がますます重要になっている。
データアーキテクチャは、ビジネスニーズを満たすデータの記述、収集、保存、処理、分析に不可欠である。
データ集約型アプリケーションの抽象的なビューを提供することは、データが貴重な情報に変換されることを保証するために不可欠である。
データを効果的に管理し、活用できるように、これらの課題を真剣に受け止めなければなりません。
目的 - データアーキテクチャを包括的に記述し、データ品質監視を効果的に合理化するアーキテクチャフレームワークを確立する。
メソッド - アーキテクチャフレームワークはモデル駆動工学(MDE)技術を利用する。
データ集約型アーキテクチャ記述のバックアップは、データ品質チェックの自動生成を可能にする。
結果 - フレームワークは、データ集約型アプリケーションがアーキテクチャを効率的にモデル化し、データの品質を監視するための包括的なソリューションを提供する。
プロセス全体を自動化し、データの正確性と一貫性を保証する。
datによって、アーキテクトとアナリストはワークフローを単純化し、信頼できるデータ洞察に基づいてインフォームドな意思決定を行う強力なツールにアクセスできるようになる。
結論 - さまざまな業界領域で5件以上のケースでdatを評価し,その適用性と有効性を実証した。 Context - The exponential growth of data is becoming a significant concern. Managing this data has become incredibly challenging, especially when dealing with various sources in different formats and speeds. Moreover, Ensuring data quality has become increasingly crucial for effective decision-making and operational processes. Data Architecture is crucial in describing, collecting, storing, processing, and analyzing data to meet business needs. Providing an abstract view of data-intensive applications is essential to ensure that the data is transformed into valuable information. We must take these challenges seriously to ensure we can effectively manage and use the data to our advantage. Objective - To establish an architecture framework that enables a comprehensive description of the data architecture and effectively streamlines data quality monitoring. Method - The architecture framework utilizes Model Driven Engineering (MDE) techniques. Its backing of data-intensive architecture descriptions empowers with an automated generation for data quality checks. Result - The Framework offers a comprehensive solution for data-intensive applications to model their architecture efficiently and monitor the quality of their data. It automates the entire process and ensures precision and consistency in data. With DAT, architects and analysts gain access to a powerful tool that simplifies their workflow and empowers them to make informed decisions based on reliable data insights. Conclusion - We have evaluated the DAT on more than five cases within various industry domains, demonstrating its exceptional adaptability and effectiveness. | 翻訳日:2024-01-29 17:14:25 公開日:2024-01-25 |
# gaussian adaptive attention: 複数のモダリティにまたがるロバストな文脈表現 Gaussian Adaptive Attention is All You Need: Robust Contextual Representations Across Multiple Modalities ( http://arxiv.org/abs/2401.11143v2 ) ライセンス: Link先を確認 | Georgios Ioannides, Aman Chadha, Aaron Elkins | (参考訳) 本稿では,新しい確率的アテンションフレームワークであるGAAM(Multi-Head Gaussian Adaptive Attention Mechanism)と,音声,テキスト,ビジョンを含む複数のモードにわたる情報集約を強化するために設計されたGAT(Gaussian Adaptive Transformer)を提案する。
GAAMは学習可能な平均と分散をアテンションメカニズムに統合し、マルチヘッドフレームワークで実装され、任意の確率分布をまとめてモデル化し、特徴の動的再分類を可能にする。
この手法は、特に非定常データにおいて、特徴空間内のキー要素を識別することで、モデル性能(精度で約20%まで)における最先端の注意技術を上回る重要な改善を示す。
GAAMのドット製品ベースのアテンションモデルと比較的少ないパラメータとの互換性は、その適応性と既存のアテンションフレームワークを強化する可能性を示している。
GAAMは、音声における感情認識、画像分類、テキスト分類など、様々なタスクにおいて優れた適応性と有効性を示し、マルチモーダルデータを扱う際の堅牢性と汎用性を確立する。
さらに,GAAM法で学習したモデルの説明可能性を高めるための新しい学習基準であるImportance Factor(IF)を導入する。
GAAMは、複数のモードにわたるより優れたパフォーマンスと説明可能な注意モデルの開発に向けた進歩を表している。 We propose the Multi-Head Gaussian Adaptive Attention Mechanism (GAAM), a novel probabilistic attention framework, and the Gaussian Adaptive Transformer (GAT), designed to enhance information aggregation across multiple modalities, including Speech, Text and Vision. GAAM integrates learnable mean and variance into its attention mechanism, implemented in a Multi-Headed framework enabling it to collectively model any Probability Distribution for dynamic recalibration of feature significance. This method demonstrates significant improvements, especially with highly non-stationary data, surpassing the state-of-the-art attention techniques in model performance (up to approximately +20% in accuracy) by identifying key elements within the feature space. GAAM's compatibility with dot-product-based attention models and relatively low number of parameters showcases its adaptability and potential to boost existing attention frameworks. Empirically, GAAM exhibits superior adaptability and efficacy across a diverse range of tasks, including emotion recognition in speech, image classification, and text classification, thereby establishing its robustness and versatility in handling multi-modal data. Furthermore, we introduce the Importance Factor (IF), a new learning-based metric that enhances the explainability of models trained with GAAM-based methods. Overall, GAAM represents an advancement towards development of better performing and more explainable attention models across multiple modalities. | 翻訳日:2024-01-29 17:12:47 公開日:2024-01-25 |
# Chem-FINESE:テキスト再構成によるファインショット要素抽出の検証 Chem-FINESE: Validating Fine-Grained Few-shot Entity Extraction through Text Reconstruction ( http://arxiv.org/abs/2401.10189v3 ) ライセンス: Link先を確認 | Qingyun Wang, Zixuan Zhang, Hongxiang Li, Xuan Liu, Jiawei Han, Huimin Zhao, Heng Ji | (参考訳) 化学領域における粒度の少ないエンティティ抽出には、2つのユニークな課題がある。
第一に、一般ドメインのエンティティ抽出タスクと比較して、化学論文からの文は、通常より多くのエンティティを含んでいる。
さらに、エンティティ抽出モデルは通常、長い尾型のエンティティを抽出することが困難である。
本稿では,これら2つの課題に対処するために,シークエンス・ツー・シーケンス(seq2seq)をベースとした複数ショットエンティティ抽出手法であるChem-FINESEを提案する。
本発明のchem-fineseは、入力文から名前付きエンティティを抽出するseq2seqエンティティ抽出器と、抽出されたエンティティから元の入力文を再構築するseq2seq自己評価モジュールである。
優れたエンティティ抽出システムがエンティティを忠実に抽出する必要があるという事実に触発されて、新しい自己検証モジュールはエンティティ抽出結果を活用して元の入力文を再構築する。
さらに, 抽出過程での過剰コピーを減らすために, コントラスト損失を新たに設計する。
最後に、ChemNERスキーマでドメインの専門家によって注釈付けされた、新しいきめ細かい化学エンティティ抽出データセットであるChemNER+をリリースする。
ChemNER+とCHEMETのデータセットによる数ショット設定の実験では、新たに提案したフレームワークは、それぞれ8.26%と6.84%の絶対F1スコアゲインに寄与している。 Fine-grained few-shot entity extraction in the chemical domain faces two unique challenges. First, compared with entity extraction tasks in the general domain, sentences from chemical papers usually contain more entities. Moreover, entity extraction models usually have difficulty extracting entities of long-tailed types. In this paper, we propose Chem-FINESE, a novel sequence-to-sequence (seq2seq) based few-shot entity extraction approach, to address these two challenges. Our Chem-FINESE has two components: a seq2seq entity extractor to extract named entities from the input sentence and a seq2seq self-validation module to reconstruct the original input sentence from extracted entities. Inspired by the fact that a good entity extraction system needs to extract entities faithfully, our new self-validation module leverages entity extraction results to reconstruct the original input sentence. Besides, we design a new contrastive loss to reduce excessive copying during the extraction process. Finally, we release ChemNER+, a new fine-grained chemical entity extraction dataset that is annotated by domain experts with the ChemNER schema. Experiments in few-shot settings with both ChemNER+ and CHEMET datasets show that our newly proposed framework has contributed up to 8.26% and 6.84% absolute F1-score gains respectively. | 翻訳日:2024-01-29 17:12:21 公開日:2024-01-25 |
# FIDの再考:画像生成のためのより良い評価基準を目指して Rethinking FID: Towards a Better Evaluation Metric for Image Generation ( http://arxiv.org/abs/2401.09603v2 ) ライセンス: Link先を確認 | Sadeep Jayasumana, Srikumar Ramalingam, Andreas Veit, Daniel Glasner, Ayan Chakrabarti, Sanjiv Kumar | (参考訳) 多くの機械学習の問題と同様に、画像生成手法の進歩は良い評価基準にかかっている。
最も人気のあるものはFrechet Inception Distance (FID)である。
fidは実画像のインセプションv3特徴の分布とアルゴリズムによって生成された画像との距離を推定する。
インセプションの貧弱な表現は、現代のテキスト・画像モデルによって生成されるリッチで多様なコンテンツ、不正確な正規性仮定、そしてサンプルの複雑さによって引き起こされる。
我々は、FIDを生成画像の一次品質指標として用いることの再評価を求める。
実験により,FIDは人間のレーダと矛盾し,反復的テキスト・画像モデルの段階的改善を反映せず,歪みレベルを捉えず,サンプルサイズが変化しても矛盾しない結果が得られた。
また,よりリッチなクリップ埋め込みとガウス rbf カーネルとの最大平均偏差距離に基づく新しいメトリック cmmd を提案する。
埋め込みの確率分布を仮定せず、サンプル効率も良い偏りのない推定器である。
広範な実験と分析を通じて,fidに基づく画像間モデルの評価は信頼性が低く,cmmdは画像品質をより堅牢で信頼性の高い評価ができることを示す。 As with many machine learning problems, the progress of image generation methods hinges on good evaluation metrics. One of the most popular is the Frechet Inception Distance (FID). FID estimates the distance between a distribution of Inception-v3 features of real images, and those of images generated by the algorithm. We highlight important drawbacks of FID: Inception's poor representation of the rich and varied content generated by modern text-to-image models, incorrect normality assumptions, and poor sample complexity. We call for a reevaluation of FID's use as the primary quality metric for generated images. We empirically demonstrate that FID contradicts human raters, it does not reflect gradual improvement of iterative text-to-image models, it does not capture distortion levels, and that it produces inconsistent results when varying the sample size. We also propose an alternative new metric, CMMD, based on richer CLIP embeddings and the maximum mean discrepancy distance with the Gaussian RBF kernel. It is an unbiased estimator that does not make any assumptions on the probability distribution of the embeddings and is sample efficient. Through extensive experiments and analysis, we demonstrate that FID-based evaluations of text-to-image models may be unreliable, and that CMMD offers a more robust and reliable assessment of image quality. | 翻訳日:2024-01-29 17:11:35 公開日:2024-01-25 |
# ICASSP 2024音声信号改善チャレンジ ICASSP 2024 Speech Signal Improvement Challenge ( http://arxiv.org/abs/2401.14444v1 ) ライセンス: Link先を確認 | Nicolae Catalin Ristea, Ando Saabas, Ross Cutler, Babak Naderi, Sebastian Braun, Solomiya Branets | (参考訳) ICASSP 2024音声信号改善グランドチャレンジは、通信システムにおける音声信号の品質向上分野の研究を刺激することを目的としている。
これは、以前のICASSP 2023 Grand Challengeの成功に基づいて、2度目の挑戦となる。
我々は、データセットシンセサイザーを導入し、すべての参加チームがより高いベースラインで開始できるようにし、拡張されたP.804テストの客観的メトリック、2023のテストセットの書き起こし、メトリックにWord Accuracy(WAcc)を追加して競争を強化する。
主観的p.804と客観的単語の精度指標を用いて,実時間トラックで13システム,非実時間トラックで11システムを評価した。 The ICASSP 2024 Speech Signal Improvement Grand Challenge is intended to stimulate research in the area of improving the speech signal quality in communication systems. This marks our second challenge, building upon the success from the previous ICASSP 2023 Grand Challenge. We enhance the competition by introducing a dataset synthesizer, enabling all participating teams to start at a higher baseline, an objective metric for our extended P.804 tests, transcripts for the 2023 test set, and we add Word Accuracy (WAcc) as a metric. We evaluate a total of 13 systems in the real-time track and 11 systems in the non-real-time track using both subjective P.804 and objective Word Accuracy metrics. | 翻訳日:2024-01-29 17:03:29 公開日:2024-01-25 |
# 特許データを用いた抗体人間性予測の改善 Improving Antibody Humanness Prediction using Patent Data ( http://arxiv.org/abs/2401.14442v1 ) ライセンス: Link先を確認 | Talip Ucar, Aubin Ramon, Dino Oglic, Rebecca Croasdale-Wood, Tom Diethe, Pietro Sormanni | (参考訳) マルチステージ・マルチロス・トレーニングプロセスを用いて,抗体の人間性予測を改善するための特許データの可能性を検討する。
人間性は、抗体治療に対する免疫原性反応の指標となり、薬物の発見における主要な原因の1つであり、臨床での使用において困難である。
我々は,初期学習段階を弱い教師付きコントラスト学習問題として位置づけ,各抗体配列は多種の関数の識別子と関連付けられ,その特性に応じてそれらをグループ化するエンコーダを学習することを目的としている。
次に、コントラストエンコーダの一部を凍結し、クロスエントロピー損失を用いて特許データに基づいてトレーニングし、与えられた抗体配列の人間性スコアを予測する。
トレーニング中に見つからない3つの異なる免疫原性データセットを推論することにより,特許データの有用性とアプローチについて述べる。
実験結果から,学習モデルは6つの推論タスクのうち5つにおいて,代替ベースラインを一貫して上回り,新しい最先端を確立できることを示した。 We investigate the potential of patent data for improving the antibody humanness prediction using a multi-stage, multi-loss training process. Humanness serves as a proxy for the immunogenic response to antibody therapeutics, one of the major causes of attrition in drug discovery and a challenging obstacle for their use in clinical settings. We pose the initial learning stage as a weakly-supervised contrastive-learning problem, where each antibody sequence is associated with possibly multiple identifiers of function and the objective is to learn an encoder that groups them according to their patented properties. We then freeze a part of the contrastive encoder and continue training it on the patent data using the cross-entropy loss to predict the humanness score of a given antibody sequence. We illustrate the utility of the patent data and our approach by performing inference on three different immunogenicity datasets, unseen during training. Our empirical results demonstrate that the learned model consistently outperforms the alternative baselines and establishes new state-of-the-art on five out of six inference tasks, irrespective of the used metric. | 翻訳日:2024-01-29 17:03:04 公開日:2024-01-25 |
# 意味的感度と矛盾予測:NLIモデルの脆弱性の測定 Semantic Sensitivities and Inconsistent Predictions: Measuring the Fragility of NLI Models ( http://arxiv.org/abs/2401.14440v1 ) ライセンス: Link先を確認 | Erik Arakelyan, Zhaoqi Liu, Isabelle Augenstein | (参考訳) トランスフォーマティブ・ベースの自然言語理解(nlu)モデルの創発的能力に関する最近の研究は、語彙的および構成的意味論の理解を持っていることを示している。
現状の自然言語推論(NLI)モデルは、表面形状の変動を保ったマイナーセマンティクスに敏感であり、推論中に大きな一貫性のないモデル決定をもたらすことが判明した。
特に、この振る舞いは構成意味論の妥当性と深い理解とは異なっているが、標準ベンチマークでのモデル精度の評価や、構文、単調、論理的に堅牢な推論の探索には現れない。
意味感受性の程度を測定するための新しい枠組みを提案する。
そこで本論文では,表層形状の入力雑音を保存した逆生成例のNLIモデルを評価する。
これは、NLIモデルが元の入力と逆入力の関係を対称同値関係として予測するという明示的な条件で条件付きテキスト生成によって達成される。
我々は,この現象がNLIモデル全体に与える影響を,ドメイン設定のemph{in-} と \emph{out-of} に対して体系的に検討した。
我々の実験では、意味的感受性がそれぞれ12.92\%$と2.3.71\%$の平均的な性能低下を引き起こすことが示されています。
さらにアブレーション研究を行い,モデル,データセット,推論のバリエーションをまたいだ解析を行い,モデル予測において意味的感度が大きな不整合をもたらすことを示した。 Recent studies of the emergent capabilities of transformer-based Natural Language Understanding (NLU) models have indicated that they have an understanding of lexical and compositional semantics. We provide evidence that suggests these claims should be taken with a grain of salt: we find that state-of-the-art Natural Language Inference (NLI) models are sensitive towards minor semantics preserving surface-form variations, which lead to sizable inconsistent model decisions during inference. Notably, this behaviour differs from valid and in-depth comprehension of compositional semantics, however does neither emerge when evaluating model accuracy on standard benchmarks nor when probing for syntactic, monotonic, and logically robust reasoning. We propose a novel framework to measure the extent of semantic sensitivity. To this end, we evaluate NLI models on adversarially generated examples containing minor semantics-preserving surface-form input noise. This is achieved using conditional text generation, with the explicit condition that the NLI model predicts the relationship between the original and adversarial inputs as a symmetric equivalence entailment. We systematically study the effects of the phenomenon across NLI models for \emph{in-} and \emph{out-of} domain settings. Our experiments show that semantic sensitivity causes performance degradations of $12.92\%$ and $23.71\%$ average over \emph{in-} and \emph{out-of-} domain settings, respectively. We further perform ablation studies, analysing this phenomenon across models, datasets, and variations in inference and show that semantic sensitivity can lead to major inconsistency within model predictions. | 翻訳日:2024-01-29 17:02:08 公開日:2024-01-25 |
# クラスターの固化と成層化に基づく増分親和性伝播 Incremental Affinity Propagation based on Cluster Consolidation and Stratification ( http://arxiv.org/abs/2401.14439v1 ) ライセンス: Link先を確認 | Silvana Castano, Alfio Ferrara, Stefano Montanelli, Francesco Periti | (参考訳) 最新のデータマイニングアプリケーションは、結果のクラスタ上の時間的変化を追跡することで、動的データセット上でインクリメンタルなクラスタリングを実行する必要がある。
本稿では,クラスタ統合とクラスタ階層化に基づくA-Posteriori Affinity Propagation (APP)を提案する。
APPがインクリメンタルクラスタリングを実施
一 新しい到着したオブジェクトは、オブジェクトのデータセット全体にわたって再実行することなく、動的に前のクラスタに統合されます。
二 クラスタリング結果の忠実なシーケンスを時間とともに生成し、維持するとともに、陳腐化した学習機能を有する古いクラスタを忘れることができる。
4つの人気のあるラベル付きデータセットは、従来のAPとIncremental Affinity Propagationによって得られたベンチマーククラスタリングのパフォーマンスに関してAPPのパフォーマンスをテストするために使用される。
実験の結果,アプリケーションのクラスタリング性能はスケーラビリティと同時に向上していることがわかった。 Modern data mining applications require to perform incremental clustering over dynamic datasets by tracing temporal changes over the resulting clusters. In this paper, we propose A-Posteriori affinity Propagation (APP), an incremental extension of Affinity Propagation (AP) based on cluster consolidation and cluster stratification to achieve faithfulness and forgetfulness. APP enforces incremental clustering where i) new arriving objects are dynamically consolidated into previous clusters without the need to re-execute clustering over the entire dataset of objects, and ii) a faithful sequence of clustering results is produced and maintained over time, while allowing to forget obsolete clusters with decremental learning functionalities. Four popular labeled datasets are used to test the performance of APP with respect to benchmark clustering performances obtained by conventional AP and Incremental Affinity Propagation based on Nearest neighbor Assignment (IAPNA) algorithms. Experimental results show that APP achieves comparable clustering performance while enforcing scalability at the same time. | 翻訳日:2024-01-29 17:01:12 公開日:2024-01-25 |
# 予測の公平な分布から社会的財の公平な分布へ--長期失業に対する公平な機械学習の影響評価 From the Fair Distribution of Predictions to the Fair Distribution of Social Goods: Evaluating the Impact of Fair Machine Learning on Long-Term Unemployment ( http://arxiv.org/abs/2401.14438v1 ) ライセンス: Link先を確認 | Sebastian Zezulka and Konstantin Genin | (参考訳) アルゴリズムフェアネスは、具体的な社会的文脈にアルゴリズムを配置した後に生じる社会財の分布よりも、訓練時の予測の分布に焦点を当てる。
しかし、予測の「公正な」分布を要求することは、社会的財の公平な分配を確立する努力を損なう可能性がある。
我々の最初の貢献は概念的であり、アルゴリズム的公正を動機づける根本的な問題に対処するには、展開後の社会商品の流通の変化を予想する予測的公正の概念が必要であると論じる。
第2の貢献は理論的であり、この変更がデプロイ前のデータから識別される条件を提供する。
それは、異なる種類のパフォーマンス効果を区別し、説明することが必要です。
特に、予測が政策決定を変える方法や、それゆえ社会的財の流通に焦点を当てている。
我々は、(1)最近失業した人のうちの誰を長期にわたって失業させるかを予測するアルゴリズムの使用、(2)労働市場プログラムによる雇用を目標とするアルゴリズムの使用など、公共行政からの申請によって導かれる。
スイスの公共雇用サービスによる行政データを用いて、このような政策が長期失業における男女不平等にどのように影響するかをシミュレートします。
リスク予測が「公正」である必要がある場合、ターゲティング決定は効果が低く、長期失業の全体的な水準を下げ、長期失業の男女格差を埋めるための努力を損なう。 Algorithmic fairness focuses on the distribution of predictions at the time of training, rather than the distribution of social goods that arises after deploying the algorithm in a concrete social context. However, requiring a "fair" distribution of predictions may undermine efforts at establishing a fair distribution of social goods. Our first contribution is conceptual: we argue that addressing the fundamental question that motivates algorithmic fairness requires a notion of prospective fairness that anticipates the change in the distribution of social goods after deployment. Our second contribution is theoretical: we provide conditions under which this change is identified from pre-deployment data. That requires distinguishing between, and accounting for, different kinds of performative effects. In particular, we focus on the way predictions change policy decisions and, therefore, the distribution of social goods. Throughout, we are guided by an application from public administration: the use of algorithms to (1) predict who among the recently unemployed will remain unemployed in the long term and (2) target them with labor market programs. Our final contribution is empirical: using administrative data from the Swiss public employment service, we simulate how such policies would affect gender inequalities in long-term unemployment. When risk predictions are required to be "fair", targeting decisions are less effective, undermining efforts to lower overall levels of long-term unemployment and to close the gender gap in long-term unemployment. | 翻訳日:2024-01-29 17:00:52 公開日:2024-01-25 |
# 協調ロジスティクス問題におけるプライバシ意識・感情認識エージェントの信頼モデル Trust model of privacy-concerned, emotionally-aware agents in a cooperative logistics problem ( http://arxiv.org/abs/2401.14436v1 ) ライセンス: Link先を確認 | J. Carbo, J.M. Molina | (参考訳) 本稿では,人間と無人車両が協調する仮説混合環境に使用される信頼モデルを提案する。
我々は,信頼モデルに感情を組み込むことを,現在の心理学理論に対する実践的アプローチの一貫性のある方法で解決する。
最も革新的な貢献は、プライバシの問題が感情的信頼モデルの協力決定にどのように関与するかである。
感情と信頼はどちらも、IEEE FIPA標準を使用して通信するGAML(GAMAエージェントプラットフォームのプログラミング言語)で実装された自律エージェントに、BDIパラダイムを用いて認知的にモデル化され、管理されている。
これらの感情的エージェントの信頼行動は、協調的ロジスティクス問題においてテストされる: エージェントはオブジェクトを目的地に移動し、オブジェクトや場所の一部にプライバシー上の問題がある。
このロジスティックな問題のシミュレーションの実行は、感情と信頼が、時間の節約とプライバシー保護の両方の観点からエージェントのパフォーマンスを改善するのにどのように寄与するかを示しています。 In this paper we propose a trust model to be used into a hypothetical mixed environment where humans and unmanned vehicles cooperate. We address the inclusion of emotions inside a trust model in a coherent way to the practical approaches to the current psychology theories. The most innovative contribution is how privacy issues play a role in the cooperation decisions of the emotional trust model. Both, emotions and trust have been cognitively modeled and managed with the Beliefs, Desires and Intentions (BDI) paradigm into autonomous agents implemented in GAML (the programming language of GAMA agent platform) that communicates using the IEEE FIPA standard. The trusting behaviour of these emotional agents is tested in a cooperative logistics problem where: agents have to move objects to destinations and some of the objects and places have privacy issues. The execution of simulations of this logistic problem shows how emotions and trust contribute to improve the performance of agents in terms of both, time savings and privacy protection | 翻訳日:2024-01-29 17:00:25 公開日:2024-01-25 |
# 勾配に基づく手法を解釈可能な方法に変換する Transforming gradient-based techniques into interpretable methods ( http://arxiv.org/abs/2401.14434v1 ) ライセンス: Link先を確認 | Caroline Mazini Rodrigues (LRDE, LIGM), Nicolas Boutry (LRDE), Laurent Najman (LIGM) | (参考訳) 畳み込みニューラルネットワーク(CNN)のxAI技術による拡張は、しばしば解釈において課題を引き起こす。
入力機能の固有の複雑さ、特に画像から抽出されたピクセルは複雑な相関関係を包含する。
Integrated Gradients (IG)によって実証されたグラディエントベースの方法論は、これらの特徴の意義を効果的に示す。
しかし、これらの説明を画像に変換すると、しばしばかなりのノイズが生じる。
現在,勾配に基づく手法を支援するフレームワークとして,gad(gradient artificial distancing)を導入する。
その主な目的は、クラス間の区別を確立することによって、影響力のある地域を強調することである。
GADの本質は、可視化中の分析の範囲を制限し、画像ノイズを低減することである。
隠蔽画像に関する実証研究は、この手法によって同定された領域が、クラス分化を促進する上で重要な役割を担っていることを証明している。 The explication of Convolutional Neural Networks (CNN) through xAI techniques often poses challenges in interpretation. The inherent complexity of input features, notably pixels extracted from images, engenders complex correlations. Gradient-based methodologies, exemplified by Integrated Gradients (IG), effectively demonstrate the significance of these features. Nevertheless, the conversion of these explanations into images frequently yields considerable noise. Presently, we introduce GAD (Gradient Artificial Distancing) as a supportive framework for gradient-based techniques. Its primary objective is to accentuate influential regions by establishing distinctions between classes. The essence of GAD is to limit the scope of analysis during visualization and, consequently reduce image noise. Empirical investigations involving occluded images have demonstrated that the identified regions through this methodology indeed play a pivotal role in facilitating class differentiation. | 翻訳日:2024-01-29 17:00:11 公開日:2024-01-25 |
# A2C:AIチームのためのモジュール型多段階協調決定フレームワーク A2C: A Modular Multi-stage Collaborative Decision Framework for Human-AI Teams ( http://arxiv.org/abs/2401.14432v1 ) ライセンス: Link先を確認 | Shahroz Tariq, Mohan Baruwal Chhetri, Surya Nepal, Cecile Paris | (参考訳) 本稿では,AIチーム内で堅牢な意思決定を可能にするための多段階共同意思決定フレームワークであるA2Cを紹介する。
拒絶学習や推論の学習といった概念からインスピレーションを得て、a2cはaiシステムを組み込んで意思決定の不確実性を認識し、必要に応じて人間の専門家に推論する。
さらに、A2Cは、サイバーセキュリティオペレーションセンター(SOC)のインシデント検出や応答など、人間の専門家でさえ制限に遭遇するシナリオに対応している。
このようなシナリオでは、A2Cは協調的な探索を促進し、複雑な課題の集合的な解決を可能にする。
A2Cは、人間とAIのコラボレーションのための効果的な戦略を開発するための柔軟なプラットフォームを提供する。
人間とAIの両方の強みを活用することで、動的および進化する環境における複雑な意思決定の効率性と効率を大幅に改善する。
A2Cの能力を検証するため,ベンチマークデータを用いた広範囲なシミュレーション実験を行った。
その結果,A2Cでは3つの意思決定モードを効果的にサポートできることが明らかとなった。
中でも注目すべきは、(シミュレーションされた)人間の専門家とAIによる共同調査は、AIを単独で行うよりも優れたパフォーマンスを実現していることだ。 This paper introduces A2C, a multi-stage collaborative decision framework designed to enable robust decision-making within human-AI teams. Drawing inspiration from concepts such as rejection learning and learning to defer, A2C incorporates AI systems trained to recognise uncertainty in their decisions and defer to human experts when needed. Moreover, A2C caters to scenarios where even human experts encounter limitations, such as in incident detection and response in cyber Security Operations Centres (SOC). In such scenarios, A2C facilitates collaborative explorations, enabling collective resolution of complex challenges. With support for three distinct decision-making modes in human-AI teams: Automated, Augmented, and Collaborative, A2C offers a flexible platform for developing effective strategies for human-AI collaboration. By harnessing the strengths of both humans and AI, it significantly improves the efficiency and effectiveness of complex decision-making in dynamic and evolving environments. To validate A2C's capabilities, we conducted extensive simulative experiments using benchmark datasets. The results clearly demonstrate that all three modes of decision-making can be effectively supported by A2C. Most notably, collaborative exploration by (simulated) human experts and AI achieves superior performance compared to AI in isolation, underscoring the framework's potential to enhance decision-making within human-AI teams. | 翻訳日:2024-01-29 16:59:59 公開日:2024-01-25 |
# 非識別マイクロリング共振器の並列鎖を用いたHong-Ou-Mandel Combとスイッチ Hong-Ou-Mandel Comb and Switch using parallel chains of non-identical Micro-Ring Resonators ( http://arxiv.org/abs/2401.14491v1 ) ライセンス: Link先を確認 | Peter L. Kaulfuss, Paul M. Alsing, Richard J. Birrittella, Edwin E. Hach III, and A. Matthew Smith | (参考訳) マイクロリング共振器(MRRs)は,Hong-Ou-Mandel(HOM)効果を様々な可変パラメータの組み合わせで正確に解析できる。
この HOM 効果が生じる高次元のパラメータ空間は、Hong-Ou-Mandel manifold (HOMM) と呼ばれるものを構成する。
非同一性のmrrを並列に使用し、相対的なラウンドトリップ位相シフトをmrr間で変化させることで、hom効果の波長位置を操作できる。
巧妙な設計と製造により、HOMMを成形してHOM効果を正確に所望の場所に配置することができる。
本稿では,非識別的MRRパラメータを調整して結果のHOMMを変更する方法について論じる。
また,より有利なHOMM構造を示すサンプル設計を推進し,異なる回路設計でアクセス可能な多種多様な可能性を強調した。 Micro-Ring Resonators (MRRs) allow us to access the Hong-Ou-Mandel (HOM) effect at a variety of tunable parameter combinations along exact analytic solutions. This higher-dimensional space of parameters for which the HOM effect occurs constitutes what is known as a Hong-Ou-Mandel manifold (HOMM). Using a parallel series of non-identical MRRs and changing relative round-trip phase shifts between MRRs allows for the manipulation of the wavelength locations of the HOM effect. Through clever design and fabrication, we can mold the HOMM to place the HOM effect, or lack thereof, precisely at desired locations. In this paper we discuss how to adjust non-identical MRR parameters to change the resulting HOMM. We also promote example designs that exhibit advantageous HOMM structures, and highlight some of the myriad of possibilities that can be accessed with different circuit design. | 翻訳日:2024-01-29 16:50:49 公開日:2024-01-25 |
# longhealth: 長期臨床文書を用いた質問応答ベンチマーク LongHealth: A Question Answering Benchmark with Long Clinical Documents ( http://arxiv.org/abs/2401.14490v1 ) ライセンス: Link先を確認 | Lisa Adams, Felix Busch, Tianyu Han, Jean-Baptiste Excoffier, Matthieu Ortala, Alexander L\"oser, Hugo JWL. Aerts, Jakob Nikolas Kather, Daniel Truhn, Keno Bressem | (参考訳) 背景: 大規模言語モデル(LLM)の最近の進歩は、医療、特に広範な患者記録の処理において潜在的な利益をもたらす。
しかし、既存のベンチマークでは、実世界の長期臨床データを扱うLLMの能力を十分に評価していない。
方法: 様々な疾患にまたがる20の患者を対象とし, それぞれ5,090から6,754の単語を含むlonghealthベンチマークを提示する。
このベンチマークは、情報抽出、否定、ソートという3つのカテゴリで400の多重選択質問でLSMに挑戦し、大規模な臨床文書から情報を抽出し解釈するためにLSMに挑戦する。
結果: OpenAI の独自かつ費用効率のよい GPT-3.5 Turbo を比較対象として, 最低 16,000 トークンのオープンソース LLM を9 個評価した。
その結果,Mixtral-8x7B-Instruct-v0.1では高い精度が得られた。
しかし、すべてのモデルは、欠落した情報の識別を必要とするタスクにおいて著しく苦労し、臨床データ解釈の改善のための重要な領域を強調した。
結論: LLMは, 長期臨床文書の処理に有意な可能性を示唆するが, 信頼性の高い臨床使用には精度が不十分である。
LongHealthベンチマークは、ヘルスケア環境でのLCMのより現実的な評価を提供し、安全で効果的な臨床応用のためのさらなるモデル改善の必要性を強調している。
ベンチマークと評価コードを公開しています。 Background: Recent advancements in large language models (LLMs) offer potential benefits in healthcare, particularly in processing extensive patient records. However, existing benchmarks do not fully assess LLMs' capability in handling real-world, lengthy clinical data. Methods: We present the LongHealth benchmark, comprising 20 detailed fictional patient cases across various diseases, with each case containing 5,090 to 6,754 words. The benchmark challenges LLMs with 400 multiple-choice questions in three categories: information extraction, negation, and sorting, challenging LLMs to extract and interpret information from large clinical documents. Results: We evaluated nine open-source LLMs with a minimum of 16,000 tokens and also included OpenAI's proprietary and cost-efficient GPT-3.5 Turbo for comparison. The highest accuracy was observed for Mixtral-8x7B-Instruct-v0.1, particularly in tasks focused on information retrieval from single and multiple patient documents. However, all models struggled significantly in tasks requiring the identification of missing information, highlighting a critical area for improvement in clinical data interpretation. Conclusion: While LLMs show considerable potential for processing long clinical documents, their current accuracy levels are insufficient for reliable clinical use, especially in scenarios requiring the identification of missing information. The LongHealth benchmark provides a more realistic assessment of LLMs in a healthcare setting and highlights the need for further model refinement for safe and effective clinical application. We make the benchmark and evaluation code publicly available. | 翻訳日:2024-01-29 16:50:33 公開日:2024-01-25 |
# ハードウェアを用いたモデルアーキテクチャの共設計事例 The Case for Co-Designing Model Architectures with Hardware ( http://arxiv.org/abs/2401.14489v1 ) ライセンス: Link先を確認 | Quentin Anthony, Jacob Hatef, Deepak Narayanan, Stella Biderman, Stas Bekman, Junqi Yin, Aamir Shafi, Hari Subramoni, Dhabaleswar Panda | (参考訳) GPUは最先端のディープラーニングモデルのほとんどをトレーニングする責任があるが、新しいディープラーニング(DL)モデルを設計する場合、アーキテクチャの影響はしばしば見過ごされる。
その結果、ターゲットハードウェアに対してより快適になるようにdlモデルを変更すれば、dlトレーニングと推論のランタイムパフォーマンスが大幅に向上する。
本稿では,トランスモデルのランタイム性能を最大化するためのガイドラインを提案する。
これらのガイドラインは、GPU上で実行される計算カーネルの効率性に対するモデル形状を制御する様々なモデルハイパーパラメータの影響を慎重に考慮して作成されている。
効率の良いモデル形状を持つモデルのスループットは、類似のパラメータを持つが最適化されていないモデルに比べて精度を保ちながら最大39\%向上する。 While GPUs are responsible for training the vast majority of state-of-the-art deep learning models, the implications of their architecture are often overlooked when designing new deep learning (DL) models. As a consequence, modifying a DL model to be more amenable to the target hardware can significantly improve the runtime performance of DL training and inference. In this paper, we provide a set of guidelines for users to maximize the runtime performance of their transformer models. These guidelines have been created by carefully considering the impact of various model hyperparameters controlling model shape on the efficiency of the underlying computation kernels executed on the GPU. We find the throughput of models with efficient model shapes is up to 39\% higher while preserving accuracy compared to models with a similar number of parameters but with unoptimized shapes. | 翻訳日:2024-01-29 16:50:05 公開日:2024-01-25 |
# Scilab-RL:効率的な強化学習と認知モデル研究のためのソフトウェアフレームワーク Scilab-RL: A software framework for efficient reinforcement learning and cognitive modeling research ( http://arxiv.org/abs/2401.14488v1 ) ライセンス: Link先を確認 | Jan Dohmen, Frank R\"oder, Manfred Eppe | (参考訳) 認知モデリングと強化学習(RL)の研究の1つの問題は、研究者が実験に適切な計算フレームワークを構築するのにあまりにも多くの時間を費やしていることである。
現在のRLアルゴリズムのオープンソース実装は数多く存在するが、さまざまなロボットシミュレータとプラットフォーム、データの可視化、ハイパーパラメータ最適化、ベースライン実験を組み合わせたモジュラーツールが欠如している。
本稿では,ロボットエージェントの認知モデルと強化学習を効率的に研究するためのソフトウェアフレームワークであるScilab-RLを提案する。
このフレームワークは、Stable Baselines 3とOpenAIのジムインターフェースを使った目標条件強化学習に焦点を当てている。
実験の可視化とハイパーパラメータ最適化のネイティブな可能性を可能にする。
これらの特徴により、研究者は最小限の時間で実験を行うことで、研究成果を最大化することができる。 One problem with researching cognitive modeling and reinforcement learning (RL) is that researchers spend too much time on setting up an appropriate computational framework for their experiments. Many open source implementations of current RL algorithms exist, but there is a lack of a modular suite of tools combining different robotic simulators and platforms, data visualization, hyperparameter optimization, and baseline experiments. To address this problem, we present Scilab-RL, a software framework for efficient research in cognitive modeling and reinforcement learning for robotic agents. The framework focuses on goal-conditioned reinforcement learning using Stable Baselines 3 and the OpenAI gym interface. It enables native possibilities for experiment visualizations and hyperparameter optimization. We describe how these features enable researchers to conduct experiments with minimal time effort, thus maximizing research output. | 翻訳日:2024-01-29 16:49:51 公開日:2024-01-25 |
# ペナルティに基づく制約付きセグメンテーションネットワークの隣りの校正 Neighbor-Aware Calibration of Segmentation Networks with Penalty-Based Constraints ( http://arxiv.org/abs/2401.14487v1 ) ライセンス: Link先を確認 | Balamurali Murugesan, Sukesh Adiga Vasudeva, Bingyuan Liu, Herv\'e Lombaert, Ismail Ben Ayed, Jose Dolz | (参考訳) ディープニューラルネットワークによる信頼性の高い信頼性スコアの確保は、重要な意思決定システム、特にヘルスケアのような現実世界の領域において重要な意味を持つ。
深部セグメンテーションネットワークの校正に関する最近の研究は、大きな進歩をもたらした。
しかしながら、これらのアプローチは分類タスクの進歩に強く影響を受けており、その不確実性は通常、興味の対象の局所構造を無視して個々のピクセルの情報を活用することによってモデル化される。
実際、最近のSpatially Varying Label Smoothing (SVLS) アプローチのみが、離散空間ガウスカーネルでピクセルラベル割り当てを軟化することにより、クラス間のピクセル空間関係を考察している。
本研究では,SVLSの制約付き最適化の視点をまず提示し,周辺画素のソフトクラス比に暗黙の制約を課すことを示した。
さらに,本解析の結果から,svlsには制約の寄与と目的のバランスをとるメカニズムが欠如しており,最適化プロセスに支障をきたす可能性がある。
これらの結果に基づき,ロジット値の等式制約に基づく原理的かつ簡単な解法であるnacl(neighbor aware calibration)を提案し,強制制約とペナルティの重みを明示的に制御し,より柔軟性を提供する。
広く知られているセグメンテーションベンチマークに関する包括的な実験は、その判別能力に影響を与えることなく、提案手法の優れたキャリブレーション性能を示している。
さらに、アブレーション研究は、幅広いディープセグメンテーションネットワークのトレーニングに使用できる、我々のアプローチのモデル非依存な性質を実証的に示しています。 Ensuring reliable confidence scores from deep neural networks is of paramount significance in critical decision-making systems, particularly in real-world domains such as healthcare. Recent literature on calibrating deep segmentation networks has resulted in substantial progress. Nevertheless, these approaches are strongly inspired by the advancements in classification tasks, and thus their uncertainty is usually modeled by leveraging the information of individual pixels, disregarding the local structure of the object of interest. Indeed, only the recent Spatially Varying Label Smoothing (SVLS) approach considers pixel spatial relationships across classes, by softening the pixel label assignments with a discrete spatial Gaussian kernel. In this work, we first present a constrained optimization perspective of SVLS and demonstrate that it enforces an implicit constraint on soft class proportions of surrounding pixels. Furthermore, our analysis shows that SVLS lacks a mechanism to balance the contribution of the constraint with the primary objective, potentially hindering the optimization process. Based on these observations, we propose NACL (Neighbor Aware CaLibration), a principled and simple solution based on equality constraints on the logit values, which enables to control explicitly both the enforced constraint and the weight of the penalty, offering more flexibility. Comprehensive experiments on a wide variety of well-known segmentation benchmarks demonstrate the superior calibration performance of the proposed approach, without affecting its discriminative power. Furthermore, ablation studies empirically show the model agnostic nature of our approach, which can be used to train a wide span of deep segmentation networks. | 翻訳日:2024-01-29 16:49:38 公開日:2024-01-25 |
# CloudTracks: クラウドの衛星画像に船舶追跡をローカライズするためのデータセット CloudTracks: A Dataset for Localizing Ship Tracks in Satellite Images of Clouds ( http://arxiv.org/abs/2401.14486v1 ) ライセンス: Link先を確認 | Muhammad Ahmed Chaudhry, Lyna Kim, Jeremy Irvin, Yuzu Ido, Sonia Chu, Jared Thomas Isobe, Andrew Y. Ng, Duncan Watson-Parris | (参考訳) 雲は惑星アルベドへの影響を通じて地球温度の調節において重要な役割を担っている。
エアロゾルの人為的な放出は雲のアルベドを変化させる可能性があるが、この効果の程度や温度変化への影響は未だ不明である。
船舶のエアロゾル放出によって引き起こされる人為的な雲は、一般に船の線路と呼ばれ、この効果が隣接する雲の領域と異なることが明らかとなり、人為的な雲を研究するのに有用な砂場として機能する。
しかし、大規模な船舶追跡データがないため、雲の形成に対する一般的な影響を推測することは困難である。
CloudTracksは,3,560の衛星画像と12,000以上の船のトラックインスタンスアノテーションをラベル付けしたデータセットである。
セマンティクスセグメンテーションとインスタンスセグメンテーションモデルのベースラインをデータセット上でトレーニングし、最高のモデルは以前の船舶のトラックローカライゼーション(61.29対48.65 iou)の最先端を実質的に上回っていることを突き止めました。
また、最良のインスタンスセグメンテーションモデルでは、各画像中の船のトラック数を以前の最先端(1.64対4.99 MAE)よりも正確に識別できることがわかった。
しかし、最良のモデルが正確なローカライズと追跡に苦労しているケースを特定することで、cloudtracksは新しい機械学習アプローチを刺激し、衛星画像の長大で重なり合った特徴をより検出できると信じている。
データセットは{zenodo.org/records/10042922}で公開しています。 Clouds play a significant role in global temperature regulation through their effect on planetary albedo. Anthropogenic emissions of aerosols can alter the albedo of clouds, but the extent of this effect, and its consequent impact on temperature change, remains uncertain. Human-induced clouds caused by ship aerosol emissions, commonly referred to as ship tracks, provide visible manifestations of this effect distinct from adjacent cloud regions and therefore serve as a useful sandbox to study human-induced clouds. However, the lack of large-scale ship track data makes it difficult to deduce their general effects on cloud formation. Towards developing automated approaches to localize ship tracks at scale, we present CloudTracks, a dataset containing 3,560 satellite images labeled with more than 12,000 ship track instance annotations. We train semantic segmentation and instance segmentation model baselines on our dataset and find that our best model substantially outperforms previous state-of-the-art for ship track localization (61.29 vs. 48.65 IoU). We also find that the best instance segmentation model is able to identify the number of ship tracks in each image more accurately than the previous state-of-the-art (1.64 vs. 4.99 MAE). However, we identify cases where the best model struggles to accurately localize and count ship tracks, so we believe CloudTracks will stimulate novel machine learning approaches to better detect elongated and overlapping features in satellite images. We release our dataset openly at {zenodo.org/records/10042922}. | 翻訳日:2024-01-29 16:49:09 公開日:2024-01-25 |
# 生成AIアプリケーションのための設計原則 Design Principles for Generative AI Applications ( http://arxiv.org/abs/2401.14484v1 ) ライセンス: Link先を確認 | Justin D. Weisz, Jessica He, Michael Muller, Gabriela Hoefer, Rachel Miles, Werner Geyer | (参考訳) 生成AIアプリケーションはユニークな設計課題を提示する。
生成AI技術が主流のアプリケーションにますます取り入れられているため、効果的で安全な使用を促進するユーザエクスペリエンスを設計するためのガイダンスが緊急に必要である。
我々は、生成AIUXのユニークな特徴に対処し、AIアプリケーションの設計における既知の問題の新たな解釈と拡張を提供する、生成AIアプリケーションの設計に関する6つの原則を示す。
各原則は、UX機能や設計プロセスを通じて、その原則を実装するための一連の設計戦略と結合されます。
原則と戦略は、文献レビュー、デザイン実践者からのフィードバック、現実の生成AIアプリケーションに対する検証、および2つの生成AIアプリケーションの設計プロセスへの組み入れを含む反復的なプロセスを通じて開発された。
我々は、実用的なデザインレコメンデーションを駆動することによって、生成AIアプリケーションの設計を効果的に通知する原則を期待する。 Generative AI applications present unique design challenges. As generative AI technologies are increasingly being incorporated into mainstream applications, there is an urgent need for guidance on how to design user experiences that foster effective and safe use. We present six principles for the design of generative AI applications that address unique characteristics of generative AI UX and offer new interpretations and extensions of known issues in the design of AI applications. Each principle is coupled with a set of design strategies for implementing that principle via UX capabilities or through the design process. The principles and strategies were developed through an iterative process involving literature review, feedback from design practitioners, validation against real-world generative AI applications, and incorporation into the design process of two generative AI applications. We anticipate the principles to usefully inform the design of generative AI applications by driving actionable design recommendations. | 翻訳日:2024-01-29 16:48:36 公開日:2024-01-25 |
# 予測フェリシティの4つの側面:キャリブレーション、予測性、ランダム性、後悔 Four Facets of Forecast Felicity: Calibration, Predictiveness, Randomness and Regret ( http://arxiv.org/abs/2401.14483v1 ) ライセンス: Link先を確認 | Rabanus Derr and Robert C. Williamson | (参考訳) 機械学習は予測することです。
しかし、予測は評価によってのみ有用性を得る。
機械学習は伝統的に、損失の種類とそれに対応する後悔に焦点を当ててきた。
現在、機械学習コミュニティは校正への関心を取り戻している。
本研究では,予測評価における校正と後悔の概念的等価性を示す。
評価問題を予測器とギャンブラーと自然とのゲームとして構成する。
ギャンブラーと予測器に直感的な制限を加えると、キャリブレーションと後悔はフレームワークから自然に抜け出します。
また,このゲームは予測評価と結果のランダム性を関連付ける。
予測に関するランダムな結果は、結果に関して良い予測と等価である。
これら2つの側面、キャリブレーションと後悔、予測性とランダム性、予測フェリシティの4つの側面を呼ぶ。 Machine learning is about forecasting. Forecasts, however, obtain their usefulness only through their evaluation. Machine learning has traditionally focused on types of losses and their corresponding regret. Currently, the machine learning community regained interest in calibration. In this work, we show the conceptual equivalence of calibration and regret in evaluating forecasts. We frame the evaluation problem as a game between a forecaster, a gambler and nature. Putting intuitive restrictions on gambler and forecaster, calibration and regret naturally fall out of the framework. In addition, this game links evaluation of forecasts to randomness of outcomes. Random outcomes with respect to forecasts are equivalent to good forecasts with respect to outcomes. We call those dual aspects, calibration and regret, predictiveness and randomness, the four facets of forecast felicity. | 翻訳日:2024-01-29 16:48:21 公開日:2024-01-25 |
# 反対称交換存在下での部分的アクセス可能な異方性スピン鎖のキャラクタリゼーション Characterization of partially accessible anisotropic spin chains in the presence of anti-symmetric exchange ( http://arxiv.org/abs/2401.14479v1 ) ライセンス: Link先を確認 | Simone Cavazzoni, Marco Adani, Paolo Bordone, Matteo G. A. Paris | (参考訳) 反対称交換の存在下での異方性スピン鎖の量子キャラクタリゼーションに対処し、量子力学によって課される究極の限界に近づく精度で鎖のハミルトニアンパラメータを推定できるかどうかを調べる。
従来のアプローチと異なる点では、チェーン全体に観測可能なグローバルではなく、2つの近傍スピンのみを測定することで抽出される情報に焦点を当てる。
我々は,スピンカップリング,異方性,ジアロシンスキー・モリヤ(DM)パラメータなど,関連するすべてのパラメータについて,2スピン磁化計のフィッシャー情報(FI)とそれに対応する量子フィッシャー情報(QFI)を評価する。
この結果から, 隣接する2つのスピンからなる還元系は, システム全体のグローバルな特性を特徴づけるプローブとして実際に利用される可能性が示唆された。
特に、結合値の広い範囲において、FIとQFIの比が単位に近いことが分かる。
DM結合は、交換相互作用を無視するモデルには存在せず、全体的な推定手順の堅牢性を高めるために利用されるため、FIおよびQFIに追加のバンプとピークが存在するため、結合推定に有用である。
最後に、マルチパラメータ推定問題に対処し、モデルが互換性はあるがスロッピーであること、すなわち、ウルマン曲率とQFI行列の行列式の両方が消えることを示す。
物理的には、システムの状態は実際にはパラメータの組み合わせ数の減少にのみ依存し、それら全てを個別に依存しないことを意味する。 We address quantum characterization of anisotropic spin chains in the presence of antisymmetric exchange, and investigate whether the Hamiltonian parameters of the chain may be estimated with precision approaching the ultimate limit imposed by quantum mechanics. At variance with previous approaches, we focus on the information that may be extracted by measuring only two neighbouring spins rather than a global observable on the entire chain. We evaluate the Fisher information (FI) of a two-spin magnetization measure, and the corresponding quantum Fisher information (QFI), for all the relevant parameters, i.e. the spin coupling, the anisotropy, and the Dzyaloshinskii Moriya (DM) parameter. Our results show that the reduced system made of two neighbouring spins may be indeed exploited as a probe to characterize global properties of the entire system. In particular, we find that the ratio between the FI and the QFI is close to unit for a large range of the coupling values. The DM coupling is beneficial for coupling estimation, since it leads to the presence of additional bumps and peaks in the FI and QFI, which are not present in a model that neglects exchange interaction and may be exploited to increase the robustness of the overall estimation procedure. Finally, we address the multiparameter estimation problem, and show that the model is compatible but sloppy, i.e. both the Uhlmann curvature and the determinant of the QFI matrix vanish. Physically, this means that the state of the system actually depends only on a reduced numbers of combinations of parameters, and not on all of them separately. | 翻訳日:2024-01-29 16:48:09 公開日:2024-01-25 |
# 訓練された奥行き畳み込み核における未知:識別可能なクラスターの出現 Unveiling the Unseen: Identifiable Clusters in Trained Depthwise Convolutional Kernels ( http://arxiv.org/abs/2401.14469v1 ) ライセンス: Link先を確認 | Zahra Babaiee, Peyman M. Kiasari, Daniela Rus, Radu Grosu | (参考訳) 深部分離型畳み込みニューラルネットワーク(DS-CNN)の最近の進歩は、古典的なCNNの性能を超える新しいアーキテクチャを、相当なスケーラビリティと精度のマージンで実現している。
本稿では,DS-CNNアーキテクチャのもう一つの顕著な特性を明らかにする。
異なるサイズと様々なモデルで訓練された数百万のフィルタを広範囲に分析し、オートエンコーダを用いた教師なしクラスタリングを用いて、これらのフィルタを分類した。
驚くべきことに、これらのパターンは数個の主クラスターに収束し、それぞれがガウス函数(DoG)とそれらの一階微分と二階微分の差に類似している。
特に、最先端のConvNextV2モデルとConvNeXtモデルからフィルタの95%以上と90%以上を分類することができた。
この発見は単なる技術的好奇心ではなく、神経科学者が哺乳類の視覚システムに対して長年提案してきた基礎モデルと一致する。
その結果、訓練されたds-cnnsの創発的特性の理解を深め、人工視覚処理システムと生体視覚処理システムの橋渡しとなる。
さらに広くは、将来的にはより解釈可能で生物学的にインスパイアされたニューラルネットワーク設計の道を開いた。 Recent advances in depthwise-separable convolutional neural networks (DS-CNNs) have led to novel architectures, that surpass the performance of classical CNNs, by a considerable scalability and accuracy margin. This paper reveals another striking property of DS-CNN architectures: discernible and explainable patterns emerge in their trained depthwise convolutional kernels in all layers. Through an extensive analysis of millions of trained filters, with different sizes and from various models, we employed unsupervised clustering with autoencoders, to categorize these filters. Astonishingly, the patterns converged into a few main clusters, each resembling the difference of Gaussian (DoG) functions, and their first and second-order derivatives. Notably, we were able to classify over 95\% and 90\% of the filters from state-of-the-art ConvNextV2 and ConvNeXt models, respectively. This finding is not merely a technological curiosity; it echoes the foundational models neuroscientists have long proposed for the vision systems of mammals. Our results thus deepen our understanding of the emergent properties of trained DS-CNNs and provide a bridge between artificial and biological visual processing systems. More broadly, they pave the way for more interpretable and biologically-inspired neural network designs in the future. | 翻訳日:2024-01-29 16:47:40 公開日:2024-01-25 |
# 相関図における秩序-カオス遷移と周期軌道の量子化 Order-chaos transition in correlation diagrams and quantization of period orbits ( http://arxiv.org/abs/2401.14465v1 ) ライセンス: Link先を確認 | F. J. Arranz, J. Montes, and F. Borondo | (参考訳) 固有レベル相関ダイアグラムは、古典的カオスシステムの固有状態特性を理解する上で非常に有用なツールであることが証明されている。
特に,前回出版した[phys. rev. lett. 80, 944 (1998)]において,プランク定数を相関パラメータとして用いる量子カオス理論の基礎となるスカーリング機構をいかに披露するかを示した。
プランク定数を増大させることにより、スカーレッド波動関数が広範に回避された交差における固有状態の対の相互作用として現れる秩序からカオスへの遷移を誘導し、相関図において明確に定義されたフロンティアを形成する。
本稿では,このフロンティアが,関与する周期軌道の半古典的量子化によって得られることを実証する。
さらに,半古典的量子化手順に必要な各周期軌道のマスロフ指数を計算するために,ラグランジアン記述子に基づく新しい簡単な方法を提案する。
我々は、LiCN分子系の振動固有状態を用いた理論を説明する。 Eigenlevel correlation diagrams has proven to be a very useful tool to understand eigenstate characteristics of classically chaotic systems. In particular, we showed in a previous publication [Phys. Rev. Lett. 80, 944 (1998)] how to unveil the scarring mechanism, a cornerstone in the theory of quantum chaos, using the Planck constant as the correlation parameter. By increasing Planck constant, we induced a transition from order to chaos, in which scarred wavefunctions appeared as the interaction of pairs of eigenstates in broad avoided crossings, forming a well defined frontier in the correlation diagram. In this paper, we demonstrate that this frontier can be obtained by means of the semiclassical quantization of the involved scarring periodic orbits. Additionally, in order to calculate the Maslov index of each scarring periodic orbit, which is necessary for the semiclassical quantization procedure, we introduce a novel straightforward method based on Lagrangian descriptors. We illustrate the theory using the vibrational eigenstates of the LiCN molecular system. | 翻訳日:2024-01-29 16:47:18 公開日:2024-01-25 |
# AI監査:AIアカウンタビリティへの道のりで壊れたバス AI auditing: The Broken Bus on the Road to AI Accountability ( http://arxiv.org/abs/2401.14462v1 ) ライセンス: Link先を確認 | Abeba Birhane, Ryan Steed, Victor Ojewale, Briana Vecchione, Inioluwa Deborah Raji | (参考訳) 有意義なai説明責任に向けるべき最も具体的な手段の1つは、システムのパフォーマンスと影響を適切に評価し報告することである。
しかし、「ai監査」エコシステムの実際的な性質は混乱し、不正確であり、様々な概念を乗り越え、その実践に関わる利害関係者をマップすることは困難である。
まず、規制当局、法律事務所、市民社会、ジャーナリズム、アカデミック、コンサルティング機関による現在のAI監査の実践を分類する。
次に、各ドメイン内の利害関係者による監査の影響を評価する。
ai監査研究のサブセットだけが、望ましい説明責任の結果につながることが分かっています。
そこで我々は,効果的なAI監査結果に必要なプラクティスを評価,分離し,AI監査設計と方法論と制度的コンテキストの相互関係を,説明責任の有意義なメカニズムとして評価する。 One of the most concrete measures to take towards meaningful AI accountability is to consequentially assess and report the systems' performance and impact. However, the practical nature of the "AI audit" ecosystem is muddled and imprecise, making it difficult to work through various concepts and map out the stakeholders involved in the practice. First, we taxonomize current AI audit practices as completed by regulators, law firms, civil society, journalism, academia, consulting agencies. Next, we assess the impact of audits done by stakeholders within each domain. We find that only a subset of AI audit studies translate to desired accountability outcomes. We thus assess and isolate practices necessary for effective AI audit results, articulating the observed connections between AI audit design, methodology and institutional context on its effectiveness as a meaningful mechanism for accountability. | 翻訳日:2024-01-29 16:46:58 公開日:2024-01-25 |
# Marabou 2.0: ニューラルネットワークのVersatile形式分析ツール Marabou 2.0: A Versatile Formal Analyzer of Neural Networks ( http://arxiv.org/abs/2401.14461v1 ) ライセンス: Link先を確認 | Haoze Wu, Omri Isac, Aleksandar Zelji\'c, Teruhiro Tagomori, Matthew Daggitt, Wen Kokke, Idan Refaeli, Guy Amir, Kyle Julian, Shahaf Bassan, Pei Huang, Ori Lahav, Min Wu, Min Zhang, Ekaterina Komendantskaya, Guy Katz, and Clark Barrett | (参考訳) 本稿では,ニューラルネットワークの形式解析のためのMarabouフレームワークのバージョン2.0の包括的システム記述として機能する。
ツールのアーキテクチャ設計について議論し、最初のリリース以降に導入された主要な機能とコンポーネントを強調します。 This paper serves as a comprehensive system description of version 2.0 of the Marabou framework for formal analysis of neural networks. We discuss the tool's architectural design and highlight the major features and components introduced since its initial release. | 翻訳日:2024-01-29 16:46:43 公開日:2024-01-25 |
# Wordflow: 大規模言語モデルのためのソーシャルプロンプトエンジニアリング Wordflow: Social Prompt Engineering for Large Language Models ( http://arxiv.org/abs/2401.14447v1 ) ライセンス: Link先を確認 | Zijie J. Wang, Aishwarya Chakravarthy, David Munechika, Duen Horng Chau | (参考訳) 大規模言語モデル(LLM)は、効果的に使用するには巧妙なプロンプトを必要とする。
プロンプト設計のプロセスであるプロンプトエンジニアリングは、特にai技術に精通していない非専門家にとって困難である。
研究者はLLMユーザを即時設計で支援する技術やツールを提案しているが、これらは主に非専門家ではなくAIアプリケーション開発者をターゲットにしている。
この研究のギャップに対処するため,我々は,協調的なプロンプトデザインを促進するために,ソーシャルコンピューティング技術を活用した新しいパラダイムであるソーシャル・プロンプト・エンジニアリングを提案する。
ソーシャル・プロンプト・エンジニアリングを調査するため,オープンソースかつソーシャルなテキストエディタであるWordflowを導入し,LLMプロンプトの作成,実行,共有,発見を容易にする。
さらに、最新のWeb技術を活用することで、WordflowはユーザーがブラウザでローカルおよびプライベートにLLMを実行できる。
2つの利用シナリオは、社会的なプロンプトエンジニアリングとツールが、LLMとの相互作用をいかに促進できるかを強調している。
wordflowはhttps://poloclub.github.io/wordflowで公開されている。 Large language models (LLMs) require well-crafted prompts for effective use. Prompt engineering, the process of designing prompts, is challenging, particularly for non-experts who are less familiar with AI technologies. While researchers have proposed techniques and tools to assist LLM users in prompt design, these works primarily target AI application developers rather than non-experts. To address this research gap, we propose social prompt engineering, a novel paradigm that leverages social computing techniques to facilitate collaborative prompt design. To investigate social prompt engineering, we introduce Wordflow, an open-source and social text editor that enables everyday users to easily create, run, share, and discover LLM prompts. Additionally, by leveraging modern web technologies, Wordflow allows users to run LLMs locally and privately in their browsers. Two usage scenarios highlight how social prompt engineering and our tool can enhance laypeople's interaction with LLMs. Wordflow is publicly accessible at https://poloclub.github.io/wordflow. | 翻訳日:2024-01-29 16:46:40 公開日:2024-01-25 |
# 厳格なAI監査にはブラックボックスアクセスが不十分 Black-Box Access is Insufficient for Rigorous AI Audits ( http://arxiv.org/abs/2401.14446v1 ) ライセンス: Link先を確認 | Stephen Casper, Carson Ezell, Charlotte Siegmann, Noam Kolt, Taylor Lynn Curtis, Benjamin Bucknall, Andreas Haupt, Kevin Wei, J\'er\'emy Scheurer, Marius Hobbhahn, Lee Sharkey, Satyapriya Krishna, Marvin Von Hagen, Silas Alberti, Alan Chan, Qinyi Sun, Michael Gerovitch, David Bau, Max Tegmark, David Krueger, Dylan Hadfield-Menell | (参考訳) AIシステムの外部監査は、AIガバナンスの重要なメカニズムとして、ますます認識されている。
しかし、監査の有効性は監査者に与えられるシステムアクセスの程度に依存する。
最近の最先端のAIシステムの監査は、主にブラックボックスアクセスに依存しており、監査官はシステムに問い合わせて出力を観察することしかできない。
しかしながら、システムの内部動作(重み、アクティベーション、勾配など)へのホワイトボックスアクセスにより、監査役はより強力な攻撃を行い、より徹底的なモデル解釈を行い、微調整を行うことができる。
一方、外部からのトレーニングやデプロイメント情報(方法論、コード、ドキュメント、ハイパーパラメータ、データ、デプロイメントの詳細、内部評価からの知見など)へのアクセスによって、監査役は開発プロセスを精査し、よりターゲットとした評価を設計できるようになる。
本稿では,ブラックボックス監査の限界と,ホワイトボックス監査の利点について検討する。
また,これらの監査を行うための技術的,物理的,法的保護策について,最小限のセキュリティリスクで議論する。
異なるアクセス形態が全く異なる評価に繋がる可能性があることを考慮し、(1)監査人によるアクセスとメソッドに関する透明性は監査結果を適切に解釈するために必要であり、(2)ホワイト・ザ・ボックス・アクセスはブラックボックス・アクセス単独よりもかなり精査できると結論づける。 External audits of AI systems are increasingly recognized as a key mechanism for AI governance. The effectiveness of an audit, however, depends on the degree of system access granted to auditors. Recent audits of state-of-the-art AI systems have primarily relied on black-box access, in which auditors can only query the system and observe its outputs. However, white-box access to the system's inner workings (e.g., weights, activations, gradients) allows an auditor to perform stronger attacks, more thoroughly interpret models, and conduct fine-tuning. Meanwhile, outside-the-box access to its training and deployment information (e.g., methodology, code, documentation, hyperparameters, data, deployment details, findings from internal evaluations) allows for auditors to scrutinize the development process and design more targeted evaluations. In this paper, we examine the limitations of black-box audits and the advantages of white- and outside-the-box audits. We also discuss technical, physical, and legal safeguards for performing these audits with minimal security risks. Given that different forms of access can lead to very different levels of evaluation, we conclude that (1) transparency regarding the access and methods used by auditors is necessary to properly interpret audit results, and (2) white- and outside-the-box access allow for substantially more scrutiny than black-box access alone. | 翻訳日:2024-01-29 16:46:21 公開日:2024-01-25 |
# 大規模言語モデルにおける相対値バイアス Relative Value Biases in Large Language Models ( http://arxiv.org/abs/2401.14530v1 ) ライセンス: Link先を確認 | William M. Hayes, Nicolas Yax, Stefano Palminteri | (参考訳) 人間と動物の強化学習の研究は、たとえそれらの選択肢が絶対報酬が低い場合であっても、過去に比較的良い結果をもたらす選択肢の選好を示した。
本研究は,大規模言語モデルが同様のバイアスを示すかどうかを検証した。
gpt-4-1106-preview (GPT-4 Turbo) と Llama-2-70B は、対の選択肢を繰り返し選択し、支払いの最大化を目標とした。
前回の結果の完全な記録は各プロンプトに含まれていた。
どちらのモデルも人間や動物と同様の相対的な値決定バイアスを示した。
結果間の相対的な比較はバイアスを増大させる一方、モデルに期待される結果を予測するように促すとバイアスは消滅する。
これらの結果は、人間エージェントの文脈依存的な選択に寄与する潜在的なメカニズムに影響を及ぼす。 Studies of reinforcement learning in humans and animals have demonstrated a preference for options that yielded relatively better outcomes in the past, even when those options are associated with lower absolute reward. The present study tested whether large language models would exhibit a similar bias. We had gpt-4-1106-preview (GPT-4 Turbo) and Llama-2-70B make repeated choices between pairs of options with the goal of maximizing payoffs. A complete record of previous outcomes was included in each prompt. Both models exhibited relative value decision biases similar to those observed in humans and animals. Making relative comparisons among outcomes more explicit magnified the bias, whereas prompting the models to estimate expected outcomes caused the bias to disappear. These results have implications for the potential mechanisms that contribute to context-dependent choice in human agents. | 翻訳日:2024-01-29 16:40:54 公開日:2024-01-25 |
# MEDs for PETs:多言語的エフェミズムの曖昧化と潜在的エフェミズム用語 MEDs for PETs: Multilingual Euphemism Disambiguation for Potentially Euphemistic Terms ( http://arxiv.org/abs/2401.14526v1 ) ライセンス: Link先を確認 | Patrick Lee, Alain Chirino Trujillo, Diana Cuevas Plancarte, Olumide Ebenezer Ojo, Xinyi Liu, Iyanuoluwa Shode, Yuan Zhao, Jing Peng, Anna Feldman | (参考訳) 本研究では,多言語間の普遍的言語現象であるオイフェミズムの計算処理について検討する。
多言語トランスフォーマーモデル (xlm-roberta) を訓練し,多言語および言語間設定において,潜在的優美語 (pets) の曖昧さを解消する。
現在の傾向に合わせて、言語間でゼロショット学習が行われることを示す。
また,多言語モデルが単一言語モデルよりも,統計的に有意なマージンでタスクに優れる場合も示し,多言語データから,共生の言語間・計算的性質について学習する余分な機会が示唆された。
フォローアップ分析では,死や身体機能といった普遍的遠近観的「カテゴリー」に焦点をあてた。
我々は、同じドメインの言語間データが他のドメインの言語内データよりも重要かどうかを検証し、言語間転送の性質をより深く理解する。 This study investigates the computational processing of euphemisms, a universal linguistic phenomenon, across multiple languages. We train a multilingual transformer model (XLM-RoBERTa) to disambiguate potentially euphemistic terms (PETs) in multilingual and cross-lingual settings. In line with current trends, we demonstrate that zero-shot learning across languages takes place. We also show cases where multilingual models perform better on the task compared to monolingual models by a statistically significant margin, indicating that multilingual data presents additional opportunities for models to learn about cross-lingual, computational properties of euphemisms. In a follow-up analysis, we focus on universal euphemistic "categories" such as death and bodily functions among others. We test to see whether cross-lingual data of the same domain is more important than within-language data of other domains to further understand the nature of the cross-lingual transfer. | 翻訳日:2024-01-29 16:40:41 公開日:2024-01-25 |
# GPT-3.5の共通トピックによる欧州憲法文書の認識と要約能力の評価 Evaluating GPT-3.5's Awareness and Summarization Abilities for European Constitutional Texts with Shared Topics ( http://arxiv.org/abs/2401.14524v1 ) ライセンス: Link先を確認 | Candida M. Greco, A. Tagarelli | (参考訳) 憲法は、政府や社会構造を支える基礎となる法的文書である。
そのため、国民の文化的・社会的独自性を反映するだけでなく、市民の権利や義務(RD)のような普遍的な重要性のトピックの確立にも寄与する。
本稿では,著名なgpt-3.5を用いて,生成的大規模言語モデルを用いて,国の境界を超えた憲法の解釈を行う。
本研究の重要な貢献は、RDトピックスに関連する欧州諸国のコンスティチューションパスに着目した、複数ソースのコンスティチューションテキストの集合に対する抽象的な要約の新たな適用の導入である。
GPT-3.5の意義は,欧州各国でRDトピックスを収集する情報的,一貫性,忠実な要約が得られた。 Constitutions are foundational legal documents that underpin the governmental and societal structures. As such, they are a reflection of a nation's cultural and social uniqueness, but also contribute to establish topics of universal importance, like citizens' rights and duties (RD). In this work, using the renowned GPT-3.5, we leverage generative large language models to understand constitutional passages that transcend national boundaries. A key contribution of our study is the introduction of a novel application of abstractive summarization on a multi-source collection of constitutional texts, with a focus on European countries' constitution passages related to RD topics. Our results show the meaningfulness of GPT-3.5 to produce informative, coherent and faithful summaries capturing RD topics across European countries. | 翻訳日:2024-01-29 16:40:17 公開日:2024-01-25 |
# 共感と例外になる権利 - LLMができることとできないこと Empathy and the Right to Be an Exception: What LLMs Can and Cannot Do ( http://arxiv.org/abs/2401.14523v1 ) ライセンス: Link先を確認 | William Kidder, Jason D'Cruz, and Kush R. Varshney | (参考訳) 大規模言語モデル(LLM)の性能向上により、人工知能(AI)における心の理論(ToM)の出現が提案されている研究者もいる。
LLMは信念、欲望、意図、感情に特化し、正確性を改善することができる。
特徴的な人間の共感法を採用するのではなく、通常その個人を含まないデータセットの言語パターンを認識することで、精神状態の属性を学習する。
LLMが共感できないことは、個々人の個性に対する適切な敏感さを反映した性格評価や行動予測を行うことから、個々人の例外となる権利を尊重することを妨げるかどうかを問う。
llmは、個人の主張が信念、欲望、意図のような内的精神状態に基づいて異なるという主張を真剣に考えることができるか、あるいは、そのケースを他人との類似性に基づいて判断することに限定されるのか?
本稿では,LLMが優れている予測精度の値とは異なる例外となる権利を尊重する上で,共感の方法が特に重要であることを提案する。
本研究は, 例外的事例に対する共感の活用が本質的あるいは単なる実用的価値を持つか否かを考察し, 本研究を進めるための概念的, 経験的方法を紹介する。 Advances in the performance of large language models (LLMs) have led some researchers to propose the emergence of theory of mind (ToM) in artificial intelligence (AI). LLMs can attribute beliefs, desires, intentions, and emotions, and they will improve in their accuracy. Rather than employing the characteristically human method of empathy, they learn to attribute mental states by recognizing linguistic patterns in a dataset that typically do not include that individual. We ask whether LLMs' inability to empathize precludes them from honoring an individual's right to be an exception, that is, from making assessments of character and predictions of behavior that reflect appropriate sensitivity to a person's individuality. Can LLMs seriously consider an individual's claim that their case is different based on internal mental states like beliefs, desires, and intentions, or are they limited to judging that case based on its similarities to others? We propose that the method of empathy has special significance for honoring the right to be an exception that is distinct from the value of predictive accuracy, at which LLMs excel. We conclude by considering whether using empathy to consider exceptional cases has intrinsic or merely practical value and we introduce conceptual and empirical avenues for advancing this investigation. | 翻訳日:2024-01-29 16:40:03 公開日:2024-01-25 |
# 質量保存型パーセプトロンを用いた解釈可能な物理概念的キャッチメント・スケール水文モデルの開発 Towards Interpretable Physical-Conceptual Catchment-Scale Hydrological Modeling using the Mass-Conserving-Perceptron ( http://arxiv.org/abs/2401.14521v1 ) ライセンス: Link先を確認 | Yuan-Heng Wang, Hoshin V. Gupta | (参考訳) 本研究は,MCP(Mass-Conserving Perceptron)を基本計算単位とする有向グラフアーキテクチャを用いて,機械学習技術の相似・解釈可能・キャッチメントスケール水理学モデル開発への適用性について検討する。
ここでは、大きなキャッチメントのサンプルにまたがる普遍的な適用可能性(ブレッドス)ではなく、単一の場所でアーキテクチャの複雑さ(深度)に焦点を当てる。
目的は、与えられたキャッチメントの入力状態と出力の振る舞いを説明できる支配的なプロセスを表す最小の表現(細胞状態とフローパスの数)を見つけることであり、特にフローダイナミクスの全範囲(高、中、低)をシミュレートすることである。
3つの細胞状態と2つの主要なフロー経路を持つハイモッド型アーキテクチャは、このような表現を研究位置において達成するが、入力・バイパス機構の追加はハイドログラフのタイミングと形状を著しく改善し、一方双方向の地下水の物質交換はベースフローのシミュレーションを大幅に向上させる。
全体としては,複数の診断指標をモデル評価に使用することの重要性を示しつつ,フローダイナミクスの全範囲にわたる情報抽出に適したトレーニングメトリクスの設計の必要性を強調する。
さらに,様々な水文環境におけるキャッチメントの適切な最小表現を決定するために,ニューラルネットワークによる探索を用いて,地域規模のmcpに基づく水文モデリング(大規模サンプルデータを用いた)のステージを設定した。 We investigate the applicability of machine learning technologies to the development of parsimonious, interpretable, catchment-scale hydrologic models using directed-graph architectures based on the mass-conserving perceptron (MCP) as the fundamental computational unit. Here, we focus on architectural complexity (depth) at a single location, rather than universal applicability (breadth) across large samples of catchments. The goal is to discover a minimal representation (numbers of cell-states and flow paths) that represents the dominant processes that can explain the input-state-output behaviors of a given catchment, with particular emphasis given to simulating the full range (high, medium, and low) of flow dynamics. We find that a HyMod-like architecture with three cell-states and two major flow pathways achieves such a representation at our study location, but that the additional incorporation of an input-bypass mechanism significantly improves the timing and shape of the hydrograph, while the inclusion of bi-directional groundwater mass exchanges significantly enhances the simulation of baseflow. Overall, our results demonstrate the importance of using multiple diagnostic metrics for model evaluation, while highlighting the need for designing training metrics that are better suited to extracting information across the full range of flow dynamics. Further, they set the stage for interpretable regional-scale MCP-based hydrological modeling (using large sample data) by using neural architecture search to determine appropriate minimal representations for catchments in different hydroclimatic regimes. | 翻訳日:2024-01-29 16:39:40 公開日:2024-01-25 |
# smishingの緩和 - 課題と今後の課題 Mitigating Smishing: Challenges and Future Work ( http://arxiv.org/abs/2401.14520v1 ) ライセンス: Link先を確認 | Cori Faklaris | (参考訳) 本稿では,デバイス利用のスマイシング,インフラストラクチャの複雑さ,モバイルデバイス利用の認知的・文脈的要因について述べる。
私たちは、スマイシングを緩和し、これらの課題に対処できるアイデアの高レベルな概要を提供します。 This paper describes three principal challenges in smishing mitigation - limitations of device affordances, complexity of infrastructure, and cognitive and contextual factors of mobile device use. We give a high-level overview of ideas that can mitigate smishing and work around these challenges. | 翻訳日:2024-01-29 16:39:12 公開日:2024-01-25 |
# 誰を失くした?
人口不足を特徴付けるための原則的アプローチ Who Are We Missing? A Principled Approach to Characterizing the Underrepresented Population ( http://arxiv.org/abs/2401.14512v1 ) ライセンス: Link先を確認 | Harsh Parikh, Rachael Ross, Elizabeth Stuart, Kara Rudolph | (参考訳) ランダム化制御試験(RCTs)は因果関係の理解の基盤となるが、対象人口への推論は不均一性や表現不足による課題を呈する。
本稿は,rctsにおける表現不足部分群を同定し特徴付けるという重要な問題に対処し,一般化可能性を改善するためにターゲット集団を洗練するための新しい枠組みを提案する。
我々は,低表現群を特徴付ける最適化ベースアプローチとして,最適木(ルート)のラショモン集合を提案する。
rootは、ターゲット平均処理効果推定の分散を最小化し、より正確な処理効果推定を保証し、ターゲットサブポピュレーション分布を最適化する。
特に、ROOTは人口不足の解釈可能な特性を生成し、研究者の効果的なコミュニケーションを支援する。
提案手法は, 合成データ実験で示すように, 精度と解釈性の向上を示す。
我々は,アゴニスト置換療法による開始療法(START)の臨床試験から,オピオイド使用障害の治療薬の有効性を調査する手法を,治療エピソードデータセット(TEDS-A)で表される現実世界の人口へ拡張する手法を適用した。
ROOTを用いて対象集団を精錬することにより,意思決定精度を高め,多様な集団における今後の試行を通知するための体系的なアプローチを提供する。 Randomized controlled trials (RCTs) serve as the cornerstone for understanding causal effects, yet extending inferences to target populations presents challenges due to effect heterogeneity and underrepresentation. Our paper addresses the critical issue of identifying and characterizing underrepresented subgroups in RCTs, proposing a novel framework for refining target populations to improve generalizability. We introduce an optimization-based approach, Rashomon Set of Optimal Trees (ROOT), to characterize underrepresented groups. ROOT optimizes the target subpopulation distribution by minimizing the variance of the target average treatment effect estimate, ensuring more precise treatment effect estimations. Notably, ROOT generates interpretable characteristics of the underrepresented population, aiding researchers in effective communication. Our approach demonstrates improved precision and interpretability compared to alternatives, as illustrated with synthetic data experiments. We apply our methodology to extend inferences from the Starting Treatment with Agonist Replacement Therapies (START) trial -- investigating the effectiveness of medication for opioid use disorder -- to the real-world population represented by the Treatment Episode Dataset: Admissions (TEDS-A). By refining target populations using ROOT, our framework offers a systematic approach to enhance decision-making accuracy and inform future trials in diverse populations. | 翻訳日:2024-01-29 16:39:06 公開日:2024-01-25 |
# s(law)を用いた行為を判断する自動法的推論 Automated legal reasoning with discretion to act using s(LAW) ( http://arxiv.org/abs/2401.14511v1 ) ライセンス: Link先を確認 | Joaqu\'in Arias, Mar Moreno-Rebato, Jos\'e A. Rodr\'iguez-Garc\'ia, Sascha Ossowski | (参考訳) スマートコントラクトや自動決定における法律推論の自動化とその適用は、ますます関心を集めている。
この文脈では、倫理的および法的な懸念により、自動推論者がアドバイスを人間に理解しやすい言葉で正当化する必要がある。
論理プログラミング、特に解集合プログラミングは、豊富な意味論を持ち、非常に簡潔に複雑な知識を表現するために使われてきた。
しかし、actやあいまいさなどの曖昧な概念に対するモデリングの判断性は、prologに基づくトップダウン実行モデルでは表現できず、aspに基づいたボトムアップ実行モデルでは、正当化は不完全であり、スケーラブルではない。
パターンのセットに従って曖昧な概念をモデル化するために、ASPを述語するためのトップダウン実行モデルであるs(CASP)を使うことを提案する。
我々は,s(law)と呼ばれる枠組みを実装し,適用法をモデル化,理論化,正当化し,代表的ユースケースであるコミュニダード・デ・マドリードの学生の入学基準を翻訳(およびベンチマーク)することで検証した。 Automated legal reasoning and its application in smart contracts and automated decisions are increasingly attracting interest. In this context, ethical and legal concerns make it necessary for automated reasoners to justify in human-understandable terms the advice given. Logic Programming, specially Answer Set Programming, has a rich semantics and has been used to very concisely express complex knowledge. However, modelling discretionality to act and other vague concepts such as ambiguity cannot be expressed in top-down execution models based on Prolog, and in bottom-up execution models based on ASP the justifications are incomplete and/or not scalable. We propose to use s(CASP), a top-down execution model for predicate ASP, to model vague concepts following a set of patterns. We have implemented a framework, called s(LAW), to model, reason, and justify the applicable legislation and validate it by translating (and benchmarking) a representative use case, the criteria for the admission of students in the "Comunidad de Madrid". | 翻訳日:2024-01-29 16:38:43 公開日:2024-01-25 |
# RPNR:ロバスト知覚ニューラルリシェーディング RPNR: Robust-Perception Neural Reshading ( http://arxiv.org/abs/2401.14510v1 ) ライセンス: Link先を確認 | Fouad Afiouni, Mohamad Fakih and Joey Sleiman | (参考訳) Augmented Reality (AR) アプリケーションでは、必要なオブジェクトをカメラが捉えたシーンに、周囲と一貫性のある方法で挿入する必要がある。
一般的なARアプリケーションは、既知の特性と形状を持つ事前定義された3Dオブジェクトを挿入する必要がある。
これにより、周囲の光源を理解することにより、そのシーン内の物体の照明モデルを抽出することが少なくなるため、問題を単純化する。
しかし、オブジェクトの特性に関する情報、特に1つのソースイメージから逸脱する場合は、多くの場合そうではない。
本手法では,これら2つの画像のみを用いて,対象の周囲とコヒーレントな方法でソースフラグメントを描画する。
我々のパイプラインでは、U-Netアーキテクチャを主レンダラとしてベースとしたDeep Image Prior(DIP)ネットワークと、必要な損失を適用するために使用される堅牢な機能抽出ネットワークを使用します。
提案手法では,ペアラベルのデータは不要であり,データセットの広範なトレーニングは不要である。
本手法は質的指標を用いて, カット・ペースト, カット・ペースト, ニューラル・レンダリング, イメージ・ハーモニゼーションなどのベースライン手法と比較した。 Augmented Reality (AR) applications necessitates methods of inserting needed objects into scenes captured by cameras in a way that is coherent with the surroundings. Common AR applications require the insertion of predefined 3D objects with known properties and shape. This simplifies the problem since it is reduced to extracting an illumination model for the object in that scene by understanding the surrounding light sources. However, it is often not the case that we have information about the properties of an object, especially when we depart from a single source image. Our method renders such source fragments in a coherent way with the target surroundings using only these two images. Our pipeline uses a Deep Image Prior (DIP) network based on a U-Net architecture as the main renderer, alongside robust-feature extracting networks that are used to apply needed losses. Our method does not require any pair-labeled data, and no extensive training on a dataset. We compare our method using qualitative metrics to the baseline methods such as Cut and Paste, Cut And Paste Neural Rendering, and Image Harmonization | 翻訳日:2024-01-29 16:38:25 公開日:2024-01-25 |
# 電力制約デバイスを用いた長期交通データ収集の学習 Learning When to See for Long-term Traffic Data Collection on Power-constrained Devices ( http://arxiv.org/abs/2401.14504v1 ) ライセンス: Link先を確認 | Ruixuan Zhang, Wenyu Han, Zilin Bian, Kaan Ozbay, Chen Feng | (参考訳) 交通データ収集は交通システムや都市計画にとって不可欠であり、電力とネットワークのインフラの高可用性や高コストのため、容易に配置できるが電力に制約のあるデバイスの方が望ましい。
限られたパワーは、データ収集期間と精度/解像度の間の必然的なトレードオフを意味する。
本稿では,電池駆動装置の観測タイミングを戦略的に決定し,サンプルの少ない観測結果から全データストリームを再構築し,性能損失を最小化し,システム寿命を大幅に延長する,新たな学習ベースのフレームワークを提案する。
このフレームワークは,予測器,コントローラ,推定器から構成される。
予測者は、過去のデータを用いて、固定時間地平線内の将来のトレンドを予測する。
コントローラは予測を使用して、データ収集の次の最適なタイミングを決定する。
最後に、推定器はサンプル観測から完全なデータプロファイルを再構成する。
rnn(recurrent neural network)予測器と推定器、drqn(deep recurrent q-network)コントローラによるpemsデータに対する提案手法の性能評価を行い、カルマンフィルタと一様サンプリングを用いたベースラインと比較した。
その結果,提案手法がベースラインよりも優れており,主にプロファイルにより多くの代表データポイントが組み込まれているため,全体の推定精度が10%向上した。
ソースコードは公開されます。 Collecting traffic data is crucial for transportation systems and urban planning, and is often more desirable through easy-to-deploy but power-constrained devices, due to the unavailability or high cost of power and network infrastructure. The limited power means an inevitable trade-off between data collection duration and accuracy/resolution. We introduce a novel learning-based framework that strategically decides observation timings for battery-powered devices and reconstructs the full data stream from sparsely sampled observations, resulting in minimal performance loss and a significantly prolonged system lifetime. Our framework comprises a predictor, a controller, and an estimator. The predictor utilizes historical data to forecast future trends within a fixed time horizon. The controller uses the forecasts to determine the next optimal timing for data collection. Finally, the estimator reconstructs the complete data profile from the sampled observations. We evaluate the performance of the proposed method on PeMS data by an RNN (Recurrent Neural Network) predictor and estimator, and a DRQN (Deep Recurrent Q-Network) controller, and compare it against the baseline that uses Kalman filter and uniform sampling. The results indicate that our method outperforms the baseline, primarily due to the inclusion of more representative data points in the profile, resulting in an overall 10\% improvement in estimation accuracy. Source code will be publicly available. | 翻訳日:2024-01-29 16:38:04 公開日:2024-01-25 |
# MResT:視覚言語モデルを用いたリアルタイム制御のためのマルチリゾリューションセンシング MResT: Multi-Resolution Sensing for Real-Time Control with Vision-Language Models ( http://arxiv.org/abs/2401.14502v1 ) ライセンス: Link先を確認 | Saumya Saxena, Mohit Sharma, Oliver Kroemer | (参考訳) 多様な空間的および時間的解像度にわたるセンシングモダリティを活用することで、ロボット操作タスクのパフォーマンスを向上させることができる。
多空間解像度センシングは、異なる空間スケールでキャプチャされた階層的情報を提供し、粗い動きと正確な動きの両方を可能にする。
同時に、マルチタイムレゾリューションセンシングにより、エージェントは高い反応性とリアルタイム制御を示すことができる。
本研究では,様々な容量のネットワークを用いて,様々な空間的・時間的解像度でのセンシングを活用し,正確なタスクのリアルタイム制御を効果的に行う汎用言語条件のマルチタスクポリシーを学習するためのフレームワークMResT(Multi-Resolution Transformer)を提案する。
市販の視覚言語モデルを用いて、低周波グローバル機能と、低周波局所フィードバックに適応する小型の非予習モデルを操作する。
3つの領域(粗度,高精度,動的操作タスク)の広範な実験により,近年のマルチタスクベースラインに比べて,我々のアプローチは有意に改善されている(平均2倍)。
さらに,対象物体の視覚的および幾何学的変動や,相互作用力の変化によく一般化する。 Leveraging sensing modalities across diverse spatial and temporal resolutions can improve performance of robotic manipulation tasks. Multi-spatial resolution sensing provides hierarchical information captured at different spatial scales and enables both coarse and precise motions. Simultaneously multi-temporal resolution sensing enables the agent to exhibit high reactivity and real-time control. In this work, we propose a framework, MResT (Multi-Resolution Transformer), for learning generalizable language-conditioned multi-task policies that utilize sensing at different spatial and temporal resolutions using networks of varying capacities to effectively perform real time control of precise and reactive tasks. We leverage off-the-shelf pretrained vision-language models to operate on low-frequency global features along with small non-pretrained models to adapt to high frequency local feedback. Through extensive experiments in 3 domains (coarse, precise and dynamic manipulation tasks), we show that our approach significantly improves (2X on average) over recent multi-task baselines. Further, our approach generalizes well to visual and geometric variations in target objects and to varying interaction forces. | 翻訳日:2024-01-29 16:37:44 公開日:2024-01-25 |
# 光によるp波超伝導線のトポロジカルシグネチャ Topological signatures of a p-wave superconducting wire through light ( http://arxiv.org/abs/2401.14501v1 ) ライセンス: Link先を確認 | Frederick Del Pozo, Karyn Le Hur | (参考訳) 一次元トポロジカルp波超伝導体の$\mathbb{Z}_{2}$トポロジカル指数は、古典的ベクトルポテンシャル、すなわち電磁波を準粒子間遷移速度で駆動する際に、どのように明らかにできるかを示す。
周波数 $\omega$ を駆動する関数として、短距離のキタエフ線の2つの異なる位相相を分類する共鳴包絡から、この位相不変量の測度を得ることができる。
また,光磁場の存在下での大域容量の応答と,電線と近接結合バルク超電導体との間のジョセフソン電流を通じて,モデル内の位相相転移を調べることを提案する。
このシステムはブロッホ球面上でも実装され、回路または空洞量子力学を通して$\mathbb{Z}$と$\mathbb{Z}_2$の位相不変量を測定する別の方法が可能である。 We show how the $\mathbb{Z}_{2}$ topological index of a one-dimensional topological p-wave superconductor can be revealed when driving with a classical vector potential i.e. an electromagnetic wave, through the quasiparticles inter-band transition rates. As a function of driving frequency $\omega$, it is possible to obtain a measure of this topological invariant from the resonance envelope classifying the two distinct topological phases of the short-range Kitaev wire. We also propose to probe the topological phase transition in the model through the responses of the global capacitance in the presence of the light field and also through the Josephson current between the wire and the proximity coupled bulk superconductor. The system may also be implemented on the Bloch sphere allowing alternative ways to measure the $\mathbb{Z}$ and $\mathbb{Z}_2$ topological invariants through circuit or cavity quantum electrodynamics. | 翻訳日:2024-01-29 16:37:10 公開日:2024-01-25 |
# ポート操作最適化のための予測解析 Predictive Analysis for Optimizing Port Operations ( http://arxiv.org/abs/2401.14498v1 ) ライセンス: Link先を確認 | Aniruddha Rajendra Rao, Haiyan Wang, Chetan Gupta | (参考訳) 海上輸送は、長距離輸送と大量輸送のための重要な物流モードである。
しかし、このモードに関わる複雑な計画はしばしば、天候条件、貨物の多様性、港のダイナミクスなど不確実性によって妨げられ、コストが増大する。
これにより、港湾作業の効果的な計画とスケジューリングには、港湾における船舶総計(stay)時間と潜在的な遅延を正確に推定することが不可欠となる。
本研究の目的は, 船舶のトータル時間と遅延時間を推定するための, 競合予測と分類機能を備えた港湾操業ソリューションの開発である。
本研究は、船舶の滞留時間と滞留時間に関する港湾解析モデルにおける大きなギャップを解決し、海洋物流分野への貴重な貢献を提供する。
提案するソリューションは、ポート環境における意思決定を支援し、サービス遅延を予測するために設計されている。
これはブラジルの港湾に関するケーススタディで実証された。
さらに,海洋のロジスティクスに影響を及ぼす要因を理解するために特徴分析が用いられ,港湾業務に関わる複雑さの全体的な理解が促進される。 Maritime transport is a pivotal logistics mode for the long-distance and bulk transportation of goods. However, the intricate planning involved in this mode is often hindered by uncertainties, including weather conditions, cargo diversity, and port dynamics, leading to increased costs. Consequently, accurately estimating vessel total (stay) time at port and potential delays becomes imperative for effective planning and scheduling in port operations. This study aims to develop a port operation solution with competitive prediction and classification capabilities for estimating vessel Total and Delay times. This research addresses a significant gap in port analysis models for vessel Stay and Delay times, offering a valuable contribution to the field of maritime logistics. The proposed solution is designed to assist decision-making in port environments and predict service delays. This is demonstrated through a case study on Brazil ports. Additionally, feature analysis is used to understand the key factors impacting maritime logistics, enhancing the overall understanding of the complexities involved in port operations. | 翻訳日:2024-01-29 16:36:41 公開日:2024-01-25 |
# DermaMNISTとFitzpatrick17kの皮膚画像データセットの品質の検討 Investigating the Quality of DermaMNIST and Fitzpatrick17k Dermatological Image Datasets ( http://arxiv.org/abs/2401.14497v1 ) ライセンス: Link先を確認 | Kumar Abhishek, Aditi Jain, Ghassan Hamarneh | (参考訳) 皮膚科のタスクにおけるディープラーニングの著しい進歩は、人間の専門家に匹敵する診断能力の実現に近づいた。
しかし、大規模データセットは信頼性の高いディープニューラルネットワークモデルの開発において重要な役割を果たすが、そのデータの品質と正しい利用は極めて重要である。
重複の存在、列車テストパーティション間のデータ漏洩、誤ったラベル付き画像、明確に定義されたテストパーティションの欠如など、データ品質に影響を与える要因がいくつかある。
本稿では,DermaMNISTとFitzpatrick17kという2つの一般的な皮膚画像データセットの精査分析を行い,これらのデータ品質問題を明らかにするとともに,これらの課題がベンチマーク結果に与える影響を測定し,データセットの修正を提案する。
分析の再現性を確保するだけでなく、分析パイプラインと関連するコードを公開することで、同様の調査を促進し、他の大規模データセットにおける潜在的なデータ品質の問題の特定と解決を促進することを目標としています。 The remarkable progress of deep learning in dermatological tasks has brought us closer to achieving diagnostic accuracies comparable to those of human experts. However, while large datasets play a crucial role in the development of reliable deep neural network models, the quality of data therein and their correct usage are of paramount importance. Several factors can impact data quality, such as the presence of duplicates, data leakage across train-test partitions, mislabeled images, and the absence of a well-defined test partition. In this paper, we conduct meticulous analyses of two popular dermatological image datasets: DermaMNIST and Fitzpatrick17k, uncovering these data quality issues, measure the effects of these problems on the benchmark results, and propose corrections to the datasets. Besides ensuring the reproducibility of our analysis, by making our analysis pipeline and the accompanying code publicly available, we aim to encourage similar explorations and to facilitate the identification and addressing of potential data quality issues in other large datasets. | 翻訳日:2024-01-29 16:36:12 公開日:2024-01-25 |
# K-QA: 実世界のQ&Aベンチマーク K-QA: A Real-World Medical Q&A Benchmark ( http://arxiv.org/abs/2401.14493v1 ) ライセンス: Link先を確認 | Itay Manes, Naama Ronn, David Cohen, Ran Ilan Ber, Zehavi Horowitz-Kugler, Gabriel Stanovsky | (参考訳) 大きな言語モデル(LLM)によって提供される応答の正確性を保証することは、特に誤った情報が患者の健康に直接影響を及ぼす可能性がある臨床環境において重要である。
この課題に対処するため、K Health(AI駆動臨床プラットフォーム)上での実際の会話から1212の患者質問を含むデータセットK-QAを構築した。
我々は,K-QAのサブセットを自己完結文に分解するために,内科医のパネルを用いて回答し,手動で分解する。
さらに,2つのNLI評価指標を用いてリコールと精度を近似し,(1)総括性,生成した回答における本質的な臨床情報の割合,(2)幻覚率,2) LLM回答に矛盾する医師による回答からのステートメント数を測定する。
最後に、これらの指標とともにK-QAを用いて、いくつかの最先端モデルの評価を行い、また、テキスト内学習と、著者によって開発された医学指向の拡張検索スキームの効果について述べる。
以上の結果から,インコンテクスト学習はモデルの包括性を改善し,拡張検索は幻覚の軽減に有効であることが示唆された。
我々はK-QAをコミュニティに提供し、医学的精度の高いNLPアプリケーションの研究を促進する。 Ensuring the accuracy of responses provided by large language models (LLMs) is crucial, particularly in clinical settings where incorrect information may directly impact patient health. To address this challenge, we construct K-QA, a dataset containing 1,212 patient questions originating from real-world conversations held on K Health (an AI-driven clinical platform). We employ a panel of in-house physicians to answer and manually decompose a subset of K-QA into self-contained statements. Additionally, we formulate two NLI-based evaluation metrics approximating recall and precision: (1) comprehensiveness, measuring the percentage of essential clinical information in the generated answer and (2) hallucination rate, measuring the number of statements from the physician-curated response contradicted by the LLM answer. Finally, we use K-QA along with these metrics to evaluate several state-of-the-art models, as well as the effect of in-context learning and medically-oriented augmented retrieval schemes developed by the authors. Our findings indicate that in-context learning improves the comprehensiveness of the models, and augmented retrieval is effective in reducing hallucinations. We make K-QA available to to the community to spur research into medically accurate NLP applications. | 翻訳日:2024-01-29 16:35:18 公開日:2024-01-25 |
# su(2)ゲージ理論の正方形プラーペットからトリアモンド格子へ From square plaquettes to triamond lattices for SU(2) gauge theory ( http://arxiv.org/abs/2401.14570v1 ) ライセンス: Link先を確認 | Ali H. Z. Kavaki and Randy Lewis | (参考訳) 格子ゲージ理論は量子コンピュータ上で実装された場合、重要な新しい科学的問題に対処できるはずである。
実際、誤差緩和技術はすでに小さな格子の進行を奨励している。
本研究では、量子色力学への親しみやすい非可換なステップであるsu(2)ゲージ理論の切断版に焦点を当てる。
まず,2つの正方形格子を持つ格子上での仮想時間進化に対する有効誤差緩和を実証し,IBM量子コンピュータを用いて基底状態を取得し,誤り軽減なしでは不可能であることを確認した。
次に, 3次元の格子ゲージ理論への即応的アプローチとして, 3次元単位セルの無ノイズシミュレータからハミルトニアンを導出し, エネルギー固有値と固有値を得るトリアモンド格子を提案する。 Lattice gauge theory should be able to address significant new scientific questions when implemented on quantum computers. In practice, error-mitigation techniques have already allowed encouraging progress on small lattices. In this work we focus on a truncated version of SU(2) gauge theory, which is a familiar non-Abelian step toward quantum chromodynamics. First, we demonstrate effective error mitigation for imaginary time evolution on a lattice having two square plaquettes, obtaining the ground state using an IBM quantum computer and observing that this would have been impossible without error mitigation. Then we propose the triamond lattice as an expedient approach to lattice gauge theories in three spatial dimensions, deriving the Hamiltonian and obtaining energy eigenvalues and eigenstates from a noiseless simulator for a three-dimensional unit cell. | 翻訳日:2024-01-29 16:28:33 公開日:2024-01-25 |
# 言語識別とフーリエ分析を組み合わせた歴史文書における構造化言語交替の検出 Detecting Structured Language Alternations in Historical Documents by Combining Language Identification with Fourier Analysis ( http://arxiv.org/abs/2401.14569v1 ) ライセンス: Link先を確認 | Hale Sirin, Sabrina Li, Tom Lippincott | (参考訳) 本研究では,非標準言語とスクリプトの組み合わせであるarmeno-turkishを用いて,歴史的な言語で文書を識別するための汎用ワークフローを提案する。
本稿では,文書内の構造的言語交替頻度に基づいて,多言語性の異なるパターンを検出するタスクを提案する。 In this study, we present a generalizable workflow to identify documents in a historic language with a nonstandard language and script combination, Armeno-Turkish. We introduce the task of detecting distinct patterns of multilinguality based on the frequency of structured language alternations within a document. | 翻訳日:2024-01-29 16:28:17 公開日:2024-01-25 |
# TIFu:高忠実度3次元文字再構成のための三方向インシシト関数 TIFu: Tri-directional Implicit Function for High-Fidelity 3D Character Reconstruction ( http://arxiv.org/abs/2401.14565v1 ) ライセンス: Link先を確認 | Byoungsung Lim and Seong-Whan Lee | (参考訳) 暗黙的機能に基づくアプローチの最近の進歩は、単一のRGB画像から3次元の人間の再構築に有望な結果を示している。
しかし、これらの手法はより一般的なケースにまで拡張するには不十分であり、特にアニメーションキャラクターのために、しばしば引きずりや切断された身体部品を生成する。
これらの制限は, 総合的な3次元コンテキスト理解が欠如している, 既存の点レベル3次元形状表現の使用に起因していると主張する。
ボクセルを用いた再構成法は, 一度に3次元空間全体を捉えるのに適しているが, 過度なメモリ使用量のために高分解能再構成には実用的ではない。
これらの課題に対処するために,我々は,voxel表現に比べてメモリ使用量を大幅に削減しつつ,グローバル3次元構成を増加させるベクトルレベル表現であるtri-directional implicit function (tifu)を導入する。
また,3つの直交軸に沿ってベクトルを集約することで任意の解像度で3次元再構成する新しいアルゴリズムを導入し,ベクトルの固定次元を後退させることで本質的な問題を解決した。
提案手法は,自己計算したキャラクタデータセットとベンチマーク3次元人的データセットの両方において,最先端のパフォーマンスを実現する。
定量分析と定性解析を併用して分析を行った。 Recent advances in implicit function-based approaches have shown promising results in 3D human reconstruction from a single RGB image. However, these methods are not sufficient to extend to more general cases, often generating dragged or disconnected body parts, particularly for animated characters. We argue that these limitations stem from the use of the existing point-level 3D shape representation, which lacks holistic 3D context understanding. Voxel-based reconstruction methods are more suitable for capturing the entire 3D space at once, however, these methods are not practical for high-resolution reconstructions due to their excessive memory usage. To address these challenges, we introduce Tri-directional Implicit Function (TIFu), which is a vector-level representation that increases global 3D consistencies while significantly reducing memory usage compared to voxel representations. We also introduce a new algorithm in 3D reconstruction at an arbitrary resolution by aggregating vectors along three orthogonal axes, resolving inherent problems with regressing fixed dimension of vectors. Our approach achieves state-of-the-art performances in both our self-curated character dataset and the benchmark 3D human dataset. We provide both quantitative and qualitative analyses to support our findings. | 翻訳日:2024-01-29 16:28:12 公開日:2024-01-25 |
# エネルギー効率と排出削減におけるインテリジェント輸送システムと人工知能の役割 The Role of Intelligent Transportation Systems and Artificial Intelligence in Energy Efficiency and Emission Reduction ( http://arxiv.org/abs/2401.14560v1 ) ライセンス: Link先を確認 | Omar Rinchi and Ahmad Alsharoa and Ibrahem Shatnawi and Anvita Arora | (参考訳) 交通分野の技術的進歩にもかかわらず、産業はエネルギー消費の増加と、環境劣化と気候変動を増す車両排出の増大に苦慮し続けている。
交通の流れの非効率的な管理、交通網の相互接続の過小利用、人工知能(ai)駆動予測モデルの限定実装は、エネルギー効率と排出削減を達成する上で大きな課題となる。
したがって、インテリジェントトランスポートシステム(ITS)とAIを活用してエネルギーの節約と排出削減を行う統合された高度なアプローチには、タイムリーで重要なニーズがある。
本稿では,将来のエネルギー・排出削減(EER)におけるITSとAIの役割について検討する。
具体的には、異なるレベルのITSセンサーがEERの改善に与える影響について論じる。
また、itsにおけるネットワーク接続の可能性についても調査し、eerの改善例を示す。
最後に、将来EERを改善するための潜在的なAIサービスについて議論する。
本稿では,輸送部門における省エネと排出削減にかかわる課題に対処する上で,ITSとAIアプリケーションの重要性について,現在進行中の議論に寄与する。
さらに、政策立案者や産業専門家が、交通部門におけるITSとAI技術の統合のための政策開発と実施計画の立案を可能にするための洞察を提供する。 Despite the technological advancements in the transportation sector, the industry continues to grapple with increasing energy consumption and vehicular emissions, which intensify environmental degradation and climate change. The inefficient management of traffic flow, the underutilization of transport network interconnectivity, and the limited implementation of artificial intelligence (AI)-driven predictive models pose significant challenges to achieving energy efficiency and emission reduction. Thus, there is a timely and critical need for an integrated, sophisticated approach that leverages intelligent transportation systems (ITSs) and AI for energy conservation and emission reduction. In this paper, we explore the role of ITSs and AI in future enhanced energy and emission reduction (EER). More specifically, we discuss the impact of sensors at different levels of ITS on improving EER. We also investigate the potential networking connections in ITSs and provide an illustration of how they improve EER. Finally, we discuss potential AI services for improved EER in the future. The findings discussed in this paper will contribute to the ongoing discussion about the vital role of ITSs and AI applications in addressing the challenges associated with achieving energy savings and emission reductions in the transportation sector. Additionally, it will provide insights for policymakers and industry professionals to enable them to develop policies and implementation plans for the integration of ITSs and AI technologies in the transportation sector. | 翻訳日:2024-01-29 16:27:50 公開日:2024-01-25 |
# 適応機械翻訳への言語モデルアプローチ Language Modelling Approaches to Adaptive Machine Translation ( http://arxiv.org/abs/2401.14559v1 ) ライセンス: Link先を確認 | Yasmin Moslem | (参考訳) 一貫性は高品質翻訳の重要な要件である。
事前承認された用語に固執し、ドメイン固有のプロジェクトで修正された翻訳に適応することが特に重要である。
機械翻訳(MT)はドメイン適応の分野で大きな進歩を遂げた。
しかし、ドメイン内のデータの不足は、特別なデータセットや用語の欠如、あるいは利用可能なドメイン内の翻訳の不整合や不正確さのため、翻訳設定で一般的である。
MTモデルを微調整するにはドメイン内データが不十分な場合、関連するコンテキストに整合した翻訳を生成することは困難である。
リアルタイム適応は、ドメイン内データの少ない量で翻訳を改善することができるが、コンテキストの制限や効率上の制約がサポートされているため、依然として困難である。
大規模言語モデル(LLM)は、最近、ある入力出力テキスト生成パターンをさらなる微調整なしで再現することを学ぶ、コンテキスト内学習の興味深い機能を示している。
このような機能により、ドメイン固有のデータ拡張とリアルタイム適応MTのための新たな地平が開かれた。
1) ヒューマンインタラクションと継続的フィードバックを含むシナリオでは、推論時に適応MTの品質を改善するために言語モデルを用いることができるか?
そして
2) 十分なドメイン内データがない場合,MTドメイン適応のプロセスを改善するために,事前訓練済みの大規模言語モデルを用いることは可能か? Consistency is a key requirement of high-quality translation. It is especially important to adhere to pre-approved terminology and adapt to corrected translations in domain-specific projects. Machine translation (MT) has achieved significant progress in the area of domain adaptation. However, in-domain data scarcity is common in translation settings, due to the lack of specialised datasets and terminology, or inconsistency and inaccuracy of available in-domain translations. In such scenarios where there is insufficient in-domain data to fine-tune MT models, producing translations that are consistent with the relevant context is challenging. While real-time adaptation can make use of smaller amounts of in-domain data to improve the translation on the fly, it remains challenging due to supported context limitations and efficiency constraints. Large language models (LLMs) have recently shown interesting capabilities of in-context learning, where they learn to replicate certain input-output text generation patterns, without further fine-tuning. Such capabilities have opened new horizons for domain-specific data augmentation and real-time adaptive MT. This work attempts to address two main relevant questions: 1) in scenarios involving human interaction and continuous feedback, can we employ language models to improve the quality of adaptive MT at inference time? and 2) in the absence of sufficient in-domain data, can we use pre-trained large-scale language models to improve the process of MT domain adaptation? | 翻訳日:2024-01-29 16:27:29 公開日:2024-01-25 |
# リカレントカーネルの異なる貯留層計算トポロジへの拡張 Extension of Recurrent Kernels to different Reservoir Computing topologies ( http://arxiv.org/abs/2401.14557v1 ) ライセンス: Link先を確認 | Giuseppe Alessio D'Inverno, Jonathan Dong | (参考訳) 貯水池コンピューティング(rc)は,その高速かつ効率的な計算能力により近年普及している。
標準RCはリカレントカーネルの漸近的極限において等価であることが示されており、表現力の解析に役立っている。
しかし、Leaky RC、Sparse RC、Deep RCのような確立されたRCパラダイムの多くは、そのような方法では分析されていない。
本研究の目的は,特定のRCアーキテクチャの等価性と対応する再帰カーネルの定式化を実証的に解析することによって,このギャップを埋めることである。
各アーキテクチャに実装されたアクティベーション関数を変化させて収束研究を行う。
本研究はrcアーキテクチャにおけるスパース接続の役割にも光を当て、貯留層サイズに依存する最適スパース性レベルを提案する。
さらに, 系統解析により, 深部rcモデルでは, 小型化の連続した貯留層により収束性が向上することを示した。 Reservoir Computing (RC) has become popular in recent years due to its fast and efficient computational capabilities. Standard RC has been shown to be equivalent in the asymptotic limit to Recurrent Kernels, which helps in analyzing its expressive power. However, many well-established RC paradigms, such as Leaky RC, Sparse RC, and Deep RC, are yet to be analyzed in such a way. This study aims to fill this gap by providing an empirical analysis of the equivalence of specific RC architectures with their corresponding Recurrent Kernel formulation. We conduct a convergence study by varying the activation function implemented in each architecture. Our study also sheds light on the role of sparse connections in RC architectures and propose an optimal sparsity level that depends on the reservoir size. Furthermore, our systematic analysis shows that in Deep RC models, convergence is better achieved with successive reservoirs of decreasing sizes. | 翻訳日:2024-01-29 16:27:05 公開日:2024-01-25 |
# do not (always) look right: シーケンスラベリングのためのデコーダベースの大規模言語モデルの能力を調査する Do Not (Always) Look Right: Investigating the Capabilities of Decoder-Based Large Language Models for Sequence Labeling ( http://arxiv.org/abs/2401.14556v1 ) ライセンス: Link先を確認 | David Duki\'c, Jan \v{S}najder | (参考訳) マスク付き言語モデリング(MLM)に基づく事前学習型言語モデルは、自然言語理解(NLU)タスクにおいて優れている。
微調整されたMLMベースのエンコーダは、因果言語モデリングデコーダを同等の大きさで一貫して上回っているが、最近のデコーダモデルを数十億のパラメータにスケールする傾向は、大きな言語モデル(LLM)を生み出し、MLMベースのエンコーダと競合する結果となった。
スケールはNLUタスクの長所を増幅するが、LSMはSOTAから外れて情報抽出(IE)タスクとなり、その多くがシーケンスラベリング(SL)としてフレーム化される。
しかし, LLMの本質的な限界であるのか, SL性能が向上したのかは不明である。
そこで我々は,IE タスクにおける LLM (Llama2 と Mistral) の SL 性能向上戦略について検討する。
LLM微調整中において,デコーダブロック群内の双方向情報の流れを解析し,階層的除去やCMの適用について検討した。
このアプローチはSOTA SLモデルと競合する性能向上をもたらし、全てのブロックからCM除去結果のマッチングや性能向上を行う。
その結果,層依存性CM除去を用いたLLMは,MLMベースのエンコーダや命令調整LLMよりも優れていた。
しかし, モデルサイズ, 事前学習ステップ, 事前学習および微調整データを維持する場合, CM除去による影響は小さい。 Pre-trained language models based on masked language modeling (MLM) objective excel in natural language understanding (NLU) tasks. While fine-tuned MLM-based encoders consistently outperform causal language modeling decoders of comparable size, a recent trend of scaling decoder models to multiple billion parameters resulted in large language models (LLMs), making them competitive with MLM-based encoders. Although scale amplifies their prowess in NLU tasks, LLMs fall short of SOTA results in information extraction (IE) tasks, many framed as sequence labeling (SL). However, whether this is an intrinsic limitation of LLMs or whether their SL performance can be improved remains unclear. To address this, we explore strategies to enhance the SL performance of "open" LLMs (Llama2 and Mistral) on IE tasks. We investigate bidirectional information flow within groups of decoder blocks, applying layer-wise removal or enforcement of the causal mask (CM) during LLM fine-tuning. This approach yields performance gains competitive with SOTA SL models, matching or outperforming the results of CM removal from all blocks. Our findings hold for diverse SL tasks, proving that "open" LLMs with layer-dependent CM removal outperform strong MLM-based encoders and instruction-tuned LLMs. However, we observe no effect from CM removal on a small scale when maintaining an equivalent model size, pre-training steps, and pre-training and fine-tuning data. | 翻訳日:2024-01-29 16:26:48 公開日:2024-01-25 |
# 視覚基礎モデル時代におけるアクティブラーニングの再検討 Revisiting Active Learning in the Era of Vision Foundation Models ( http://arxiv.org/abs/2401.14555v1 ) ライセンス: Link先を確認 | Sanket Rajan Gupte, Josiah Aklilu, Jeffrey J. Nirschl, Serena Yeung-Levy | (参考訳) ファンデーションビジョンまたはビジョン言語モデルは、大きなラベル付きまたはノイズの多いデータに基づいてトレーニングされ、多様なタスクで印象的なゼロショットまたは数ショットのパフォーマンスを達成できる堅牢な表現を学ぶ。
これらの性質を考えると、それらはラベリング効率を最大化することを目的としたアクティブラーニング(al)に自然に適合するが、基礎モデルの完全なポテンシャルはalの文脈、特に低予算体制では研究されていない。
本研究では,基礎モデルが有効ALの3つの重要な構成要素,すなわち,どのように影響するかを評価する。
1)初期ラベル付きプール選択,
2)多様なサンプリングの確保、及び
3)代表者と不確実性サンプリングのトレードオフ
基礎モデルの頑健な表現(DINOv2, OpenCLIP)が、アクティブラーニングにおける既存の知見にどのように挑戦するかを体系的に研究する。
本研究は,サンプルの多様性とドロップアウトによって推定される不確実性をバランスさせる,単純でエレガントなAL戦略の原則構築について報告する。
自然画像や,al文献において比較的未熟な領域外生物医学的画像など,多くの難解な画像分類ベンチマークにおいて,この戦略を広範囲に検証した。
ソースコードは利用可能になる。 Foundation vision or vision-language models are trained on large unlabeled or noisy data and learn robust representations that can achieve impressive zero- or few-shot performance on diverse tasks. Given these properties, they are a natural fit for active learning (AL), which aims to maximize labeling efficiency, but the full potential of foundation models has not been explored in the context of AL, specifically in the low-budget regime. In this work, we evaluate how foundation models influence three critical components of effective AL, namely, 1) initial labeled pool selection, 2) ensuring diverse sampling, and 3) the trade-off between representative and uncertainty sampling. We systematically study how the robust representations of foundation models (DINOv2, OpenCLIP) challenge existing findings in active learning. Our observations inform the principled construction of a new simple and elegant AL strategy that balances uncertainty estimated via dropout with sample diversity. We extensively test our strategy on many challenging image classification benchmarks, including natural images as well as out-of-domain biomedical images that are relatively understudied in the AL literature. Source code will be made available. | 翻訳日:2024-01-29 16:26:17 公開日:2024-01-25 |
# 時空間データに対するガウスコックス過程モデルによるベイズ最適化 Bayesian Optimization through Gaussian Cox Process Models for Spatio-temporal Data ( http://arxiv.org/abs/2401.14544v1 ) ライセンス: Link先を確認 | Yongsheng Mei, Mahdi Imani, Tian Lan | (参考訳) ベイズ最適化 (bayesian optimization, bo) は、費用対評価関数を効率的に最適化するための主要な戦略である。
既存のbo法は主にガウス過程(gp)サロゲートモデルに依存しており、観測過程がgpとしてモデル化された潜在強度関数によって変調されるガウスコックス法には適用できない。
本稿では,ガウスコックス過程の後方推定法を新たに提案する。
これはラプラス近似とカーネル技法の変化を利用して問題を新しい再生核ヒルベルト空間に変換し、計算的により扱いやすいものにする。
これにより, 潜在強度関数の機能的後方と後方の共分散の両方を得ることができ, 特定のリンク関数に注目したり, 後方平均を推定する既存の作業を拡張することができる。
本研究では,gaussian cox プロセスモデルに基づく bo フレームワークを提案し,効率的な計算のための nystr\"om 近似をさらに開発する。
様々な合成および実世界のデータセットに対する広範囲な評価は、ガウスコックスプロセスの最先端推論ソリューションや、基礎となるガウスコックスプロセスモデルによって設計された幅広い獲得関数を持つ有効なBOよりも大幅に改善されている。 Bayesian optimization (BO) has established itself as a leading strategy for efficiently optimizing expensive-to-evaluate functions. Existing BO methods mostly rely on Gaussian process (GP) surrogate models and are not applicable to (doubly-stochastic) Gaussian Cox processes, where the observation process is modulated by a latent intensity function modeled as a GP. In this paper, we propose a novel maximum a posteriori inference of Gaussian Cox processes. It leverages the Laplace approximation and change of kernel technique to transform the problem into a new reproducing kernel Hilbert space, where it becomes more tractable computationally. It enables us to obtain both a functional posterior of the latent intensity function and the covariance of the posterior, thus extending existing works that often focus on specific link functions or estimating the posterior mean. Using the result, we propose a BO framework based on the Gaussian Cox process model and further develop a Nystr\"om approximation for efficient computation. Extensive evaluations on various synthetic and real-world datasets demonstrate significant improvement over state-of-the-art inference solutions for Gaussian Cox processes, as well as effective BO with a wide range of acquisition functions designed through the underlying Gaussian Cox process model. | 翻訳日:2024-01-29 16:25:57 公開日:2024-01-25 |
# 音楽ルートの探索 : 音響埋め込みを応用して生成的音楽モデルに対する影響帰属 Exploring Musical Roots: Applying Audio Embeddings to Empower Influence Attribution for a Generative Music Model ( http://arxiv.org/abs/2401.14542v1 ) ライセンス: Link先を確認 | Julia Barnett, Hugo Flores Garcia, Bryan Pardo | (参考訳) すべてのアーティストは、以前のアーティストとその作品からインスピレーションを得る創造的なプロセスを持っています。
現在、「吸気」は生成音楽モデルによって自動化されている。
これらのモデルのブラックボックスの性質は、創造的なアウトプットに影響を与える作品のアイデンティティを曖昧にしている。
その結果、ユーザーは不注意に適切、誤用、あるいは既存のアーティストの作品のコピーをすることができる。
我々は,学習データ帰属を理解するのに有用な方法で,類似した楽曲を体系的に同定する,複製可能な手法を確立する。
我々のアプローチの重要な側面は、効果的な音楽聴取類似度尺度を活用することである。
本稿では, CLMR と CLAP の埋め込みを類似度測定に応用することにより, VampNet のトレーニングに使用した500万本のオーディオクリップを比較検討した。
我々は、このアプローチを人間のリスニング研究で検証する。
また,音響サンプルの修正(ピッチシフト,タイムストレッチ,バックグラウンドノイズなど)が類似度測定に与える影響についても検討する。
この作業は、モデル作成者やユーザが無知から情報生成に移行することを約束する生成モデルに、自動的な影響帰属を取り入れることの基礎となっている。
この論文に付随するオーディオサンプルはhttps://tinyurl.com/exploring-musical-rootsで入手できる。 Every artist has a creative process that draws inspiration from previous artists and their works. Today, "inspiration" has been automated by generative music models. The black box nature of these models obscures the identity of the works that influence their creative output. As a result, users may inadvertently appropriate, misuse, or copy existing artists' works. We establish a replicable methodology to systematically identify similar pieces of music audio in a manner that is useful for understanding training data attribution. A key aspect of our approach is to harness an effective music audio similarity measure. We compare the effect of applying CLMR and CLAP embeddings to similarity measurement in a set of 5 million audio clips used to train VampNet, a recent open source generative music model. We validate this approach with a human listening study. We also explore the effect that modifications of an audio example (e.g., pitch shifting, time stretching, background noise) have on similarity measurements. This work is foundational to incorporating automated influence attribution into generative modeling, which promises to let model creators and users move from ignorant appropriation to informed creation. Audio samples that accompany this paper are available at https://tinyurl.com/exploring-musical-roots. | 翻訳日:2024-01-29 16:25:35 公開日:2024-01-25 |
# si/sige量子ドットにおける個々の電荷変動のキャラクタリゼーション Characterization of individual charge fluctuators in Si/SiGe quantum dots ( http://arxiv.org/abs/2401.14541v1 ) ライセンス: Link先を確認 | Feiyang Ye, Ammar Ellaboudy, Dylan Albrecht, Rohith Vudatha, N. Tobias Jacobson, John M. Nichol | (参考訳) シリコン量子ドットの電子スピンは、長いコヒーレンス時間、スケーラビリティ、高度な半導体技術との互換性により優れた量子ビットである。
高ゲート密度はスピン量子ビットで達成できるが、半導体環境における電荷ノイズはさらなる改善を妨げる。
電荷ノイズの重要性にもかかわらず、電荷ノイズの原因となる変動体の性質に関する重要な疑問は未解決のままである。
ここでは,Si/SiGe量子ドット内の個々の2レベルゆらぎ(TLF)を簡易な量子ドット輸送測定により探索し,Allan分散と分解能隠れマルコフモデルに基づく解析を行う。
TLFスイッチング時間はゲート電圧に敏感に依存し、温度は低下し、近くの量子ドットを通した電流に依存する。
本研究では, 電極近傍のバイスタブル電荷双極子であり, センサドットを通した電流によって加熱され, 直接電子フォノンカップリングではなく, センサドットを通過する電子とのカップリングなどの他の機構によって駆動される状態遷移を経験することを示す。 Electron spins in silicon quantum dots are excellent qubits due to their long coherence times, scalability, and compatibility with advanced semiconductor technology. Although high gate fidelities can be achieved with spin qubits, charge noise in the semiconductor environment still hinders further improvements. Despite the importance of charge noise, key questions about the specific nature of the fluctuators that cause charge noise remain unanswered. Here, we probe individual two-level fluctuators (TLFs) in Si/SiGe quantum dots through simple quantum-dot transport measurement and analyses based on the Allan variance and factorial hidden Markov modeling. We find that the TLF switching times depend sensitively on gate voltages, decrease with temperature, and depend on the current through a nearby quantum dot. A model for the data of the primary TLF we study indicates that it may be a bistable charge dipole near the plunger gate electrode, heated by current through the sensor dot, and experiencing state transitions driven not by direct electron-phonon coupling but through some other mechanism such as coupling to electrons passing through the sensor dot. | 翻訳日:2024-01-29 16:25:14 公開日:2024-01-25 |
# ポストホック機械学習における差異の理解 Understanding Disparities in Post Hoc Machine Learning Explanation ( http://arxiv.org/abs/2401.14539v1 ) ライセンス: Link先を確認 | Vishwali Mhasawade, Salman Rahman, Zoe Haskell-Craig, Rumi Chunara | (参考訳) 従来の研究は、既存のポストホックな説明手法では説明の不一致(「レース」と「ジェンダー」を区別する属性)が説明の不一致を示しており、多くの研究が説明基準レベルでこれらの問題を緩和することに重点を置いている一方で、説明の不一致に関連するデータ生成プロセスとブラックボックスモデルの役割は明らかにされていない。
したがって,実世界のデータセット上でのシミュレーションと実験の両方を通じて,データの性質から生じる差異を説明するための課題を具体的に評価する。サンプルサイズ,共変量シフト,概念シフト,省略された変数バイアス,モデル特性に基づく課題:機密属性と適切な機能形式を含む。
制御されたシミュレーション解析により,共変量シフトの増大,概念シフトの欠如,共変量の欠如が説明の相違を増加させ,線形モデルと比較して基礎となる機能形式を捉えることができるニューラルネットワークモデルに対する効果が高まることを実証した。
また、概念シフトと省略変数バイアスが成人所得データセットの説明格差に与える影響について一貫した知見を観察した。
全体として、モデル説明の相違はデータとモデル特性にも依存することを示している。
この系統的調査に基づいて, 望ましくない相違を緩和する説明手法の設計を推奨する。 Previous work has highlighted that existing post-hoc explanation methods exhibit disparities in explanation fidelity (across 'race' and 'gender' as sensitive attributes), and while a large body of work focuses on mitigating these issues at the explanation metric level, the role of the data generating process and black box model in relation to explanation disparities remains largely unexplored. Accordingly, through both simulations as well as experiments on a real-world dataset, we specifically assess challenges to explanation disparities that originate from properties of the data: limited sample size, covariate shift, concept shift, omitted variable bias, and challenges based on model properties: inclusion of the sensitive attribute and appropriate functional form. Through controlled simulation analyses, our study demonstrates that increased covariate shift, concept shift, and omission of covariates increase explanation disparities, with the effect pronounced higher for neural network models that are better able to capture the underlying functional form in comparison to linear models. We also observe consistent findings regarding the effect of concept shift and omitted variable bias on explanation disparities in the Adult income dataset. Overall, results indicate that disparities in model explanations can also depend on data and model properties. Based on this systematic investigation, we provide recommendations for the design of explanation methods that mitigate undesirable disparities. | 翻訳日:2024-01-29 16:24:53 公開日:2024-01-25 |
# CaRiNG:非可逆生成過程における時間因果表現の学習 CaRiNG: Learning Temporal Causal Representation under Non-Invertible Generation Process ( http://arxiv.org/abs/2401.14535v1 ) ライセンス: Link先を確認 | Guangyi Chen, Yifan Shen, Zhenhao Chen, Xiangchen Song, Yuewen Sun, Weiran Yao, Xiao Liu, Kun Zhang | (参考訳) 時系列データにおける時間遅延因果過程の同定は、時間的ダイナミクスの把握と下流の推論に不可欠である。
最近の手法ではこれらの潜在因果変数をロバストに識別できるが、潜在変数から観測データへの可逆生成プロセスに関する厳密な仮定に依存している。
しかし、これらの仮定は情報損失を含む現実世界のアプリケーションでは満たせないことが多い。
例えば、視覚知覚過程は3d空間を2d画像に変換するか、または視覚の持続現象が過去のデータを現在の知覚に組み込む。
この課題に対処するために、非線形かつ非可逆混合から来る場合でも独立な潜伏成分の回復を可能にする識別可能性理論を確立する。
本研究では, この理論を基礎として, 非可逆生成時間データのCAusal RepresentatIonを同一性保証付きで学習するためのCaRiNGを提案する。
具体的には,時間的文脈を用いて失われた潜在情報を復元し,学習過程の指導に本理論の条件を適用する。
合成データセットを用いた実験により,生成プロセスが非可逆である場合でも,CaRiNG法が因果過程を確実に同定できることを確認した。
さらに,本手法が実用化における時間的理解と推論を大幅に改善することを示す。 Identifying the underlying time-delayed latent causal processes in sequential data is vital for grasping temporal dynamics and making downstream reasoning. While some recent methods can robustly identify these latent causal variables, they rely on strict assumptions about the invertible generation process from latent variables to observed data. However, these assumptions are often hard to satisfy in real-world applications containing information loss. For instance, the visual perception process translates a 3D space into 2D images, or the phenomenon of persistence of vision incorporates historical data into current perceptions. To address this challenge, we establish an identifiability theory that allows for the recovery of independent latent components even when they come from a nonlinear and non-invertible mix. Using this theory as a foundation, we propose a principled approach, CaRiNG, to learn the CAusal RepresentatIon of Non-invertible Generative temporal data with identifiability guarantees. Specifically, we utilize temporal context to recover lost latent information and apply the conditions in our theory to guide the training process. Through experiments conducted on synthetic datasets, we validate that our CaRiNG method reliably identifies the causal process, even when the generation process is non-invertible. Moreover, we demonstrate that our approach considerably improves temporal understanding and reasoning in practical applications. | 翻訳日:2024-01-29 16:24:27 公開日:2024-01-25 |
# メタラーニング線形二次レギュレータ:モデルフリーLQRに対するポリシーグラディエントMAMLアプローチ Meta-Learning Linear Quadratic Regulators: A Policy Gradient MAML Approach for the Model-free LQR ( http://arxiv.org/abs/2401.14534v1 ) ライセンス: Link先を確認 | Leonardo F. Toso, Donglin Zhan, James Anderson, and Han Wang | (参考訳) 我々は,LQR(Linear Quadratic Regulator)をマルチタスク,ヘテロジニアス,モデルフリーで学習する問題について検討する。
我々は,LQR問題に対する政策グラディエントベース(PG)モデル非依存メタラーニング(MAML)アプローチ(Finn et al., 2017)の安定性とパーソナライズ保証を,異なるタスク・ヘテロジニティ設定の下で特徴付ける。
maml-lqrアプローチは,モデルベースとモデルフリーの両方の設定においてタスクヘテロゲニティバイアスまで,各タスク固有の最適コントローラに近い安定化コントローラを生成する。
さらに,モデルに基づく設定では,既存のMAML-LQR作業で提示される線形収束率を向上し,線形収束率で制御が達成されることを示す。
既存のMAML-LQR結果とは対照的に,学習した制御器が未知のLQRタスクに効率的に適応できることが理論的に保証されている。 We investigate the problem of learning Linear Quadratic Regulators (LQR) in a multi-task, heterogeneous, and model-free setting. We characterize the stability and personalization guarantees of a Policy Gradient-based (PG) Model-Agnostic Meta-Learning (MAML) (Finn et al., 2017) approach for the LQR problem under different task-heterogeneity settings. We show that the MAML-LQR approach produces a stabilizing controller close to each task-specific optimal controller up to a task-heterogeneity bias for both model-based and model-free settings. Moreover, in the model-based setting, we show that this controller is achieved with a linear convergence rate, which improves upon sub-linear rates presented in existing MAML-LQR work. In contrast to existing MAML-LQR results, our theoretical guarantees demonstrate that the learned controller can efficiently adapt to unseen LQR tasks. | 翻訳日:2024-01-29 16:24:04 公開日:2024-01-25 |
# My Chatbot: AIの影響を予測するためのシナリオ駆動型ユーザ中心アプローチ My Future with My Chatbot: A Scenario-Driven, User-Centric Approach to Anticipating AI Impacts ( http://arxiv.org/abs/2401.14533v1 ) ライセンス: Link先を確認 | Kimon Kieslich, Natali Helberger, Nicholas Diakopoulos | (参考訳) 具体的な事前定義された目的を持たない汎用技術として、パーソナルチャットボットは個人の個人的なニーズ、コンテキスト、タスクに応じて、あらゆる目的に使用できるため、さまざまな価値、人々、社会的コンテキストに影響を与える可能性がある。
リスクアセスメントの伝統的な方法は、明確に定義された技術目的の欠如、オリエントに対する明確に定義された価値観の欠如、使用の多様性、個人の生活現実の観点からの影響を期待して市民自身を積極的に関与させることの困難など、いくつかの課題に直面している。
本稿では,これらの課題に応答するAIの影響を予測する手段として,大規模シナリオ記述を活用する。
このシナリオの利点は、個々のユーザーと関わり、チャットボットが現実にどのように影響するかを考えるよう刺激し、異質な市民権の文化的および社会的な埋め込みによって異なる影響シナリオを収集する能力である。
経験的に、私たちは106人の米国市民に、個人や社会に対するAIベースのパーソナルチャットボットの将来的な影響(望ましいか望ましくないか)に関する短いフィクション記事を書くように依頼しました。
分析過程において、これらの影響をマッピングし、社会デデノグラフィーとシナリオライターのAI関連態度との関連で分析する。
本手法は,(1)AIに基づく個人チャットボットの望ましい影響と望ましくない影響を同定し,マッピングすること,(2)個人にとって重要な値に関連づけること,(3)影響予測の社会デデマトグラフィーとAI関連性の違いを検出することに有効であることを示す。 As a general purpose technology without a concrete pre-defined purpose, personal chatbots can be used for a whole range of objectives, depending on the personal needs, contexts, and tasks of an individual, and so potentially impact a variety of values, people, and social contexts. Traditional methods of risk assessment are confronted with several challenges: the lack of a clearly defined technology purpose, the lack of a clearly defined values to orient on, the heterogeneity of uses, and the difficulty of actively engaging citizens themselves in anticipating impacts from the perspective of their individual lived realities. In this article, we leverage scenario writing at scale as a method for anticipating AI impact that is responsive to these challenges. The advantages of the scenario method are its ability to engage individual users and stimulate them to consider how chatbots are likely to affect their reality and so collect different impact scenarios depending on the cultural and societal embedding of a heterogeneous citizenship. Empirically, we tasked 106 US-citizens to write short fictional stories about the future impact (whether desirable or undesirable) of AI-based personal chatbots on individuals and society and, in addition, ask respondents to explain why these impacts are important and how they relate to their values. In the analysis process, we map those impacts and analyze them in relation to socio-demographic as well as AI-related attitudes of the scenario writers. We show that our method is effective in (1) identifying and mapping desirable and undesirable impacts of AI-based personal chatbots, (2) setting these impacts in relation to values that are important for individuals, and (3) detecting socio-demographic and AI-attitude related differences of impact anticipation. | 翻訳日:2024-01-29 16:23:47 公開日:2024-01-25 |
# EvadeDroid: ブラックボックスAndroidマルウェア検出のための機械学習の実践的侵入攻撃 EvadeDroid: A Practical Evasion Attack on Machine Learning for Black-box Android Malware Detection ( http://arxiv.org/abs/2110.03301v4 ) ライセンス: Link先を確認 | Hamid Bostani and Veelasha Moonsamy | (参考訳) 過去10年間、研究者は回避攻撃の開発を通じて、Androidのマルウェア検出装置の脆弱性を広範囲に調査してきたが、現実のシナリオにおけるこれらの攻撃の実用性は議論の余地がある。
多くの研究は、攻撃者がマルウェア検出に使用されるターゲット分類器の詳細を知っていると仮定しているが、実際、悪意のあるアクターはターゲット分類器へのアクセスを制限している。
本稿では,現実のシナリオにおいて,ブラックボックスのAndroidマルウェア検出を効果的に回避するために設計された,問題空間の敵攻撃であるEvadeDroidを紹介する。
EvadeDroidは、n-gramベースのアプローチを利用して、マルウェアアプリとオプコードレベルの類似性を共有する良性ドナーから派生した問題空間変換のコレクションを構築する。
これらの変換は、反復的かつ漸進的な操作戦略を通じて、マルウェアインスタンスを良質なインスタンスに変換するために使用される。
提案手法は,マルウェアアプリへの変換の最適なシーケンスを探索し,注入するクエリ効率の高い最適化アルゴリズムである。
1Kのマルウェアアプリ上で実施した経験的評価は,ソフトおよびハードラベルの両方の設定で実世界の敵例を生成する上で,我々のアプローチの有効性を実証するものである。
以上の結果から,evadedroidは様々な特徴型を持つ多様なマルウェア検出器を効果的に欺くことができることが明らかとなった。
具体的には、EvadeDroidは1-9クエリだけでDREBIN、Sec-SVM、ADE-MA、MaMaDroid、Opcode-SVMに対して80%-95%の回避率を達成する。
さらに,提案する課題空間敵攻撃は,平均79%の回避率で人気のある5つの市販アンチウイルスに対してステルス性を維持することができることを示した。 Over the last decade, researchers have extensively explored the vulnerabilities of Android malware detectors to adversarial examples through the development of evasion attacks; however, the practicality of these attacks in real-world scenarios remains arguable. The majority of studies have assumed attackers know the details of the target classifiers used for malware detection, while in reality, malicious actors have limited access to the target classifiers. This paper introduces EvadeDroid, a problem-space adversarial attack designed to effectively evade black-box Android malware detectors in real-world scenarios. EvadeDroid constructs a collection of problem-space transformations derived from benign donors that share opcode-level similarity with malware apps by leveraging an n-gram-based approach. These transformations are then used to morph malware instances into benign ones via an iterative and incremental manipulation strategy. The proposed manipulation technique is a query-efficient optimization algorithm that can find and inject optimal sequences of transformations into malware apps. Our empirical evaluations, carried out on 1K malware apps, demonstrate the effectiveness of our approach in generating real-world adversarial examples in both soft- and hard-label settings. Our findings reveal that EvadeDroid can effectively deceive diverse malware detectors that utilize different features with various feature types. Specifically, EvadeDroid achieves evasion rates of 80%-95% against DREBIN, Sec-SVM, ADE-MA, MaMaDroid, and Opcode-SVM with only 1-9 queries. Furthermore, we show that the proposed problem-space adversarial attack is able to preserve its stealthiness against five popular commercial antiviruses with an average of 79% evasion rate, thus demonstrating its feasibility in the real world. | 翻訳日:2024-01-26 19:12:46 公開日:2024-01-25 |
# 一般非凸凸ミニマックス問題に対する微分自由交互射影アルゴリズム Derivative-free Alternating Projection Algorithms for General Nonconvex-Concave Minimax Problems ( http://arxiv.org/abs/2108.00473v5 ) ライセンス: Link先を確認 | Zi Xu, Ziqi Wang, Jingjing Shen, Yuhong Dai | (参考訳) 本稿では,近年,機械学習,信号処理,その他多くの分野で注目されている非凸凹ミニマックス問題に対するゼロ次アルゴリズムについて検討する。
我々は,滑らかな非凸凸凸ミニマックス問題に対するゼロ次交互ランダム勾配投影(zo-agp)アルゴリズムを提案し,その反復複雑性から$\varepsilon$-stationary point を得るには$\mathcal{o}(\varepsilon^{-4})$ を条件とし,関数値推定の回数を$\mathcal{o}(d_{x}+d_{y})$ とする。
さらに,ブロック方向非滑らかな非凸凸凸型ミニマックス最適化問題を解くために,ゼロ次ブロック交互なランダムな近位勾配アルゴリズム (zo-bapg) を提案し,$\varepsilon$-stationary point を得るための反復複雑性を$\mathcal{o}(\varepsilon^{-4})$ で制限し,各イテレーション当たりの関数値推定数は$\mathcal{o}(k d_{x}+d_{y})$で制限する。
我々の知る限りでは、一般にスムーズかつブロックワイズ非滑らかな非凸凹極小問題を解くため、反復複雑性を保証したゼロ階アルゴリズムが開発されたのはこれが初めてである。
データ中毒攻撃問題と分散非凸スパース主成分分析問題に関する数値結果は,提案アルゴリズムの有効性を検証する。 In this paper, we study zeroth-order algorithms for nonconvex-concave minimax problems, which have attracted widely attention in machine learning, signal processing and many other fields in recent years. We propose a zeroth-order alternating randomized gradient projection (ZO-AGP) algorithm for smooth nonconvex-concave minimax problems, and its iteration complexity to obtain an $\varepsilon$-stationary point is bounded by $\mathcal{O}(\varepsilon^{-4})$, and the number of function value estimation is bounded by $\mathcal{O}(d_{x}+d_{y})$ per iteration. Moreover, we propose a zeroth-order block alternating randomized proximal gradient algorithm (ZO-BAPG) for solving block-wise nonsmooth nonconvex-concave minimax optimization problems, and the iteration complexity to obtain an $\varepsilon$-stationary point is bounded by $\mathcal{O}(\varepsilon^{-4})$ and the number of function value estimation per iteration is bounded by $\mathcal{O}(K d_{x}+d_{y})$. To the best of our knowledge, this is the first time that zeroth-order algorithms with iteration complexity gurantee are developed for solving both general smooth and block-wise nonsmooth nonconvex-concave minimax problems. Numerical results on data poisoning attack problem and distributed nonconvex sparse principal component analysis problem validate the efficiency of the proposed algorithms. | 翻訳日:2024-01-26 19:11:42 公開日:2024-01-25 |
# 現実的な可変ハッシュテーブルの検証 Verifying a Realistic Mutable Hash Table ( http://arxiv.org/abs/2107.08824v3 ) ライセンス: Link先を確認 | Samuel Chassot, Viktor Kun\v{c}ak | (参考訳) 本研究では,Scala 標準ライブラリから変更可能な LongMap を検証し,単一配列内のオープンアドレスを用いたハッシュテーブルをステンレスプログラム検証器を用いて検証する。
参照実装として、タプルのリストに基づいて不変なマップを書きます。
次に、LongMapの操作がこのアソシエーションリストの操作に対応することを示す。
ハッシュテーブル配列のリサイズ化を表現するため,新しい参照スワップ構造をステンレスで導入する。
これにより、エイリアスを導入することなくデコレータパターンを適用することができます。
検証作業によって、大きなハッシュテーブルに現れるオリジナルの実装のバグを発見し、修正しました。
性能分析の結果、検証されたバージョンはオリジナルのデータ構造の1.5要素以内であることが判明した。 In this work, we verify the mutable LongMap from the Scala standard library, a hash table using open addressing within a single array, using the Stainless program verifier. As a reference implementation, we write an immutable map based on a list of tuples. We then show that LongMap's operations correspond to operations of this association list. To express the resizing of the hash table array, we introduce a new reference swapping construct in Stainless. This allows us to apply the decorator pattern without introducing aliasing. Our verification effort led us to find and fix a bug in the original implementation that manifests for large hash tables. Our performance analysis shows the verified version to be within a 1.5 factor of the original data structure. | 翻訳日:2024-01-26 19:10:33 公開日:2024-01-25 |
# ゲージ不変量子熱力学:第一法則の結果 Gauge invariant quantum thermodynamics: consequences for the first law ( http://arxiv.org/abs/2104.10153v4 ) ライセンス: Link先を確認 | Lucas Chibebe C\'eleri and {\L}ukasz Rudnicki | (参考訳) 古典的熱力学の普遍性は中心極限定理に依拠しており、熱ゆらぎの測定はマクロな体の微細構造に関する詳細な情報を明らかにすることができない。
小さな系が考慮され変動が重要になるとき、古典確率力学の文脈で熱力学量を理解することができる。
熱力学の基本的な前提は粗粒化であり、これは全ての自由度に対する制御の欠如に起因する。
しかし、量子システムに関する場合、高いレベルの制御が要求される。
その結果、情報理論は熱力学関数の同定に重要な役割を果たしている。
ここでは、すべての現代的な物理理論に不可欠なゲージ対称性の概念から、我々は新しい可能な中間経路を提唱した。
量子熱力学の分野では、熱力学の背後にある粗粒の緩やかな変種をエンコードする物理的動機付けゲージ変換を明示的に構成する。
結果として、量子ワークと熱を再解釈すると同時に、量子コヒーレンスの役割も再解釈する。 Universality of classical thermodynamics rests on the central limit theorem, due to which, measurements of thermal fluctuations are unable to reveal detailed information regarding the microscopic structure of a macroscopic body. When small systems are considered and fluctuations become important, thermodynamic quantities can be understood in the context of classical stochastic mechanics. A fundamental assumption behind thermodynamics is therefore that of coarse-graning, which stems from a substantial lack of control over all degrees of freedom. However, when quantum systems are concerned, one claims a high level of control. As a consequence, information theory plays a major role in the identification of thermodynamic functions. Here, drawing from the concept of gauge symmetry, essential in all modern physical theories, we put forward a new possible, intermediate route. Working within the realm of quantum thermodynamics we explicitly construct physically motivated gauge transformations which encode a gentle variant of coarse-graining behind thermodynamics. As a consequence, we reinterpret quantum work and heat, as well as the role of quantum coherence. | 翻訳日:2024-01-26 19:10:21 公開日:2024-01-25 |
# 符号化理論とクロスバリデーションの関連とその応用 A Link between Coding Theory and Cross-Validation with Applications ( http://arxiv.org/abs/2103.11856v2 ) ライセンス: Link先を確認 | Tapio Pahikkala, Parisa Movahedi, Ileana Montoya, Havu Miikonen, Stephan Foldes, Antti Airola, Laszlo Major | (参考訳) 1つの学習アルゴリズムが、正確にゼロまたは最も多く与えられたクロスバリデーションエラーを持つ固定データに対して、何つの異なるバイナリ分類問題を解くことができるのか?
前者の場合の数はno-free-lunch定理によって制限されていることが知られているが、正確な答えは誤り検出符号の理論によって与えられる。
ケーススタディでは、AUCのパフォーマンス測定と、異なるクラスラベルを持つすべての可能なデータを同時に保持するLPOCV(Left-pair-out Cross-validation)に焦点を当てる。
学習アルゴリズムがゼロのLPOCV誤差を達成できる固定クラス比を持つ分類問題の最大個数は、一定重み付き符号(CWC)におけるコードワードの最大個数と同値であり、一定の技術的特性を有することを示した。
次に、CWCを光CWCを導入して一般化し、非ゼロのLPOCV誤差と光CWCに類似した結果を示す。
さらに、光cwcにおける符号語の最大数上の上限と下限の両方を証明する。
最後に,従来のWilcoxon-Mann-Whitney U 試験を一般化する学習アルゴリズムのための LPOCV ベースの新しいランダム化テストを開発した。 How many different binary classification problems a single learning algorithm can solve on a fixed data with exactly zero or at most a given number of cross-validation errors? While the number in the former case is known to be limited by the no-free-lunch theorem, we show that the exact answers are given by the theory of error detecting codes. As a case study, we focus on the AUC performance measure and leave-pair-out cross-validation (LPOCV), in which every possible pair of data with different class labels is held out at a time. We shown that the maximal number of classification problems with fixed class proportion, for which a learning algorithm can achieve zero LPOCV error, equals the maximal number of code words in a constant weight code (CWC), with certain technical properties. We then generalize CWCs by introducing light CWCs and prove an analogous result for nonzero LPOCV errors and light CWCs. Moreover, we prove both upper and lower bounds on the maximal numbers of code words in light CWCs. Finally, as an immediate practical application, we develop new LPOCV based randomization tests for learning algorithms that generalize the classical Wilcoxon-Mann-Whitney U test. | 翻訳日:2024-01-26 19:10:05 公開日:2024-01-25 |
# 逆グラフの絡み合い Adversarial Graph Disentanglement ( http://arxiv.org/abs/2103.07295v4 ) ライセンス: Link先を確認 | Shuai Zheng, Zhenfeng Zhu, Zhizhe Liu, Jian Cheng, Yao Zhao | (参考訳) 実世界のグラフは複雑な位相構造を持ち、しばしば異なる潜在因子の相互作用によって形成される。
しかし、既存の手法の多くは、因子の絡み合いによって引き起こされるノード間の関係に固有の違いを考慮していない。
本稿では,不整合グラフ表現学習のための,Shaunderline{\textbf{A}}dversarial \underline{\textbf{D}}isentangled \underline{\textbf{G}}raph \underline{\textbf{C}}onvolutional \underline{\textbf{N}}etwork (ADGCN)を提案する。
まず、まず、考慮すべきグラフ不等角化の2つの側面、すなわち、マイクロ不等角化とマクロ不等角化を指摘する。
そこで, ノード間のリンクの原因となる潜伏成分を推定することにより, マイクロディスタングルを実現するために, コンポーネント固有のアグリゲーション手法を提案する。
さらに, マイクロディスタングル化に基づいて, 成分分布間の分離性を向上し, 成分間の相互依存を制限するマクロディスタングル逆正則化器を提案する。
さらに, トポロジカルグラフ構造を明らかにするために, 局所構造認識によってグラフ構造を漸進的に洗練できる多様性保存ノードサンプリング手法を提案する。
実世界のグラフデータを用いた実験結果から,ADGCNが現在利用可能な代替品よりも好適な性能を得ることを確認した。
ADGCNのソースコードは、textit{\url{https://github.com/SsGood/ADGCN}}で入手できる。 A real-world graph has a complex topological structure, which is often formed by the interaction of different latent factors. However, most existing methods lack consideration of the intrinsic differences in relations between nodes caused by factor entanglement. In this paper, we propose an \underline{\textbf{A}}dversarial \underline{\textbf{D}}isentangled \underline{\textbf{G}}raph \underline{\textbf{C}}onvolutional \underline{\textbf{N}}etwork (ADGCN) for disentangled graph representation learning. To begin with, we point out two aspects of graph disentanglement that need to be considered, i.e., micro-disentanglement and macro-disentanglement. For them, a component-specific aggregation approach is proposed to achieve micro-disentanglement by inferring latent components that cause the links between nodes. On the basis of micro-disentanglement, we further propose a macro-disentanglement adversarial regularizer to improve the separability among component distributions, thus restricting the interdependence among components. Additionally, to reveal the topological graph structure, a diversity-preserving node sampling approach is proposed, by which the graph structure can be progressively refined in a way of local structure awareness. The experimental results on various real-world graph data verify that our ADGCN obtains more favorable performance over currently available alternatives. The source codes of ADGCN are available at \textit{\url{https://github.com/SsGood/ADGCN}}. | 翻訳日:2024-01-26 19:09:42 公開日:2024-01-25 |
# 生成逆ネットワークを用いた密度推定における収束率 Rates of convergence for density estimation with generative adversarial networks ( http://arxiv.org/abs/2102.00199v4 ) ライセンス: Link先を確認 | Nikita Puchkin, Sergey Samsonov, Denis Belomestny, Eric Moulines, and Alexey Naumov | (参考訳) 本研究では,gans(vanilla generative adversarial networks)の非漸近的性質について徹底的に検討する。
我々は、Jensen-Shannon (JS) の基底密度 $\mathsf{p}^*$ と GAN の推定値との偏差を、既知結果と比較してかなり良い統計的誤差項で証明する。
この境界の利点は非パラメトリック密度推定への応用において明らかとなる。
GAN推定値と$\mathsf{p}^*$のJS分割は、$(\log{n}/n)^{2\beta/(2\beta + d)}$と同じ速さで崩壊し、$n$はサンプルサイズであり、$\beta$は$\mathsf{p}^*$の滑らかさを決定する。
この収束速度は(対数因子まで)、密度のクラスとして最適と考えられるミニマックスと一致する。 In this work we undertake a thorough study of the non-asymptotic properties of the vanilla generative adversarial networks (GANs). We prove an oracle inequality for the Jensen-Shannon (JS) divergence between the underlying density $\mathsf{p}^*$ and the GAN estimate with a significantly better statistical error term compared to the previously known results. The advantage of our bound becomes clear in application to nonparametric density estimation. We show that the JS-divergence between the GAN estimate and $\mathsf{p}^*$ decays as fast as $(\log{n}/n)^{2\beta/(2\beta + d)}$, where $n$ is the sample size and $\beta$ determines the smoothness of $\mathsf{p}^*$. This rate of convergence coincides (up to logarithmic factors) with minimax optimal for the considered class of densities. | 翻訳日:2024-01-26 19:09:15 公開日:2024-01-25 |
# 正規化確率制御問題に対する勾配流 Gradient Flows for Regularized Stochastic Control Problems ( http://arxiv.org/abs/2006.05956v5 ) ライセンス: Link先を確認 | David \v{S}i\v{s}ka and {\L}ukasz Szpruch | (参考訳) 本稿では,相対エントロピーを対象とし,確率測度を考慮した行動空間の確率的制御問題について検討する。
我々は,測定値制御プロセスの勾配流を構築するための適切な計量空間を,コスト関数が減少することを保証した許容可能な制御セットで同定する。
この勾配流れの任意の不変測度はポントリャーギン最適性原理を満たすことが示されている。
私たちが取り組んだ問題が十分に凸であれば、勾配流は指数関数的に速く収束する。
さらに、最適測度値制御プロセスは、そのような確率的制御問題を解決する際に事前の知識を取り入れることができるベイズ解釈を許容する。
この研究は、強化学習コミュニティで広く用いられている確率勾配型アルゴリズムの収束に対する理論的基盤を広げ、制御問題を解決することを目的としている。 This paper studies stochastic control problems with the action space taken to be probability measures, with the objective penalised by the relative entropy. We identify suitable metric space on which we construct a gradient flow for the measure-valued control process, in the set of admissible controls, along which the cost functional is guaranteed to decrease. It is shown that any invariant measure of this gradient flow satisfies the Pontryagin optimality principle. If the problem we work with is sufficiently convex, the gradient flow converges exponentially fast. Furthermore, the optimal measure-valued control process admits a Bayesian interpretation which means that one can incorporate prior knowledge when solving such stochastic control problems. This work is motivated by a desire to extend the theoretical underpinning for the convergence of stochastic gradient type algorithms widely employed in the reinforcement learning community to solve control problems. | 翻訳日:2024-01-26 19:08:55 公開日:2024-01-25 |
# 量子場理論の古典的統計シミュレーション Classical Statistical simulation of Quantum Field Theory ( http://arxiv.org/abs/1912.01648v3 ) ライセンス: Link先を確認 | Takayuki Hirayama | (参考訳) 量子場理論の摂動理論におけるn点関数を、古典理論における複素ガウス雑音の平均として計算する手法を提案する。
複素ガウスノイズは粒子の生成と消滅の源であり、結果として得られる構成のエネルギーは対応する場の量子論の零点エネルギーと同じである。 We propose a procedure of computing the n-point function in perturbation theory of the quantum field theory as the average over the complex Gaussian noises in a classical theory. The complex Gaussian noises are the sources for the creation and annihilation of particles and the energy of the resultant configuration is the same as the zero point energy of the corresponding quantum field theory. | 翻訳日:2024-01-26 19:08:41 公開日:2024-01-25 |
# HyperSound: Hypernetworksによる音声信号の暗黙のニューラル表現の生成 HyperSound: Generating Implicit Neural Representations of Audio Signals with Hypernetworks ( http://arxiv.org/abs/2211.01839v2 ) ライセンス: Link先を確認 | Filip Szatkowski, Karol J. Piczak, Przemys{\l}aw Spurek, Jacek Tabor, Tomasz Trzci\'nski | (参考訳) Inlicit Neural representations (INR) は急速に成長する研究分野であり、マルチメディア信号の代替手段を提供する。
INRの最近の応用には、画像超解像、高次元信号の圧縮、3Dレンダリングがある。
しかし、これらのソリューションは通常、ビジュアルデータに焦点を当てており、オーディオ領域への適応は自明ではない。
さらに、データサンプル毎に個別にトレーニングされたモデルが必要です。
この制限に対処するために,ハイパーネットワークを活用したメタ学習手法であるhypersoundを提案する。
本手法は他の最先端モデルに匹敵する品質で音波を再現できることを示す。 Implicit neural representations (INRs) are a rapidly growing research field, which provides alternative ways to represent multimedia signals. Recent applications of INRs include image super-resolution, compression of high-dimensional signals, or 3D rendering. However, these solutions usually focus on visual data, and adapting them to the audio domain is not trivial. Moreover, it requires a separately trained model for every data sample. To address this limitation, we propose HyperSound, a meta-learning method leveraging hypernetworks to produce INRs for audio signals unseen at training time. We show that our approach can reconstruct sound waves with quality comparable to other state-of-the-art models. | 翻訳日:2024-01-26 19:04:44 公開日:2024-01-25 |
# ネットワークにおける異種干渉による個別治療効果の学習 Learning Individual Treatment Effects under Heterogeneous Interference in Networks ( http://arxiv.org/abs/2210.14080v2 ) ライセンス: Link先を確認 | Ziyu Zhao, Yuqi Bai, Kun Kuang, Ruoxuan Xiong, Fei Wu | (参考訳) 近年,ネットワーク観察データによる個別治療効果の推計が注目されている。
ネットワークシナリオにおける1つの大きな課題は、安定した単位処理値仮定(sutva: unit treatment value assumption)に違反することである。
ネットワークデータでは、干渉により、ユニットの成果は、その処理(すなわち、直接効果)だけでなく、他人の処理(すなわち、スプリンクラー効果)にも影響される。
さらに、他のユニットからの影響は常に異質である(例えば、類似した興味を持つ友人は異なる興味を持つ友人とは異なる人に影響する)。
本稿では,不均一干渉下での個々の治療効果(直接効果と流出効果の両方)を推定する問題に着目する。
そこで本研究では,ネットワークの複雑な重み付けバイアスを解消するために,異種干渉とサンプル重みを同時に捉えた注意重みを学習し,新しい二重重み付け回帰(dwr)アルゴリズムを提案する。
学習過程全体を二段階最適化問題として定式化する。
理論上,個別処理効果推定のための一般化誤差境界を提案する。
4つのベンチマークデータセットに対する大規模な実験により、提案したDWRアルゴリズムは、異種干渉下での個々の治療効果を推定するための最先端の手法より優れていることが示された。 Estimates of individual treatment effects from networked observational data are attracting increasing attention these days. One major challenge in network scenarios is the violation of the stable unit treatment value assumption (SUTVA), which assumes that the treatment assignment of a unit does not influence others' outcomes. In network data, due to interference, the outcome of a unit is influenced not only by its treatment (i.e., direct effects) but also by others' treatments (i.e., spillover effects). Furthermore, the influences from other units are always heterogeneous (e.g., friends with similar interests affect a person differently than friends with different interests). In this paper, we focus on the problem of estimating individual treatment effects (both direct and spillover effects) under heterogeneous interference. To address this issue, we propose a novel Dual Weighting Regression (DWR) algorithm by simultaneously learning attention weights that capture the heterogeneous interference and sample weights to eliminate the complex confounding bias in networks. We formulate the entire learning process as a bi-level optimization problem. In theory, we present generalization error bounds for individual treatment effect estimation. Extensive experiments on four benchmark datasets demonstrate that the proposed DWR algorithm outperforms state-of-the-art methods for estimating individual treatment effects under heterogeneous interference. | 翻訳日:2024-01-26 19:04:34 公開日:2024-01-25 |
# 確率的回帰境界を用いたブリッジング分布とリスク感性強化学習 Bridging Distributional and Risk-sensitive Reinforcement Learning with Provable Regret Bounds ( http://arxiv.org/abs/2210.14051v3 ) ライセンス: Link先を確認 | Hao Liang, Zhi-Quan Luo | (参考訳) 本稿では,危険感応性強化学習(RSRL)に対する後悔の保証について,分布性強化学習(DRL)法を用いて検討する。
特に,回帰のエントロピーリスク測度 (entrm) を目標とする有限エピソディックマルコフ決定過程を考える。
entrmの重要な特性である独立性を利用して、リスクに敏感な分散動的プログラミングフレームワークを確立する。
次に、モデルフリーとモデルベースを含む2つの異なるスキームを通して最適化を実装する2つの新しいDRLアルゴリズムを提案する。
両者ともに$\tilde{\mathcal{o}}(\frac{\exp(|\beta| h)-1}{|\beta|}h\sqrt{s^2ak}) を成すことを証明し、ここではそれぞれ$s$、$a$、$k$、$h$ が状態、アクション、エピソード、時間軸の数を表す。
これは \cite{fei2021exponential} で提案された rsvi2 と新しい分布解析と一致する。
我々の知る限りでは、DRLとRSRLをサンプルの複雑さで橋渡しするのは、これが初めての後悔の意である。
モデルフリーのDRLアルゴリズムに付随する計算効率の低下を認め,分布表現を用いたDRLアルゴリズムを提案する。
このアプローチは、確立された後悔境界を維持するだけでなく、計算効率を大幅に増幅する。
また、リスクニュートラルな設定で、より厳密なミニマックス下限の$\Omega(\frac{\exp(\beta H/6)-1}{\beta H}H\sqrt{SAT})$を$\beta>0$ケースに対して証明し、より厳密な下限の$\Omega(H\sqrt{SAT})$を復元する。 We study the regret guarantee for risk-sensitive reinforcement learning (RSRL) via distributional reinforcement learning (DRL) methods. In particular, we consider finite episodic Markov decision processes whose objective is the entropic risk measure (EntRM) of return. By leveraging a key property of the EntRM, the independence property, we establish the risk-sensitive distributional dynamic programming framework. We then propose two novel DRL algorithms that implement optimism through two different schemes, including a model-free one and a model-based one. We prove that they both attain $\tilde{\mathcal{O}}(\frac{\exp(|\beta| H)-1}{|\beta|}H\sqrt{S^2AK})$ regret upper bound, where $S$, $A$, $K$, and $H$ represent the number of states, actions, episodes, and the time horizon, respectively. It matches RSVI2 proposed in \cite{fei2021exponential}, with novel distributional analysis. To the best of our knowledge, this is the first regret analysis that bridges DRL and RSRL in terms of sample complexity. Acknowledging the computational inefficiency associated with the model-free DRL algorithm, we propose an alternative DRL algorithm with distribution representation. This approach not only maintains the established regret bounds but also significantly amplifies computational efficiency. We also prove a tighter minimax lower bound of $\Omega(\frac{\exp(\beta H/6)-1}{\beta H}H\sqrt{SAT})$ for the $\beta>0$ case, which recovers the tight lower bound $\Omega(H\sqrt{SAT})$ in the risk-neutral setting. | 翻訳日:2024-01-26 19:04:14 公開日:2024-01-25 |
# ヒューマンAI意思決定における説明・公正・適切な信頼 Explanations, Fairness, and Appropriate Reliance in Human-AI Decision-Making ( http://arxiv.org/abs/2209.11812v3 ) ライセンス: Link先を確認 | Jakob Schoeffer, Maria De-Arteaga, Niklas Kuehl | (参考訳) 本研究では,特徴に基づく説明がAIによる意思決定の分配的公正性に及ぼす影響について検討する。
また、人間の公正感とAIレコメンデーションへの依存によって、どのような効果が媒介されるかについても検討する。
以上の結果から,説明は公正感に影響を及ぼし,人間のAI推奨に固執する傾向に影響を及ぼすことが明らかとなった。
しかし、このような説明は、人間が正しいAIレコメンデーションと誤ったAIレコメンデーションを識別することができない。
代わりに、AIレコメンデーションの正確性に関わらず、それらが依存に影響を与える可能性があることを示す。
説明がタスクと無関係で、明らかに繊細な属性に関連付けられている特徴を強調すると、このプロンプトは、性別のステレオタイプに合わせたai推奨に対抗して、オーバーライドする。
一方、説明がタスク関連性を示す場合、これはステレオタイプ整列エラーを強化する信頼行動を引き起こす。
これらの結果は、機能ベースの説明は分散的公平性を改善するための信頼できるメカニズムではないことを示している。 In this work, we study the effects of feature-based explanations on distributive fairness of AI-assisted decisions, specifically focusing on the task of predicting occupations from short textual bios. We also investigate how any effects are mediated by humans' fairness perceptions and their reliance on AI recommendations. Our findings show that explanations influence fairness perceptions, which, in turn, relate to humans' tendency to adhere to AI recommendations. However, we see that such explanations do not enable humans to discern correct and incorrect AI recommendations. Instead, we show that they may affect reliance irrespective of the correctness of AI recommendations. Depending on which features an explanation highlights, this can foster or hinder distributive fairness: when explanations highlight features that are task-irrelevant and evidently associated with the sensitive attribute, this prompts overrides that counter AI recommendations that align with gender stereotypes. Meanwhile, if explanations appear task-relevant, this induces reliance behavior that reinforces stereotype-aligned errors. These results imply that feature-based explanations are not a reliable mechanism to improve distributive fairness. | 翻訳日:2024-01-26 19:03:10 公開日:2024-01-25 |
# 非二項質的確率的ネットワークにおける誤推定に関する一考察 A note on incorrect inferences in non-binary qualitative probabilistic networks ( http://arxiv.org/abs/2208.09344v3 ) ライセンス: Link先を確認 | Jack Storror Carter | (参考訳) 定性的確率ネットワーク(QPN)はベイズネットワークの条件的独立仮定と正および負の依存の定性的性質を結合する。
正依存の様々な直感的な性質を定式化し、変数の大きなネットワーク上の推論を可能にする。
しかし、本論文では、不正確な対称性により、非バイナリqpnで得られる多くの推論は数学的に真ではないことを示す。
このような誤った推論の例を示し、可能な解決法を簡単に議論する。 Qualitative probabilistic networks (QPNs) combine the conditional independence assumptions of Bayesian networks with the qualitative properties of positive and negative dependence. They formalise various intuitive properties of positive dependence to allow inferences over a large network of variables. However, we will demonstrate in this paper that, due to an incorrect symmetry property, many inferences obtained in non-binary QPNs are not mathematically true. We will provide examples of such incorrect inferences and briefly discuss possible resolutions. | 翻訳日:2024-01-26 19:02:50 公開日:2024-01-25 |
# 畳み込みパーシステンス変換 Convolutional Persistence Transforms ( http://arxiv.org/abs/2208.02107v2 ) ライセンス: Link先を確認 | Elchanan Solomon, Paul Bendich | (参考訳) 本稿では,画像やラベル付きグラフなど,単純コンプレックス上で定義されたデータのトポロジカルデデュース化について考察する。
畳み込みフィルタを局所的なモチーフと見なすと、結果として生じる畳み込みの永続図は、そのモチーフが単体複合体に分散される方法を記述する。
このパイプラインは畳み込み永続化(convolutional persistence)と呼ばれ、データ内のパターンを観測するトポロジーの能力を拡張します。
さらに、2つのラベル付き複体に対して(実際は)異なる永続図形を生成するフィルターを見つけることができ、すべての可能な畳み込み持続図形の集合が射影不変量であることを示す。
これは、別の位相不変量である永続ホモロジー変換の特別な場合として畳み込み持続性を示すことによって証明される。
畳み込み永続化の他の利点は、安定性の向上、データ依存ベクトル化の柔軟性の向上、特定のデータタイプの計算複雑性の低減である。
さらに, コンボリューションは, ランダムフィルタを使用し, 全体の持続性のみを記録することにより, 結果図をベクトル化する場合でも, 分類タスクのホスト上での持続性予測能力を大幅に向上させることを示した。 In this paper, we consider topological featurizations of data defined over simplicial complexes, like images and labeled graphs, obtained by convolving this data with various filters before computing persistence. Viewing a convolution filter as a local motif, the persistence diagram of the resulting convolution describes the way the motif is distributed across the simplicial complex. This pipeline, which we call convolutional persistence, extends the capacity of topology to observe patterns in such data. Moreover, we prove that (generically speaking) for any two labeled complexes one can find some filter for which they produce different persistence diagrams, so that the collection of all possible convolutional persistence diagrams is an injective invariant. This is proven by showing convolutional persistence to be a special case of another topological invariant, the Persistent Homology Transform. Other advantages of convolutional persistence are improved stability, greater flexibility for data-dependent vectorizations, and reduced computational complexity for certain data types. Additionally, we have a suite of experiments showing that convolutions greatly improve the predictive power of persistence on a host of classification tasks, even if one uses random filters and vectorizes the resulting diagrams by recording only their total persistences. | 翻訳日:2024-01-26 19:02:42 公開日:2024-01-25 |
# リスク対策と上層確率:コヒーレンスと成層化 Risk Measures and Upper Probabilities: Coherence and Stratification ( http://arxiv.org/abs/2206.03183v3 ) ライセンス: Link先を確認 | Christian Fr\"ohlich and Robert C. Williamson | (参考訳) 機械学習は一般に、アグリゲーションが期待に基づいて構築されることを示す古典的な確率論を前提としている。
現在、機械学習の数学的基礎として、古典的確率論のよりリッチな代替を考える動機づけとなる複数の理由がある。
我々は、スペクトルリスク測度、コケ積分、ローレンツノルムとして知られる、強力で豊富な代替集合汎関数のクラスを体系的に検討する。
我々は、様々な特徴付け結果を示し、このスペクトルファミリをなぜ特別なものにするかを示す。
そうすることで、すべてのコヒーレントなリスク測度の自然な成層化に到達し、それらは再配置不変バナッハ空間の理論の結果を活用して誘導される。
我々は、この新たな不確実性に対するアプローチが、実践的な機械学習問題にどのように対処するかを実証的に示す。 Machine learning typically presupposes classical probability theory which implies that aggregation is built upon expectation. There are now multiple reasons to motivate looking at richer alternatives to classical probability theory as a mathematical foundation for machine learning. We systematically examine a powerful and rich class of alternative aggregation functionals, known variously as spectral risk measures, Choquet integrals or Lorentz norms. We present a range of characterization results, and demonstrate what makes this spectral family so special. In doing so we arrive at a natural stratification of all coherent risk measures in terms of the upper probabilities that they induce by exploiting results from the theory of rearrangement invariant Banach spaces. We empirically demonstrate how this new approach to uncertainty helps tackling practical machine learning problems. | 翻訳日:2024-01-26 19:01:02 公開日:2024-01-25 |
# 識別機構を有するスケーラブルビデオオブジェクト分割 Scalable Video Object Segmentation with Identification Mechanism ( http://arxiv.org/abs/2203.11442v7 ) ライセンス: Link先を確認 | Zongxin Yang, Jiaxu Miao, Yunchao Wei, Wenguan Wang, Xiaohan Wang, Yi Yang | (参考訳) 本稿では、半教師付きビデオオブジェクトセグメンテーション(VOS)のためのスケーラブルで効果的なマルチオブジェクトモデリングを実現するための課題について述べる。
従来のvosメソッドは単一の正のオブジェクトで特徴をデコードし、複数のオブジェクトの表現の学習を制限する。
さらに、以前のテクニックは特定のアプリケーション目標に適合し、異なるスピード精度要件を満たす柔軟性に欠けていた。
これらの問題を解決するために,AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)という2つの革新的なアプローチを提案する。
効果的なマルチオブジェクトモデリングの追求において、AOTは各オブジェクトにユニークなIDを割り当てるためのID(ID)メカニズムを導入する。
このアプローチにより、ネットワークはすべてのオブジェクト間の関連性を同時にモデル化し、単一のネットワークパスにおけるオブジェクトの追跡とセグメンテーションを容易にする。
非フレキシブルなデプロイメントの課題に対処するため、AOSTはさらに、スケーラブルな監視とレイヤ単位のIDベースの注意を取り入れた、スケーラブルな長期的な短期トランスフォーマーを統合している。
これにより、VOSで初めてオンラインアーキテクチャのスケーラビリティが可能になり、ID埋め込みの表現制限を克服できる。
マルチオブジェクトアノテーションを含むVOSのベンチマークが欠如していることを踏まえ,我々のアプローチを検証するために,ビデオオブジェクトセグメンテーション・イン・ザ・ワイルド(VOSW)ベンチマークを提案する。
VOSWと一般的に使用されているVOSベンチマーク5つ、YouTube-VOS 2018と2019 Val、DAVIS-2017 Val & Test、DAVIS-2016を含む、様々なAOTおよびAOSTのバリエーションを評価した。
当社のアプローチは最先端のコンペティタを上回っており、6つのベンチマークで一貫して優れた効率性とスケーラビリティを示しています。
プロジェクトページ: https://github.com/yoxu515/aot-benchmark This paper delves into the challenges of achieving scalable and effective multi-object modeling for semi-supervised Video Object Segmentation (VOS). Previous VOS methods decode features with a single positive object, limiting the learning of multi-object representation as they must match and segment each target separately under multi-object scenarios. Additionally, earlier techniques catered to specific application objectives and lacked the flexibility to fulfill different speed-accuracy requirements. To address these problems, we present two innovative approaches, Associating Objects with Transformers (AOT) and Associating Objects with Scalable Transformers (AOST). In pursuing effective multi-object modeling, AOT introduces the IDentification (ID) mechanism to allocate each object a unique identity. This approach enables the network to model the associations among all objects simultaneously, thus facilitating the tracking and segmentation of objects in a single network pass. To address the challenge of inflexible deployment, AOST further integrates scalable long short-term transformers that incorporate scalable supervision and layer-wise ID-based attention. This enables online architecture scalability in VOS for the first time and overcomes ID embeddings' representation limitations. Given the absence of a benchmark for VOS involving densely multi-object annotations, we propose a challenging Video Object Segmentation in the Wild (VOSW) benchmark to validate our approaches. We evaluated various AOT and AOST variants using extensive experiments across VOSW and five commonly used VOS benchmarks, including YouTube-VOS 2018 & 2019 Val, DAVIS-2017 Val & Test, and DAVIS-2016. Our approaches surpass the state-of-the-art competitors and display exceptional efficiency and scalability consistently across all six benchmarks. Project page: https://github.com/yoxu515/aot-benchmark. | 翻訳日:2024-01-26 19:00:48 公開日:2024-01-25 |
# 代替入力を用いたクラスター状態量子回路の効率的古典シミュレーション Efficient classical simulation of cluster state quantum circuits with alternative inputs ( http://arxiv.org/abs/2201.07655v3 ) ライセンス: Link先を確認 | Sahar Atallah, Michael Garn, Sania Jevtic, Yukuan Tao, Shashank Virmani | (参考訳) 本稿では,クラスター状態量子計算に関連する純粋に絡み合ったシステムの新しい例を示し,古典的シミュレーションを効率的に行う。
クラスタ状態の量子計算入力キュービットはブロッホ球の「赤道」で初期化され、$CZ$ゲートが適用され、最終的に$Z$測定または$\cos(\theta)X + \sin(\theta)Y$演算子を用いて適応的に測定される。
初期化ステップが修正されたときに何が起こるかを考えると、有限次$D$の格子に対して定数$\lambda \approx 2.06$が存在し、もし量子ビットが計算ベースで対角的な状態のトレース距離において$\lambda^{-D}$内にある状態に準備されているなら、所望の総変分距離における出力分布からのサンプリングを古典的に効率的にシミュレートできる。
例えば、$D=4$の正方格子では、$\lambda^{-D} \approx 0.056$である。
古典的効率のよい領域のサイズを増加させる,粗粒度バージョンの引数を開発した。
量子ビットの平方格子の場合、古典的にシミュラタブルな領域のサイズは少なくとも$\approx 0.070$に増加し、実際は$\approx 0.1$に増加する。
結果は、相互作用が計算ベースで対角的であり、測定が計算ベースで、あるいはそれに対してバイアスのない、より広範なシステムのファミリーに一般化される。
短いバージョンだけを欲しがる読者は、図1から図3までの直感を多く得ることができる。 We provide new examples of pure entangled systems related to cluster state quantum computation that can be efficiently simulated classically. In cluster state quantum computation input qubits are initialised in the `equator' of the Bloch sphere, $CZ$ gates are applied, and finally the qubits are measured adaptively using $Z$ measurements or measurements of $\cos(\theta)X + \sin(\theta)Y$ operators. We consider what happens when the initialisation step is modified, and show that for lattices of finite degree $D$, there is a constant $\lambda \approx 2.06$ such that if the qubits are prepared in a state that is within $\lambda^{-D}$ in trace distance of a state that is diagonal in the computational basis, then the system can be efficiently simulated classically in the sense of sampling from the output distribution within a desired total variation distance. In the square lattice with $D=4$ for instance, $\lambda^{-D} \approx 0.056$. We develop a coarse grained version of the argument which increases the size of the classically efficient region. In the case of the square lattice of qubits, the size of the classically simulatable region increases in size to at least around $\approx 0.070$, and in fact probably increases to around $\approx 0.1$. The results generalise to a broader family of systems, including qudit systems where the interaction is diagonal in the computational basis and the measurements are either in the computational basis or unbiased to it. Potential readers who only want the short version can get much of the intuition from figures 1 to 3. | 翻訳日:2024-01-26 19:00:13 公開日:2024-01-25 |
# リモートセンシング画像のセグメンテーションにおけるマルチスケールコンテキストの集約学習 Learning to Aggregate Multi-Scale Context for Instance Segmentation in Remote Sensing Images ( http://arxiv.org/abs/2111.11057v4 ) ライセンス: Link先を確認 | Ye Liu, Huifang Li, Chao Hu, Shuang Luo, Yan Luo, and Chang Wen Chen | (参考訳) リモートセンシング画像におけるインスタンスセグメンテーションのタスクは、インスタンスレベルでオブジェクトのピクセル単位のラベリングを行うことを目的としており、様々な民間アプリケーションにとって非常に重要である。
これまでの成功にもかかわらず、自然画像用に設計された既存のインスタンスセグメンテーション手法のほとんどは、トップビューリモートセンシングイメージに直接適用されると、パフォーマンスが著しく低下する。
注意深い分析により,厳密なスケールの変動,低コントラスト,クラスタ化分布による識別対象の特徴の欠如が主な課題であることがわかった。
これらの問題に対処するために,特徴抽出プロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度な特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),関心抽出器の階層領域(HRoIE)の3つの軽量なプラグアンドプレイモジュールを用いて,特徴領域,空間領域,インスタンス領域のグローバルな視覚的コンテキストを集約する。
DenseFPNは、階層間残差接続、クロスレベル高密度接続、機能再重み付け戦略を採用することで、より柔軟な情報フローを確立するマルチスケール機能伝搬モジュールである。
注意機構を活用することで、SCPはグローバルな空間コンテキストを局所領域に集約することで特徴をさらに強化する。
各インスタンスに対して、HRoIEは異なる下流タスク用のRoI機能を適応的に生成する。
iSAID, DIOR, NWPU VHR-10, HRSIDデータセットに対する提案手法の大規模評価は, 同様の計算コストで, 提案手法が最先端技術を上回ることを示した。
ソースコードと事前学習されたモデルはhttps://github.com/yeliudev/catnetで入手できる。 The task of instance segmentation in remote sensing images, aiming at performing per-pixel labeling of objects at instance level, is of great importance for various civil applications. Despite previous successes, most existing instance segmentation methods designed for natural images encounter sharp performance degradations when they are directly applied to top-view remote sensing images. Through careful analysis, we observe that the challenges mainly come from the lack of discriminative object features due to severe scale variations, low contrasts, and clustered distributions. In order to address these problems, a novel context aggregation network (CATNet) is proposed to improve the feature extraction process. The proposed model exploits three lightweight plug-and-play modules, namely dense feature pyramid network (DenseFPN), spatial context pyramid (SCP), and hierarchical region of interest extractor (HRoIE), to aggregate global visual context at feature, spatial, and instance domains, respectively. DenseFPN is a multi-scale feature propagation module that establishes more flexible information flows by adopting inter-level residual connections, cross-level dense connections, and feature re-weighting strategy. Leveraging the attention mechanism, SCP further augments the features by aggregating global spatial context into local regions. For each instance, HRoIE adaptively generates RoI features for different downstream tasks. Extensive evaluations of the proposed scheme on iSAID, DIOR, NWPU VHR-10, and HRSID datasets demonstrate that the proposed approach outperforms state-of-the-arts under similar computational costs. Source code and pre-trained models are available at https://github.com/yeliudev/CATNet. | 翻訳日:2024-01-26 18:59:39 公開日:2024-01-25 |
# MCCE:モンテカルロによる現実的対実的説明のサンプリング MCCE: Monte Carlo sampling of realistic counterfactual explanations ( http://arxiv.org/abs/2111.09790v2 ) ライセンス: Link先を確認 | Annabelle Redelmeier, Martin Jullum, Kjersti Aas, Anders L{\o}land | (参考訳) 表型データに対する有効かつ現実的な対実的説明をサンプリングするMonte Carlo氏は,不変特徴と決定を条件として,不変特徴の連成分布をモデル化し,有効かつ実用的な対実的記述を生成する新しい対実的説明法について紹介する。
変分オートエンコーダに依存し、厳密な予測モデルとデータ要求を持つ他のオンマンフォールド法とは異なり、MCCEは2段階以上の予測モデルと分類的特徴を扱う。
mcceは最初に特徴の共有分布と決定を自己回帰生成モデルでモデル化し、条件式を決定木を用いて推定する。
そして、このモデルから大量の観察をサンプリングし、最終的に特定の基準に従わないサンプルを削除する。
我々は,MCCEを4つのよく知られたデータセットを用いて,最先端のmanifold on-manifold法と比較し,MCCEがこれらの手法をすべての一般的なパフォーマンス指標と速度で上回っていることを示す。
特に、モデリングプロセスにおける決定を含むと、その方法の効率が大幅に向上する。 We introduce MCCE: Monte Carlo sampling of valid and realistic Counterfactual Explanations for tabular data, a novel counterfactual explanation method that generates on-manifold, actionable and valid counterfactuals by modeling the joint distribution of the mutable features given the immutable features and the decision. Unlike other on-manifold methods that tend to rely on variational autoencoders and have strict prediction model and data requirements, MCCE handles any type of prediction model and categorical features with more than two levels. MCCE first models the joint distribution of the features and the decision with an autoregressive generative model where the conditionals are estimated using decision trees. Then, it samples a large set of observations from this model, and finally, it removes the samples that do not obey certain criteria. We compare MCCE with a range of state-of-the-art on-manifold counterfactual methods using four well-known data sets and show that MCCE outperforms these methods on all common performance metrics and speed. In particular, including the decision in the modeling process improves the efficiency of the method substantially. | 翻訳日:2024-01-26 18:59:07 公開日:2024-01-25 |
# ペアワイズ類似性のアクティブラーニングによる相関クラスタリング Correlation Clustering with Active Learning of Pairwise Similarities ( http://arxiv.org/abs/2302.10295v3 ) ライセンス: Link先を確認 | Linus Aronsson, Morteza Haghir Chehreghani | (参考訳) 相関クラスタリングは、正と負の対の類似性を扱う、よく知られた教師なし学習設定である。
本稿では, 対の類似性が事前に与えられておらず, 費用対効果で問い合わせなければならない場合について検討する。
これにより,ユーザ/アノテーションが提供できるフィードバックタイプの柔軟性,相関クラスタリングアルゴリズムへの適応,クエリ戦略,雑音に対するロバスト性など,いくつかの利点を生かした,このタスクのための汎用的なアクティブラーニングフレームワークを開発する。
さらに,この設定に適した新しいクエリ戦略を提案し,分析する。
本手法の有効性と提案する問合せ戦略を,いくつかの実験により実証する。 Correlation clustering is a well-known unsupervised learning setting that deals with positive and negative pairwise similarities. In this paper, we study the case where the pairwise similarities are not given in advance and must be queried in a cost-efficient way. Thereby, we develop a generic active learning framework for this task that benefits from several advantages, e.g., flexibility in the type of feedback that a user/annotator can provide, adaptation to any correlation clustering algorithm and query strategy, and robustness to noise. In addition, we propose and analyze a number of novel query strategies suited to this setting. We demonstrate the effectiveness of our framework and the proposed query strategies via several experimental studies. | 翻訳日:2024-01-26 18:52:20 公開日:2024-01-25 |
# プライベート、公平、正確:医療画像における大規模プライバシー保護aiモデルのトレーニング Private, fair and accurate: Training large-scale, privacy-preserving AI models in medical imaging ( http://arxiv.org/abs/2302.01622v3 ) ライセンス: Link先を確認 | Soroosh Tayebi Arasteh, Alexander Ziller, Christiane Kuhl, Marcus Makowski, Sven Nebelung, Rickmer Braren, Daniel Rueckert, Daniel Truhn, Georgios Kaissis | (参考訳) 人工知能(AI)モデルは、医療分野でますます使われている。
しかし、医療データは極めて敏感であるため、保護を確実にするための特別な予防措置が必要である。
プライバシー保護の金本位制は、モデルトレーニングに差分プライバシー(dp)を導入することである。
先行研究は、DPがモデル精度と公平性に悪影響を及ぼすことを示しており、医療では受け入れられず、プライバシ保護技術の普及への障壁となっている。
本研究では,AIモデルのプライバシ保護トレーニングが,非プライベートトレーニングと比較して精度と公平性に与える影響を評価した。
そこで我々は,(1)高品質胸部x線画像の大規模データセット(n=193,311),(2)3次元腹部ct画像のデータセット(n=1,625)の2つのデータを用い,膵管腺癌(pdac)の存在を分類した。
どちらも遡及的に収集され、経験豊富な放射線学者によって手動でラベル付けされた。
次に、Pearsonのrまたは統計パリティ差(統計パリティ差)として測定された、非プライベートディープ畳み込みニューラルネットワーク(CNN)とプライバシ保護(DP)モデルの、受信者-操作特性曲線(AUROC)の領域として測定されたプライバシユーティリティトレードオフと、プライバシ-フェアネストレードオフを比較した。
プライバシー保護のトレーニングは正確さを低下させたが、年齢、性別、共傷行為に対する差別を増幅することはなかった。
本研究は, 実生活における臨床データセットの現実的な状況において, 診断深層学習モデルのプライバシ保護トレーニングが, 優れた診断精度と公平性で可能であることを示す。 Artificial intelligence (AI) models are increasingly used in the medical domain. However, as medical data is highly sensitive, special precautions to ensure its protection are required. The gold standard for privacy preservation is the introduction of differential privacy (DP) to model training. Prior work indicates that DP has negative implications on model accuracy and fairness, which are unacceptable in medicine and represent a main barrier to the widespread use of privacy-preserving techniques. In this work, we evaluated the effect of privacy-preserving training of AI models regarding accuracy and fairness compared to non-private training. For this, we used two datasets: (1) A large dataset (N=193,311) of high quality clinical chest radiographs, and (2) a dataset (N=1,625) of 3D abdominal computed tomography (CT) images, with the task of classifying the presence of pancreatic ductal adenocarcinoma (PDAC). Both were retrospectively collected and manually labeled by experienced radiologists. We then compared non-private deep convolutional neural networks (CNNs) and privacy-preserving (DP) models with respect to privacy-utility trade-offs measured as area under the receiver-operator-characteristic curve (AUROC), and privacy-fairness trade-offs, measured as Pearson's r or Statistical Parity Difference. We found that, while the privacy-preserving trainings yielded lower accuracy, they did largely not amplify discrimination against age, sex or co-morbidity. Our study shows that -- under the challenging realistic circumstances of a real-life clinical dataset -- the privacy-preserving training of diagnostic deep learning models is possible with excellent diagnostic accuracy and fairness. | 翻訳日:2024-01-26 18:50:50 公開日:2024-01-25 |
# Min-Max-Jump 距離とその応用 Min-Max-Jump distance and its applications ( http://arxiv.org/abs/2301.05994v5 ) ライセンス: Link先を確認 | Gangli Liu | (参考訳) 我々は,Min-Max-Jump distance (MMJ distance) の3つの応用について検討する。
MMJに基づくK平均は、MMJ距離でK平均を変更する。
MMJに基づくシルエット係数は、Silhouette係数をMMJ距離で補正する。
また,mmjに基づくシルエット係数を用いたニューラルネットワークとインデックス(cnni)モデルによるクラスタリングも行った。
最後のアプリケーションでは、データのクラスタリング分析の後、Min-Max-Jump距離を用いて新しい点のラベルを予測する。
結果,Min-Max-Jump 距離は提案した3つのアプリケーションすべてにおいて良好な性能を示す。
さらに,距離の計算や推定を行うアルゴリズムを考案した。 We explore three applications of Min-Max-Jump distance (MMJ distance). MMJ-based K-means revises K-means with MMJ distance. MMJ-based Silhouette coefficient revises Silhouette coefficient with MMJ distance. We also tested the Clustering with Neural Network and Index (CNNI) model with MMJ-based Silhouette coefficient. In the last application, we tested using Min-Max-Jump distance for predicting labels of new points, after a clustering analysis of data. Result shows Min-Max-Jump distance achieves good performances in all the three proposed applications. In addition, we devise several algorithms for calculating or estimating the distance. | 翻訳日:2024-01-26 18:50:16 公開日:2024-01-25 |
# GNNによる乗客需要予測 GNN-based Passenger Request Prediction ( http://arxiv.org/abs/2301.02515v2 ) ライセンス: Link先を確認 | Aqsa Ashraf Makhdomi and Iqra Altaf Gillani | (参考訳) 乗客の要求予測は、配車プラットフォームにおける運用計画、制御、管理に不可欠である。
需要予測問題は広く研究されているが、乗客のOrigin-Destination(OD)フロー予測は研究コミュニティからはあまり注目されていない。
本稿では,乗客のodフローを予測するための注意機構とともに,グラフニューラルネットワークフレームワークを開発した。
提案フレームワークでは,異なる場所からの要求間で発生する線形および非線形のさまざまな依存関係を活用し,その場所の繰り返しパターンとコンテキストデータをキャプチャする。
さらに、道路網を網羅し、モデルの複雑さと精度を維持するグリッドセルの最適サイズを決定する。
提案手法の特徴と各種成分を明らかにするため,広範なシミュレーションを行った。
その結果,提案モデルが既存のベースラインよりも優れた性能を示すことができた。 Passenger request prediction is essential for operations planning, control, and management in ride-sharing platforms. While the demand prediction problem has been studied extensively, the Origin-Destination (OD) flow prediction of passengers has received less attention from the research community. This paper develops a Graph Neural Network framework along with the Attention Mechanism to predict the OD flow of passengers. The proposed framework exploits various linear and non-linear dependencies that arise among requests originating from different locations and captures the repetition pattern and the contextual data of that place. Moreover, the optimal size of the grid cell that covers the road network and preserves the complexity and accuracy of the model is determined. Extensive simulations are conducted to examine the characteristics of our proposed approach and its various components. The results show the superior performance of our proposed model compared to the existing baselines. | 翻訳日:2024-01-26 18:50:08 公開日:2024-01-25 |
# 機械学習システムは肥大化し、脆弱です Machine Learning Systems are Bloated and Vulnerable ( http://arxiv.org/abs/2212.09437v3 ) ライセンス: Link先を確認 | Huaifeng Zhang, Fahmi Abdulqadir Ahmed, Dyako Fatih, Akayou Kitessa, Mohannad Alhanahnah, Philipp Leitner, Ahmed Ali-Eldin | (参考訳) 今日のソフトウェアは、ほとんどのユーザが使用していないコードと機能の両方で肥大化している。
この肥大化は、オペレーティングシステムやアプリケーションからコンテナに至るまで、ソフトウェアスタック全体に広まります。
コンテナは、コードと依存関係のパッケージングに使用される軽量な仮想化技術であり、ポータブルで再現性があり、分離された環境を提供する。
使いやすさのため、データサイエンティストはワークフローを単純化するために機械学習コンテナを使用することが多い。
コンテナはしばしば不要なコードと依存関係で肥大化し、結果として非常に大きなサイズになる。
本稿では,機械学習コンテナの肥大を解析し,定量化する。
ソフトウェアシステムの肥大を解析するフレームワークであるMMLBを開発し,機械学習コンテナに着目した。
MMLBはコンテナレベルとパッケージレベルの両方で肥大量を計測し、肥大の原因を定量化する。
さらに、mmlbは脆弱性分析ツールと統合し、コンテナの脆弱性に対する肥大の影響を評価するためにパッケージ依存性分析を行う。
TensorFlow、PyTorch、Nvidiaの15の機械学習コンテナを実験した結果、肥大化が機械学習コンテナのサイズの最大80%を占め、コンテナのプロビジョニング時間を最大370%増加し、脆弱性を最大99%悪化させることがわかった。 Today's software is bloated with both code and features that are not used by most users. This bloat is prevalent across the entire software stack, from operating systems and applications to containers. Containers are lightweight virtualization technologies used to package code and dependencies, providing portable, reproducible and isolated environments. For their ease of use, data scientists often utilize machine learning containers to simplify their workflow. However, this convenience comes at a cost: containers are often bloated with unnecessary code and dependencies, resulting in very large sizes. In this paper, we analyze and quantify bloat in machine learning containers. We develop MMLB, a framework for analyzing bloat in software systems, focusing on machine learning containers. MMLB measures the amount of bloat at both the container and package levels, quantifying the sources of bloat. In addition, MMLB integrates with vulnerability analysis tools and performs package dependency analysis to evaluate the impact of bloat on container vulnerabilities. Through experimentation with 15 machine learning containers from TensorFlow, PyTorch, and Nvidia, we show that bloat accounts for up to 80% of machine learning container sizes, increasing container provisioning times by up to 370% and exacerbating vulnerabilities by up to 99%. | 翻訳日:2024-01-26 18:49:42 公開日:2024-01-25 |
# カメラRAWスナップショットを用いた効率的なビジュアルコンピューティング Efficient Visual Computing with Camera RAW Snapshots ( http://arxiv.org/abs/2212.07778v2 ) ライセンス: Link先を確認 | Zhihao Li, Ming Lu, Xu Zhang, Xin Feng, M. Salman Asif, and Zhan Ma | (参考訳) 従来のカメラは、センサ上の画像照射をキャプチャし、画像信号プロセッサ(ISP)を使用してRGB画像に変換する。
画像は、公共の安全監視や自動運転など、さまざまなアプリケーションにおける写真やビジュアルコンピューティングタスクに使用できる。
RAW画像にはキャプチャされた全ての情報が含まれているため、ISPを用いたRAWからRGBへの変換はビジュアルコンピューティングには必要ないと論じることができる。
本稿では,ispサブシステムを用いずに高レベルな意味理解と低レベル圧縮を実現する,新たな$\rho$-visionフレームワークを提案する。
利用可能なRAW画像データセットの不足を考慮し、まず教師なしのCycleGANに基づく非ペア化CycleR2Rネットワークを開発し、非ペア化RAW画像とRGB画像を用いたモジュラー・アンロールISPおよび逆ISP(invISP)モデルをトレーニングする。
次に、既存のRGB画像データセットを使用して、シミュレーションRAW画像(simRAW)を柔軟に生成し、RGBドメインのためにトレーニングされた異なるモデルを用いて実世界のRAW画像を処理する。
本稿では,raw-domain yolov3 と raw image compressor (ric) を用いたraw-domain のオブジェクト検出と画像圧縮機能を示す。
定量的な結果から,RAW領域タスク推論はRGB領域処理よりも検出精度と圧縮性がよいことがわかった。
さらに、提案した \r{ho}-Vision は、様々なカメラセンサーと異なるタスク固有モデルにまたがって一般化される。
ISPを排除する$\rho$-Visionのその他の利点は、計算と処理時間の潜在的な削減である。 Conventional cameras capture image irradiance on a sensor and convert it to RGB images using an image signal processor (ISP). The images can then be used for photography or visual computing tasks in a variety of applications, such as public safety surveillance and autonomous driving. One can argue that since RAW images contain all the captured information, the conversion of RAW to RGB using an ISP is not necessary for visual computing. In this paper, we propose a novel $\rho$-Vision framework to perform high-level semantic understanding and low-level compression using RAW images without the ISP subsystem used for decades. Considering the scarcity of available RAW image datasets, we first develop an unpaired CycleR2R network based on unsupervised CycleGAN to train modular unrolled ISP and inverse ISP (invISP) models using unpaired RAW and RGB images. We can then flexibly generate simulated RAW images (simRAW) using any existing RGB image dataset and finetune different models originally trained for the RGB domain to process real-world camera RAW images. We demonstrate object detection and image compression capabilities in RAW-domain using RAW-domain YOLOv3 and RAW image compressor (RIC) on snapshots from various cameras. Quantitative results reveal that RAW-domain task inference provides better detection accuracy and compression compared to RGB-domain processing. Furthermore, the proposed \r{ho}-Vision generalizes across various camera sensors and different task-specific models. Additional advantages of the proposed $\rho$-Vision that eliminates the ISP are the potential reductions in computations and processing times. | 翻訳日:2024-01-26 18:49:22 公開日:2024-01-25 |
# CultureBERT: トランスフォーマーベースの言語モデルによる企業文化の測定 CultureBERT: Measuring Corporate Culture With Transformer-Based Language Models ( http://arxiv.org/abs/2212.00509v4 ) ライセンス: Link先を確認 | Sebastian Koch and Stefan Pasch | (参考訳) 本稿では,テキスト文書から企業文化を測定する文献にトランスフォーマーに基づく言語モデルを導入する。
我々は、企業の企業文化に関するレビューが示す情報に関して、人的評価者によってラベル付けされた従業員レビューのユニークなデータセットをコンパイルします。
このデータセットを用いて、最先端のトランスフォーマーベースの言語モデルを微調整し、同じ分類タスクを実行する。
サンプル外の予測では、従来のテキスト分類のアプローチよりも、従業員レビューの17ポイントから30ポイントを、人的評価者に合わせて分類した。
モデルを公開しています。 This paper introduces transformer-based language models to the literature measuring corporate culture from text documents. We compile a unique data set of employee reviews that were labeled by human evaluators with respect to the information the reviews reveal about the firms' corporate culture. Using this data set, we fine-tune state-of-the-art transformer-based language models to perform the same classification task. In out-of-sample predictions, our language models classify 17 to 30 percentage points more of employee reviews in line with human evaluators than traditional approaches of text classification. We make our models publicly available. | 翻訳日:2024-01-26 18:48:52 公開日:2024-01-25 |
# ランダム開量子系における遅い緩和から速い緩和への動的遷移 Dynamical transitions from slow to fast relaxation in random open quantum systems ( http://arxiv.org/abs/2211.13298v2 ) ライセンス: Link先を確認 | Dror Orgad, Vadim Oganesyan, Sarang Gopalakrishnan | (参考訳) マルコフ雑音を受けるランダム量子系の力学に及ぼす空間的局所性の影響について検討する。
この目的のために、ハミルトニアンとその雑音とのカップリングがランダム行列であり、その成分が距離のパワー法則として崩壊し、それぞれ異なる指数である$\alpha_h, \alpha_l$ を持つモデルについて研究する。
定常状態は常に機能しないが、接近する速度は$\alpha_h$ と $\alpha_l$ によって3つの相を示す: ダイナミクスを生成するリンドブラッドスーパーオペレータのスペクトルのギャップによってアプローチが漸近的に指数関数的になる段階と、そのギャップがシステムサイズで減少する方法によって区別される2つのギャップのない位相である。
摂動理論では、$(\alpha_H, \alpha_L)$平面の位相境界は弱く強い散逸に対して異なり、ノイズ強度の関数としての相転移が示唆される。
熱力学的限界における相転移を防止する非摂動効果を同定する。 We explore the effects of spatial locality on the dynamics of random quantum systems subject to a Markovian noise. To this end, we study a model in which the system Hamiltonian and its couplings to the noise are random matrices whose entries decay as power laws of distance, with distinct exponents $\alpha_H, \alpha_L$. The steady state is always featureless, but the rate at which it is approached exhibits three phases depending on $\alpha_H$ and $\alpha_L$: a phase where the approach is asymptotically exponential as a result of a gap in the spectrum of the Lindblad superoperator that generates the dynamics, and two gapless phases with subexponential relaxation, distinguished by the manner in which the gap decreases with system size. Within perturbation theory, the phase boundaries in the $(\alpha_H, \alpha_L)$ plane differ for weak and strong dissipation, suggesting phase transitions as a function of noise strength. We identify nonperturbative effects that prevent such phase transitions in the thermodynamic limit. | 翻訳日:2024-01-26 18:48:42 公開日:2024-01-25 |
# コンテキスト型マルチアームバンドの転送学習 Transfer Learning for Contextual Multi-armed Bandits ( http://arxiv.org/abs/2211.12612v2 ) ライセンス: Link先を確認 | Changxiao Cai, T. Tony Cai, Hongzhe Li | (参考訳) 本稿では,非パラメトリック・コンテクスト・マルチアームド・バンディットの移動学習の課題について,目的のバンディット学習開始前にソース・バンディットから収集したデータを共変量シフトモデルを用いて検討する。
累積後悔に対する最小収束率を定式化し、その最小後悔を達成する新しい転置学習アルゴリズムを提案する。
この結果は,非パラメトリックなコンテキスト型マルチアームブレイディットの文脈において,対象領域で学習するためのソースドメインからのデータの寄与を定量化する。
未知の滑らかさへの適応の一般的な不可能さを考慮し,データ駆動型アルゴリズムを開発した。このアルゴリズムは,パラメータ空間の大規模な集合に対する未知のパラメータを自動的に適応させつつ,ほぼ最適な統計的保証(対数係数まで)を実現する。
対象領域の学習に補助的ソース領域からのデータを活用する利点を説明するためのシミュレーション研究を行った。 Motivated by a range of applications, we study in this paper the problem of transfer learning for nonparametric contextual multi-armed bandits under the covariate shift model, where we have data collected on source bandits before the start of the target bandit learning. The minimax rate of convergence for the cumulative regret is established and a novel transfer learning algorithm that attains the minimax regret is proposed. The results quantify the contribution of the data from the source domains for learning in the target domain in the context of nonparametric contextual multi-armed bandits. In view of the general impossibility of adaptation to unknown smoothness, we develop a data-driven algorithm that achieves near-optimal statistical guarantees (up to a logarithmic factor) while automatically adapting to the unknown parameters over a large collection of parameter spaces under an additional self-similarity assumption. A simulation study is carried out to illustrate the benefits of utilizing the data from the auxiliary source domains for learning in the target domain. | 翻訳日:2024-01-26 18:48:18 公開日:2024-01-25 |
# スーパートーケンサンプリングを用いた視覚変換器 Vision Transformer with Super Token Sampling ( http://arxiv.org/abs/2211.11167v2 ) ライセンス: Link先を確認 | Huaibo Huang, Xiaoqiang Zhou, Jie Cao, Ran He, Tieniu Tan | (参考訳) 視覚トランスフォーマーは多くの視覚タスクで素晴らしいパフォーマンスを達成しました。
しかし、浅い層で局所的な特徴を捉える場合、高い冗長性に苦しむ可能性がある。
これにより、局所的な自己注意または初期段階の畳み込みが利用され、長距離依存を捉える能力が犠牲になる。
ニューラルネットワークの初期段階において、効率的で効果的なグローバルコンテキストモデリングにアクセスできるか?
この問題に対処するため,スーパーピクセルの設計からインスピレーションを得て,その後の処理における画像プリミティブの数を削減し,視覚変換器にスーパートークンを導入する。
スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとするため、自己注意のトークン数を減らし、グローバルなモデリングを保存する。
具体的には、まず、疎結合学習によって視覚トークンからスーパートークンをサンプリングし、次に、スーパートークンを自己アテンションし、最後に元のトークン空間にマップする、という3つのステップで、単純だが強力なスーパートークンアテンション(STA)機構を提案する。
STAは、バニラのグローバルな注意をスパースアソシエーションマップと低次元の注意の掛け算に分解し、グローバルな依存関係の取得に高い効率をもたらす。
STAに基づいて階層型視覚変換器を開発する。
広範囲にわたる実験は、様々な視覚タスクで強力な性能を示す。
特に、追加のトレーニングデータやラベルなしで、100M以下のパラメータを持つImageNet-1Kで86.4%のトップ1精度を達成する。
また、COCO検出タスクでは53.9ボックスAPと46.8マスクAP、ADE20Kセマンティックセグメンテーションタスクでは51.9mIOUを達成している。
コードはhttps://github.com/hhb072/stvitでリリースされる。 Vision transformer has achieved impressive performance for many vision tasks. However, it may suffer from high redundancy in capturing local features for shallow layers. Local self-attention or early-stage convolutions are thus utilized, which sacrifice the capacity to capture long-range dependency. A challenge then arises: can we access efficient and effective global context modeling at the early stages of a neural network? To address this issue, we draw inspiration from the design of superpixels, which reduces the number of image primitives in subsequent processing, and introduce super tokens into vision transformer. Super tokens attempt to provide a semantically meaningful tessellation of visual content, thus reducing the token number in self-attention as well as preserving global modeling. Specifically, we propose a simple yet strong super token attention (STA) mechanism with three steps: the first samples super tokens from visual tokens via sparse association learning, the second performs self-attention on super tokens, and the last maps them back to the original token space. STA decomposes vanilla global attention into multiplications of a sparse association map and a low-dimensional attention, leading to high efficiency in capturing global dependencies. Based on STA, we develop a hierarchical vision transformer. Extensive experiments demonstrate its strong performance on various vision tasks. In particular, without any extra training data or label, it achieves 86.4% top-1 accuracy on ImageNet-1K with less than 100M parameters. It also achieves 53.9 box AP and 46.8 mask AP on the COCO detection task, and 51.9 mIOU on the ADE20K semantic segmentation task. Code is released at https://github.com/hhb072/STViT. | 翻訳日:2024-01-26 18:48:00 公開日:2024-01-25 |
# lay言語生成のための大規模言語モデルの検索強化 Retrieval augmentation of large language models for lay language generation ( http://arxiv.org/abs/2211.03818v2 ) ライセンス: Link先を確認 | Yue Guo, Wei Qiu, Gondy Leroy, Sheng Wang, Trevor Cohen | (参考訳) 最近のlay言語生成システムは、並列コーパスでトレーニングされたトランスフォーマモデルを使用して、健康情報アクセシビリティを高めている。
しかし、これらのモデルの適用性は、利用可能なコーパスのサイズとトピックの幅に制限されている。
本稿では,最大 (63kペア) および最大 (12ジャーナル) 並列コーパスである CellS を紹介した。
抽象化とそれに対応するレイ言語要約はドメインの専門家によって書かれ、データセットの品質が保証されます。
さらに,専門家による素言語要約の質的評価により,アクセシビリティ向上の鍵となる背景説明が明らかになった。
このような説明は、ソースにないコンテンツを追加することで単純化を超越するため、神経モデルにとって難しい。
我々はCellSから2つの特別なペアコーパスを抽出し、素言語生成における重要な課題に対処する。
我々は,背景説明生成作業に直感的に適合する検索拡張モデルを採用し,事実的正確性を維持しつつ,要約品質と簡易性の向上を示す。
本研究は,科学的知識を幅広い読者に広める道筋をたどった,在来語生成の背景説明に関する最初の総合的研究である。
CellS は https://github.com/LinguisticAnomalies/pls_retrieval で公開されている。 Recent lay language generation systems have used Transformer models trained on a parallel corpus to increase health information accessibility. However, the applicability of these models is constrained by the limited size and topical breadth of available corpora. We introduce CELLS, the largest (63k pairs) and broadest-ranging (12 journals) parallel corpus for lay language generation. The abstract and the corresponding lay language summary are written by domain experts, assuring the quality of our dataset. Furthermore, qualitative evaluation of expert-authored plain language summaries has revealed background explanation as a key strategy to increase accessibility. Such explanation is challenging for neural models to generate because it goes beyond simplification by adding content absent from the source. We derive two specialized paired corpora from CELLS to address key challenges in lay language generation: generating background explanations and simplifying the original abstract. We adopt retrieval-augmented models as an intuitive fit for the task of background explanation generation, and show improvements in summary quality and simplicity while maintaining factual correctness. Taken together, this work presents the first comprehensive study of background explanation for lay language generation, paving the path for disseminating scientific knowledge to a broader audience. CELLS is publicly available at: https://github.com/LinguisticAnomalies/pls_retrieval. | 翻訳日:2024-01-26 18:47:25 公開日:2024-01-25 |
# 拡散言語モデルの生成は早期に停止できる Diffusion Language Models Generation Can Be Halted Early ( http://arxiv.org/abs/2305.10818v3 ) ライセンス: Link先を確認 | Sofia Maria Lo Cicero Vaina, Nikita Balagansky, Daniil Gavrilov | (参考訳) 拡散言語モデル (DLMs) は, トラクタブル制御可能生成における実用性から, テキスト生成に期待できる道である。
また、テキストを自己回帰的に予測する必要がないという利点もある。
しかし、これらの特徴にもかかわらず、DLMはまだ自己回帰的な性能レベルに達していない。
これら2種類の言語モデルのパフォーマンスギャップを減らす方法の1つは、DLMの生成を高速化することである。
そこで本研究では,この問題に対処するための新しい手法を提案する。
これにより、与えられた時間枠内でより多くの生成ステップの実行が可能になり、高品質な出力につながる。
具体的には,テキスト生成のdlms完全性を推定し,生成プロセスの適応停止を可能にする。
我々は,Plaid,SSD,CDCD DLM上での手法の評価を行い,その生成ワークフローに関する密な視点を創出する。
最後に,本手法はモデルサンプルの品質を低下させることなく,これらのモデルを停止させ,生成時間を10ドル~40ドル\%削減できることを確認した。 Diffusion Language models (DLMs) are a promising avenue for text generation due to their practical properties on tractable controllable generation. They also have the advantage of not having to predict text autoregressively. However, despite these notable features, DLMs have not yet reached the performance levels of their autoregressive counterparts. One of the ways to reduce the performance gap between these two types of language models is to speed up the generation of DLMs. Therefore, we propose a novel methodology to address this issue in this work. It enables the execution of more generation steps within a given time frame, leading to higher-quality outputs. Specifically, our methods estimate DLMs completeness of text generation and allow adaptive halting of the generation process. We evaluate our methods on Plaid, SSD, and CDCD DLMs and create a cohesive perspective on their generation workflows. Finally, we confirm that our methods allow halting these models and decrease the generation time by $10$-$40$\% without a drop in the quality of model samples. | 翻訳日:2024-01-26 18:40:29 公開日:2024-01-25 |
# 連続領域と離散領域における一般差の理論 A Theory of General Difference in Continuous and Discrete Domain ( http://arxiv.org/abs/2305.08098v2 ) ライセンス: Link先を確認 | Linmi Tao, Ruiyang Liu, Donglai Tao, Wu Xia, Feilong Ma, Yu Cheng, Jingmao Cui | (参考訳) デジタル時代の中核となる要素であるが、数値差分アルゴリズムはノイズ感受性に苦しむ。
これは連続微分における無限小量と離散微分における有限区間の間の鍵切断に由来する。
この解離は、分化の基本的定義(ライプニッツとコーシー)に反する。
このギャップを埋めるため、我々は新しい一般差(Tao General difference, TGD)を構築した。
微分積分とは別に、TGDは3つの鍵制約を通じて連続領域の有限区間への微分を一般化する。
これにより、シークエンスから構築された連続ステップ関数を介して離散領域におけるシーケンスの一般差を計算することができる。
TGDの演算子を構築するために, 回転構成と直交構成という2つの構成法を提案する。
構成TGD演算子は任意の次元にわたる連続関数、離散列、配列の計算において同じ畳み込みモードをとる。
実例による分析では,連続領域と離散領域の両方においてtgdの能力を示し,ディジタル時代の高精度・ノイズ耐性分化への道を開く。 Though a core element of the digital age, numerical difference algorithms struggle with noise susceptibility. This stems from a key disconnect between the infinitesimal quantities in continuous differentiation and the finite intervals in its discrete counterpart. This disconnect violates the fundamental definition of differentiation (Leibniz and Cauchy). To bridge this gap, we build a novel general difference (Tao General Difference, TGD). Departing from derivative-by-integration, TGD generalizes differentiation to finite intervals in continuous domains through three key constraints. This allows us to calculate the general difference of a sequence in discrete domain via the continuous step function constructed from the sequence. Two construction methods, the rotational construction and the orthogonal construction, are proposed to construct the operators of TGD. The construction TGD operators take same convolution mode in calculation for continuous functions, discrete sequences, and arrays across any dimension. Our analysis with example operations showcases TGD's capability in both continuous and discrete domains, paving the way for accurate and noise-resistant differentiation in the digital era. | 翻訳日:2024-01-26 18:40:14 公開日:2024-01-25 |
# 色中心量子におけるフォノン誘起デコヒーレンス Phonon-Induced Decoherence in Color-Center Qubits ( http://arxiv.org/abs/2305.05049v2 ) ライセンス: Link先を確認 | Prajit Dhara, Saikat Guha | (参考訳) ダイヤモンド中の窒素やシリコン空孔のような固体欠陥の電子スピン状態は、量子通信や計算において主要な量子メモリ候補である。
スピンフォノンカップリング(デコヒーレンスの主要な寄与である)の特定の温度での開量子系モデリングにより、電子スピン量子ビットの密度作用素の時間ダイナミクスが導かれる。
実験で測定したデコヒーレンス率をコラボレートするためにこのモデルを用いる。
さらに、フォトニックベル状態測定により得られたスピンスピンエンタングル状態における蒸留性エンタングルメントの時間的崩壊を導出する。
私たちのモデルの拡張は、例えば、望ましくない超微粒子結合を隣の核スピン環境に含むように、望ましい特性を持つ人工原子量子ビットを工学するための厳密な予測モデルへと道を開くでしょう。 Electron spin states of solid-state defects such as Nitrogen- and Silicon-vacancy {\em color centers} in diamond are a leading quantum-memory candidate for quantum communications and computing. Via open-quantum-systems modeling of spin-phonon coupling -- the major contributor of decoherence -- at a given temperature, we derive the time dynamics of the density operator of an electron-spin qubit. We use our model to corroborate experimentally-measured decoherence rates. We further derive the temporal decay of distillable entanglement in spin-spin entangled states heralded via photonic Bell-state measurements. Extensions of our model to include other decoherence mechanisms, e.g., undesired hyperfine couplings to the neighboring nuclear-spin environment, will pave the way to a rigorous predictive model for engineering artificial-atom qubits with desirable properties. | 翻訳日:2024-01-26 18:39:57 公開日:2024-01-25 |
# ゼロからヒーローへ:ゼロ・フルショット文脈における生体名認識のためのハーネス変換器 From Zero to Hero: Harnessing Transformers for Biomedical Named Entity Recognition in Zero- and Few-shot Contexts ( http://arxiv.org/abs/2305.04928v4 ) ライセンス: Link先を確認 | Milo\v{s} Ko\v{s}prdi\'c, Nikola Prodanovi\'c, Adela Ljaji\'c, Bojana Ba\v{s}aragin and Nikola Milo\v{s}evi\'c | (参考訳) 生物医学領域における名前付きエンティティ認識(NER)は、与えられた名前付きエンティティの注釈付きテキストの大規模なセットに依存する。
このようなデータセットの作成には時間と費用がかかり、新しいエンティティの抽出には追加のアノテーションタスクとモデルの再トレーニングが必要になる。
そこで本研究では,生物医学領域におけるゼロショットNERの手法を提案する。
マルチクラストークン分類のタスクをバイナリトークン分類に変換し、大量のデータセットとバイオメディカルエンティティを事前学習することで、モデルが与えられた名前と潜在的に新しい名前のエンティティラベル間の意味関係を学習できるようにする。
我々は,ゼロショットNERが35.44%,ワンショットNERが50.10%,10ショットNERが69.94%,100ショットNERが79.51%であった。
提案手法の有効性を実証し, 提案手法の有効性を検証し, 実例数に制限がなく, 従来のトランスフォーマー法を上回り, パラメータが1000倍以上のモデルを用いたGPT3モデルに匹敵する結果を得た。
モデルと開発したコードを公開しています。 Supervised named entity recognition (NER) in the biomedical domain depends on large sets of annotated texts with the given named entities. The creation of such datasets can be time-consuming and expensive, while extraction of new entities requires additional annotation tasks and retraining the model. To address these challenges, this paper proposes a method for zero- and few-shot NER in the biomedical domain. The method is based on transforming the task of multi-class token classification into binary token classification and pre-training on a large amount of datasets and biomedical entities, which allow the model to learn semantic relations between the given and potentially novel named entity labels. We have achieved average F1 scores of 35.44% for zero-shot NER, 50.10% for one-shot NER, 69.94% for 10-shot NER, and 79.51% for 100-shot NER on 9 diverse evaluated biomedical entities with fine-tuned PubMedBERT-based model. The results demonstrate the effectiveness of the proposed method for recognizing new biomedical entities with no or limited number of examples, outperforming previous transformer-based methods, and being comparable to GPT3-based models using models with over 1000 times fewer parameters. We make models and developed code publicly available. | 翻訳日:2024-01-26 18:39:42 公開日:2024-01-25 |
# 構造群不公平性:有効抵抗による測定と緩和 Structural Group Unfairness: Measurement and Mitigation by means of the Effective Resistance ( http://arxiv.org/abs/2305.03223v2 ) ライセンス: Link先を確認 | Adrian Arnaiz-Rodriguez, Georgina Curto, Nuria Oliver | (参考訳) 社会ネットワークは、協力や集団行動を促進する共同体や社会内の信頼と相互関係、規範として定義される社会資本の分配に寄与する。
社会的資本は個人間の関係に存在し、例えば、ソーシャルネットワークのより良い位置にいるメンバーは、多様な情報へのアクセスが早くなり、情報の普及に影響を及ぼすという利点がある。
個人レベルで社会資本を測定するための様々な方法が文献で提案されている。
しかし、集団レベルでの社会的資本の定量化方法の欠如は、保護的属性に基づいてグループを定義した場合に特に重要である。
さらに、最先端のアプローチでは、ネットワーク内のノード間の長距離インタラクションの役割と、社会的資本への貢献をモデル化できない。
このギャップを埋めるため,ネットワークトポロジ全体を考えることの重要性を強調し,その情報フローを用いてノード群の社会的資本を測定することを提案する。
スペクトルグラフ理論に基づいて,グループ分離,グループ径,グループ制御という,グループ資本の効果的な抵抗に基づく3つの尺度を導入する。
ネットワーク内の異なるグループ間の社会的資本格差を構造的グループ不公平と表現し、最も不利なグループの社会的資本を体系的に増加させる予算付きエッジ増強ヒューリスティックにより軽減することを提案する。
実際のネットワーク上での実験では、性別を保護属性として使用する際の構造的グループ不公平性のかなりのレベルが明らかにされ、女性は男性と比較して最も不利なグループである。
また,提案手法が,構造群の不公平性を効果的に緩和するだけでなく,ネットワーク内のすべてのグループの社会的資本を増大させることができることを示す。 Social networks contribute to the distribution of social capital, defined as the relationships, norms of trust and reciprocity within a community or society that facilitate cooperation and collective action. Social capital exists in the relations among individuals, such that better positioned members in a social network benefit from faster access to diverse information and higher influence on information dissemination. A variety of methods have been proposed in the literature to measure social capital at an individual level. However, there is a lack of methods to quantify social capital at a group level, which is particularly important when the groups are defined on the grounds of protected attributes. Furthermore, state-of-the-art approaches fail to model the role of long-range interactions between nodes in the network and their contributions to social capital. To fill this gap, we propose to measure the social capital of a group of nodes by means of their information flow and emphasize the importance of considering the whole network topology. Grounded in spectral graph theory, we introduce three effective resistance-based measures of group social capital, namely group isolation, group diameter and group control. We denote the social capital disparity among different groups in a network as structural group unfairness, and propose to mitigate it by means of a budgeted edge augmentation heuristic that systematically increases the social capital of the most disadvantaged group. In experiments on real networks, we uncover significant levels of structural group unfairness when using gender as the protected attribute, with females being the most disadvantaged group in comparison to males. We also illustrate how our proposed edge augmentation approach is able to not only effectively mitigate the structural group unfairness but also increase the social capital of all groups in the network. | 翻訳日:2024-01-26 18:39:14 公開日:2024-01-25 |
# 量子宇宙論における非特異経路の和 Summing over Non-singular Paths in Quantum Cosmology ( http://arxiv.org/abs/2304.12024v2 ) ライセンス: Link先を確認 | Hiroki Matsui | (参考訳) 本稿では、量子重力の経路積分定式化を用いた量子宇宙論におけるデウィットプロパゲータとその波動関数について述べる。
デウィット境界条件は、宇宙の波動関数がビッグバンの近くで消えることを示すことによってビッグバン特異点を避ける方法として導入された。
しかし、経路積分の定式化において、DeWitt境界条件の明確な定義は存在しない。
この問題に対処するために、無限ポテンシャルの禁断領域における特異経路を排除した画像法を用い、パス積分のBatalin-Fradkin-Vilkovisky式に基づく量子宇宙論に適用する。
画像法の有効性について検討し、特に、この手法は、ポテンシャルが境界に関して対称性を持つ場合にのみ適切であることを示す。
次に,画像法から導かれるデウィット伝播関数とデウィット波動関数が,量子宇宙論のモデルに対するウィーラー・デウィット方程式の解と一致することを示す。 In this paper we provide the DeWitt propagator and its wave function in quantum cosmology using the path integral formulation of quantum gravity. The DeWitt boundary condition is introduced as a way to avoid the Big Bang singularity by positing that the wave function of the universe vanishes near the Big Bang. However, there is currently no clear definition of the DeWitt boundary condition in the path integral formulation. To address this issue, we use the image method, which eliminates singular paths in the forbidden region of the infinite potential, and apply this method to quantum cosmology based on the Batalin-Fradkin-Vilkovisky formulation of the path integral. We investigate the validity of the image method, and in particular, find that this method is only appropriate when the potential has symmetry with respect to the boundary. We then show that the DeWitt propagator and the DeWitt wave function derived from the image method are consistent with solutions of the Wheeler-DeWitt equation for certain models of quantum cosmology. | 翻訳日:2024-01-26 18:38:12 公開日:2024-01-25 |
# 二次ハミルトニアンの開ループ線形制御とその応用 Open loop linear control of quadratic Hamiltonians with applications ( http://arxiv.org/abs/2304.11776v2 ) ライセンス: Link先を確認 | Mattias T. Johnsson and Daniel Burgarth | (参考訳) 量子調和振動子は物理学における最も基本的な天体の1つである。
任意の数モードに拡張され、消滅と生成演算子で双線型となるすべての可能な項を含む場合を考え、それらの作用素において線型である任意の時間依存駆動項を持つと仮定する。
このようなハミルトニアンは非常に一般的で、量子光学、超伝導回路qed、量子誤差補正符号、ボース=アインシュタイン凝縮、原子波パケット輸送、断熱限界を超える多くのシステムをカバーする。
我々は、この状況を量子制御の観点から検討し、最適制御理論を用いて、制御が任意であるときとコスト関数を最小化する必要があるときの両方で何が達成できるかを決定する。
特に、分析パルスのクラスを開発します。
次に,本理論をいくつかの特定の物理系に適用し,その利用例を示し,連続駆動条件付き変位ゲートを含む明示的な制御機能を提供する。 The quantum harmonic oscillator is one of the most fundamental objects in physics. We consider the case where it is extended to an arbitrary number modes and includes all possible terms that are bilinear in the annihilation and creation operators, and assume we also have an arbitrary time-dependent drive term that is linear in those operators. Such a Hamiltonian is very general, covering a broad range of systems including quantum optics, superconducting circuit QED, quantum error correcting codes, Bose-Einstein condensates, atomic wave packet transport beyond the adiabatic limit and many others. We examine this situation from the point of view of quantum control, making use of optimal control theory to determine what can be accomplished, both when the controls are arbitrary and when they must minimize some cost function. In particular we develop a class of analytical pulses. We then apply our theory to a number of specific topical physical systems to illustrate its use and provide explicit control functions, including the case of the continuously driven conditional displacement gate. | 翻訳日:2024-01-26 18:37:56 公開日:2024-01-25 |
# LLIC:学習画像圧縮のための適応重み付き大規模受容野変換符号化 LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression ( http://arxiv.org/abs/2304.09571v3 ) ライセンス: Link先を確認 | Wei Jiang, Peirong Ning, Jiayu Yang, Yongqi Zhai, Feng Gao, and Ronggang Wang | (参考訳) 効果的な受容場(erf)は変換符号化において重要な役割を担っており、変換中にどれだけの冗長性を除去できるか、また逆変換中にテクスチャを合成するのにどれだけの空間的プリエントを使うことができるかを決定する。
既存の手法では、ERFが十分大きくない小さなカーネルのスタックや、高解像度画像符号化の可能性を制限する重い非局所的な注意機構に頼っている。
この問題に対処するために,学習画像圧縮(LLIC)のための適応重み付きLarge Receptive Field Transform Codingを提案する。
具体的には,学習画像圧縮コミュニティにおいて初めて,少ない複雑さを維持しつつ冗長性を向上させるために,カーネルベースの奥行き方向畳み込みをいくつか導入した。
画像の多様性の幅が広いため,自己条件で重みを生成することで畳み込みの適応性を高めることを提案する。
大きなカーネルは非線形埋め込みとゲート機構と協力し、表現性の向上とより軽いポイントワイド相互作用を実現する。
また,大規模カーネルの潜在能力を十分に活用するためのトレーニング手法の改善についても検討した。
さらに,チャネル間の相互作用を高めるために,チャネル重要度を自己条件で生成する適応的なチャネルワイドビット割り当てを提案する。
提案手法の有効性を示すため,エントロピーモデルを既存の変換法と比較し,LLIC-STF,LLIC-ELIC,LLIC-TCMのモデルを求める。
大規模な実験により,提案したLLICモデルは,対応するベースラインよりも大幅に改善され,最先端のパフォーマンスが達成され,性能と複雑性のトレードオフが向上した。 Effective Receptive field (ERF) plays an important role in transform coding, which determines how much redundancy can be removed at most during transform and how many spatial priors can be utilized to synthesize textures during inverse transform. Existing methods rely on stacks of small kernels, whose ERF remains not large enough instead, or heavy non-local attention mechanisms, which limit the potential of high resolution image coding. To tackle this issue, we propose Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression (LLIC). Specifically, for the first time in learned image compression community, we introduce a few large kernel-based depth-wise convolutions to reduce more redundancy while maintaining modest complexity. Due to wide range of image diversity, we propose to enhance the adaptability of convolutions via generating weights in a self-conditioned manner. The large kernels cooperate with non-linear embedding and gate mechanisms for better expressiveness and lighter point-wise interactions. We also investigate improved training techniques to fully exploit the potential of large kernels. In addition, to enhance the interactions among channels, we propose the adaptive channel-wise bit allocation via generating channel importance factor in a self-conditioned manner. To demonstrate the effectiveness of proposed transform coding, we align the entropy model to compare with existing transform methods and obtain models LLIC-STF, LLIC-ELIC, LLIC-TCM. Extensive experiments demonstrate our proposed LLIC models have significant improvements over corresponding baselines and achieve state-of-the-art performances and better trade-off between performance and complexity. | 翻訳日:2024-01-26 18:37:29 公開日:2024-01-25 |
# 有限次元量子電池における精度とゆらぎのトレードオフ Trade-offs between precision and fluctuations in charging finite-dimensional quantum batteries ( http://arxiv.org/abs/2303.16676v3 ) ライセンス: Link先を確認 | Pharnam Bakhshinezhad, Beniamin R. Jablonski, Felix C. Binder, Nicolai Friis | (参考訳) 量子熱力学において、多くのタスクは、しばしば量子バッテリと呼ばれる平衡外量子系で表される仕事の源を必要とするプロセスによってモデル化される。
ここでは, 循環ハミルトニアン過程を通じて荷電される熱平衡において, 有限次元量子系としてモデル化した量子電池を考える。
同一の2レベルシステムと個別のd$レベルシステムに対して、充電精度と充電中の動作変動の点で等間隔のエネルギーギャップを持つ最適または至近のプロトコルを提案する。
我々は、これらのメリットの数字と、地域およびグローバルオペレーションのパフォーマンスのトレードオフを分析する。 Within quantum thermodynamics, many tasks are modelled by processes that require work sources represented by out-of-equilibrium quantum systems, often dubbed quantum batteries, in which work can be deposited or from which work can be extracted. Here we consider quantum batteries modelled as finite-dimensional quantum systems initially in thermal equilibrium that are charged via cyclic Hamiltonian processes. We present optimal or near-optimal protocols for $N$ identical two-level systems and individual $d$-level systems with equally spaced energy gaps in terms of the charging precision and work fluctuations during the charging process. We analyze the trade-off between these figures of merit as well as the performance of local and global operations. | 翻訳日:2024-01-26 18:36:58 公開日:2024-01-25 |
# プロンプト工学による臨床名前付きエンティティ認識のための大規模言語モデルの改良 Improving Large Language Models for Clinical Named Entity Recognition via Prompt Engineering ( http://arxiv.org/abs/2303.16416v3 ) ライセンス: Link先を確認 | Yan Hu, Qingyu Chen, Jingcheng Du, Xueqing Peng, Vipina Kuttichi Keloth, Xu Zuo, Yujia Zhou, Zehan Li, Xiaoqian Jiang, Zhiyong Lu, Kirk Roberts, Hua Xu | (参考訳) 目的: 本研究は, 臨床名付きエンティティ認識(NER)タスクにおけるGPT-3.5とGPT-4の能力を定量化し, タスク固有のプロンプトを提案する。
対象と方法:2010年のi2b2概念抽出共有タスクの後,MTSamples corpus の臨床ノートから医学的問題,治療,検査を抽出すること,およびワクチン副作用報告システム(VAERS)の安全性報告から神経系障害関連有害事象を同定すること,の2つのNERタスクを用いてこれらのモデルを評価した。
gptモデルの性能を向上させるために,(1)タスク記述とフォーマット仕様のベースラインプロンプト,(2)アノテーションガイドラインに基づくプロンプト,(3)エラー解析に基づく命令,(4)少数ショット学習のための注釈付きサンプルを含む臨床タスク固有プロンプトフレームワークを開発した。
それぞれのプロンプトの有効性を評価し,BioClinicalBERTと比較した。
結果: GPT-3.5, GPT-4は, MTSamplesでは0.804, VAERSでは0.301,0.593の緩和F1スコアを得た。
追加のプロンプトコンポーネントはモデルパフォーマンスを継続的に改善した。
4成分すべてを使用した場合, GPT-3.5およびGPT-4は, MTSamplesの0.794, 0.861, VAERSの0.676, 0.736の緩和F1ソクリを達成し,本フレームワークの有効性を示した。
これらの結果は、bioclinicalbert(mtsamplesデータセットでは0.901のf1、vaersでは0.802)を辿っているが、トレーニングサンプルは少ないので、非常に有望である。
結論: 臨床NERタスクへのGPTモデルの直接適用は最適性能に欠けるが, 医療知識とトレーニングサンプルを取り入れたタスク特異的プロンプトフレームワークは, GPTモデルの臨床応用の可能性を大幅に向上させる。 Objective: This study quantifies the capabilities of GPT-3.5 and GPT-4 for clinical named entity recognition (NER) tasks and proposes task-specific prompts to improve their performance. Materials and Methods: We evaluated these models on two clinical NER tasks: (1) to extract medical problems, treatments, and tests from clinical notes in the MTSamples corpus, following the 2010 i2b2 concept extraction shared task, and (2) identifying nervous system disorder-related adverse events from safety reports in the vaccine adverse event reporting system (VAERS). To improve the GPT models' performance, we developed a clinical task-specific prompt framework that includes (1) baseline prompts with task description and format specification, (2) annotation guideline-based prompts, (3) error analysis-based instructions, and (4) annotated samples for few-shot learning. We assessed each prompt's effectiveness and compared the models to BioClinicalBERT. Results: Using baseline prompts, GPT-3.5 and GPT-4 achieved relaxed F1 scores of 0.634, 0.804 for MTSamples, and 0.301, 0.593 for VAERS. Additional prompt components consistently improved model performance. When all four components were used, GPT-3.5 and GPT-4 achieved relaxed F1 socres of 0.794, 0.861 for MTSamples and 0.676, 0.736 for VAERS, demonstrating the effectiveness of our prompt framework. Although these results trail BioClinicalBERT (F1 of 0.901 for the MTSamples dataset and 0.802 for the VAERS), it is very promising considering few training samples are needed. Conclusion: While direct application of GPT models to clinical NER tasks falls short of optimal performance, our task-specific prompt framework, incorporating medical knowledge and training samples, significantly enhances GPT models' feasibility for potential clinical applications. | 翻訳日:2024-01-26 18:36:46 公開日:2024-01-25 |
# 億規模のプレトレーニングにおけるMAEプレトレーニングの有効性 The effectiveness of MAE pre-pretraining for billion-scale pretraining ( http://arxiv.org/abs/2303.13496v3 ) ライセンス: Link先を確認 | Mannat Singh, Quentin Duval, Kalyan Vasudev Alwala, Haoqi Fan, Vaibhav Aggarwal, Aaron Adcock, Armand Joulin, Piotr Doll\'ar, Christoph Feichtenhofer, Ross Girshick, Rohit Girdhar, Ishan Misra | (参考訳) 本稿では,コンピュータビジョンで視覚認識タスクに使用される標準プリトレイン・テン・フィニチューンパラダイムを再考する。
通常、最先端の基礎モデルは何十億もの画像を持つ大規模な(弱く)教師付きデータセットを使用して事前訓練される。
我々は,モデルの初期化に自己教師付きmae技術を用いた,簡易な事前トレーニングステージを新たに導入する。
maeはモデルのサイズでしかスケールできないことが示されていますが、トレーニングデータセットのサイズに合わせてもスケールすることが分かっています。
したがって、maeベースの事前トレーニングは、モデルとデータサイズの両方でスケールし、基礎モデルのトレーニングに適用できます。
事前トレーニングは、モデルスケール(数百万から数十億のパラメータ)とデータセットサイズ(数百万から数十億のイメージ)にわたって、モデル収束と下流転送のパフォーマンスを一貫して改善します。
画像分類,映像認識,物体検出,低ショット分類,ゼロショット認識にまたがる10種類の視覚認識タスクにおける事前学習の有効性を計測した。
我々の最大のモデルは、iNaturalist-18 (91.7%)、 ImageNet-ReaL (91.1%)、 1-shot ImageNet-1k (63.6%)、およびFood-101 (96.2%)のゼロショット転送に関する新しい最先端結果を達成する。
本研究は,数十億の画像を用いたWebスケール事前学習においても,モデル初期化が重要な役割を担っていることを明らかにする。 This paper revisits the standard pretrain-then-finetune paradigm used in computer vision for visual recognition tasks. Typically, state-of-the-art foundation models are pretrained using large scale (weakly) supervised datasets with billions of images. We introduce an additional pre-pretraining stage that is simple and uses the self-supervised MAE technique to initialize the model. While MAE has only been shown to scale with the size of models, we find that it scales with the size of the training dataset as well. Thus, our MAE-based pre-pretraining scales with both model and data size making it applicable for training foundation models. Pre-pretraining consistently improves both the model convergence and the downstream transfer performance across a range of model scales (millions to billions of parameters), and dataset sizes (millions to billions of images). We measure the effectiveness of pre-pretraining on 10 different visual recognition tasks spanning image classification, video recognition, object detection, low-shot classification and zero-shot recognition. Our largest model achieves new state-of-the-art results on iNaturalist-18 (91.7%), ImageNet-ReaL (91.1%), 1-shot ImageNet-1k (63.6%), and zero-shot transfer on Food-101 (96.2%). Our study reveals that model initialization plays a significant role, even for web-scale pretraining with billions of images, and our models are available publicly. | 翻訳日:2024-01-26 18:36:04 公開日:2024-01-25 |
# Cayley変換と制御性グラミアンを用いたリプシッツ結合1次元畳み込みニューラルネットワーク Lipschitz-bounded 1D convolutional neural networks using the Cayley transform and the controllability Gramian ( http://arxiv.org/abs/2303.11835v2 ) ライセンス: Link先を確認 | Patricia Pauli, Ruigang Wang, Ian R. Manchester, Frank Allg\"ower | (参考訳) 1次元畳み込みニューラルネットワーク(cnns)に対して,エンドツーエンドのロバスト性保証を組み込んだ階層型パラメータ化を行う。
このような場合、CNNをロバスト性尺度として特徴付ける入出力写像のリプシッツ定数を用いる。
我々は直交行列をパラメータ化するケイリー変換と畳み込み層の状態空間表現の可制御性グラミアンに基づいてパラメータ化を行う。
設計によるパラメータ化は、cnnのリプシッツ連続性に十分な線形行列不等式を満たし、さらにリプシッツ束縛された1次元cnnの無拘束な訓練を可能にする。
最後に,リプシッツに結合した1D CNNを心房細動データの分類のために訓練し,その堅牢性の向上を示した。 We establish a layer-wise parameterization for 1D convolutional neural networks (CNNs) with built-in end-to-end robustness guarantees. In doing so, we use the Lipschitz constant of the input-output mapping characterized by a CNN as a robustness measure. We base our parameterization on the Cayley transform that parameterizes orthogonal matrices and the controllability Gramian of the state space representation of the convolutional layers. The proposed parameterization by design fulfills linear matrix inequalities that are sufficient for Lipschitz continuity of the CNN, which further enables unconstrained training of Lipschitz-bounded 1D CNNs. Finally, we train Lipschitz-bounded 1D CNNs for the classification of heart arrythmia data and show their improved robustness. | 翻訳日:2024-01-26 18:35:37 公開日:2024-01-25 |
# ソフトロボットのロバスト・アドホッカブル・効果的な閉ループ制御のためのドメインランダム化 Domain Randomization for Robust, Affordable and Effective Closed-loop Control of Soft Robots ( http://arxiv.org/abs/2303.04136v2 ) ライセンス: Link先を確認 | Gabriele Tiboni, Andrea Protopapa, Tatiana Tommasi, Giuseppe Averta | (参考訳) ソフトロボットは、コンタクトや適応性に固有の安全性によって人気を集めている。
しかし、潜在的に無限の数の自由度によってモデリングは大変な作業となり、多くの場合、近似された記述しか得られない。
この課題は、モデルと実際のプラットフォームの間に大きなドメインギャップがあるため、現実的なシナリオにデプロイする場合、強化学習(RL)ベースのアプローチを非効率にする。
本研究では,ソフトロボットのRLポリシーを強化することで,ドメインランダム化(DR)がこの問題をどのように解決できるかを初めて示す。
一 頑健性 w.r.t.未知の力学パラメータ
二 学習に極めて単純な力学モデルを利用することにより訓練時間を短縮すること。
三 最適な性能のために環境制約を搾取することができる環境探査の改善。
さらに, 変形可能な対象に対する動的パラメータの自動推定のために, 従来の適応領域ランダム化法に対する新しいアルゴリズム拡張を提案する。
我々は,4つのタスクと2つのソフトロボット設計のシミュレーションにおいて広範囲な評価を行い,閉ループソフトロボット制御のための強化学習の今後の研究に興味深い視点を開く。 Soft robots are gaining popularity thanks to their intrinsic safety to contacts and adaptability. However, the potentially infinite number of Degrees of Freedom makes their modeling a daunting task, and in many cases only an approximated description is available. This challenge makes reinforcement learning (RL) based approaches inefficient when deployed on a realistic scenario, due to the large domain gap between models and the real platform. In this work, we demonstrate, for the first time, how Domain Randomization (DR) can solve this problem by enhancing RL policies for soft robots with: i) robustness w.r.t. unknown dynamics parameters; ii) reduced training times by exploiting drastically simpler dynamic models for learning; iii) better environment exploration, which can lead to exploitation of environmental constraints for optimal performance. Moreover, we introduce a novel algorithmic extension to previous adaptive domain randomization methods for the automatic inference of dynamics parameters for deformable objects. We provide an extensive evaluation in simulation on four different tasks and two soft robot designs, opening interesting perspectives for future research on Reinforcement Learning for closed-loop soft robot control. | 翻訳日:2024-01-26 18:35:22 公開日:2024-01-25 |
# モデル圧縮のための回転不変量子化 Rotation Invariant Quantization for Model Compression ( http://arxiv.org/abs/2303.03106v2 ) ライセンス: Link先を確認 | Joseph Kampeas, Yury Nahshan, Hanoch Kremer, Gil Lederman, Shira Zaloshinski, Zheng Li and Emir Haleva | (参考訳) トレーニング後のニューラルネットワーク(NN)モデル圧縮は、メモリリソースが限られたデバイスに大規模なメモリ消費モデルを展開するための魅力的なアプローチである。
本研究では,nnモデル圧縮のレートゆがみトレードオフについて検討する。
まず,単一パラメータを用いてnnモデル全体の量子化を行い,各層で異なるレート,すなわち混合精度量子化を行う回転不変量子化(riq)手法を提案する。
そして、我々の回転不変アプローチが圧縮の点で最適であることを示す。
我々は、RIQを厳格に評価し、様々なモデルやタスクでその能力を実証する。
例えば、RIQは、事前訓練されたVGG密度モデルとプルーニングモデルにおいて、それぞれ$19.4$と$52.9$の圧縮比を、$<0.4\%の精度劣化で促進する。
コードは \url{https://github.com/ehaleva/riq} で利用可能である。 Post-training Neural Network (NN) model compression is an attractive approach for deploying large, memory-consuming models on devices with limited memory resources. In this study, we investigate the rate-distortion tradeoff for NN model compression. First, we suggest a Rotation-Invariant Quantization (RIQ) technique that utilizes a single parameter to quantize the entire NN model, yielding a different rate at each layer, i.e., mixed-precision quantization. Then, we prove that our rotation-invariant approach is optimal in terms of compression. We rigorously evaluate RIQ and demonstrate its capabilities on various models and tasks. For example, RIQ facilitates $\times 19.4$ and $\times 52.9$ compression ratios on pre-trained VGG dense and pruned models, respectively, with $<0.4\%$ accuracy degradation. Code is available in \url{https://github.com/ehaleva/RIQ}. | 翻訳日:2024-01-26 18:35:02 公開日:2024-01-25 |
# システムレベル自然言語フィードバック System-Level Natural Language Feedback ( http://arxiv.org/abs/2306.13588v2 ) ライセンス: Link先を確認 | Weizhe Yuan, Kyunghyun Cho, Jason Weston | (参考訳) 自然言語(NL)フィードバックは、ユーザエクスペリエンスに関する豊富な洞察を提供する。
既存の研究では、特定の例を洗練するためにフィードバックが使用されるインスタンスレベルのアプローチに重点を置いているが、NLフィードバックのシステムレベルの利用のためのフレームワークを導入する。
より優れたモデルを生成するために、フィードバックを使って、ヒューマン・イン・ザ・ループ・プロセスでシステムレベルの設計決定をフォーマル化する方法を紹介します。
特にこれは次の通りである。
(i)タスクのメートル法設計、及び
(ii) モデル応答を洗練するための言語モデルプロンプト設計。
本手法は,検索クエリと対話応答生成を改善するための2つのケーススタディを行い,システムレベルのフィードバックの有効性を実証する。
システムレベルのフィードバックとインスタンスレベルのフィードバックの組み合わせにより、さらなる利得が得られ、人間の記述されたインスタンスレベルのフィードバックは、GPT-3.5のフィードバックよりも、より基礎的な改善をもたらすことを示す。
コードとデータはhttps://github.com/yy-Apple/Sys-NL-Feedback.comで公開しています。 Natural language (NL) feedback offers rich insights into user experience. While existing studies focus on an instance-level approach, where feedback is used to refine specific examples, we introduce a framework for system-level use of NL feedback. We show how to use feedback to formalize system-level design decisions in a human-in-the-loop-process -- in order to produce better models. In particular this is done through: (i) metric design for tasks; and (ii) language model prompt design for refining model responses. We conduct two case studies of this approach for improving search query and dialog response generation, demonstrating the effectiveness of system-level feedback. We show the combination of system-level and instance-level feedback brings further gains, and that human written instance-level feedback results in more grounded refinements than GPT-3.5 written ones, underlying the importance of human feedback for building systems. We release our code and data at https://github.com/yyy-Apple/Sys-NL-Feedback. | 翻訳日:2024-01-26 18:28:21 公開日:2024-01-25 |
# 回避による系列予測における逆レジリエンス Adversarial Resilience in Sequential Prediction via Abstention ( http://arxiv.org/abs/2306.13119v2 ) ライセンス: Link先を確認 | Surbhi Goel, Steve Hanneke, Shay Moran, Abhishek Shetty | (参考訳) 確率的設定における逐次予測の問題を,クリーンラベル逆(あるいは分散外)の例を挿入できる敵と検討する。
純粋に確率的なデータを扱うように設計されたアルゴリズムは、そのような逆例の存在下で失敗する傾向にあり、しばしば誤った予測につながる。
これは、医学的な勧告のような多くの高度な応用では望ましくないが、敵の例による予測を棄却することは、誤分類よりも好ましい。
一方、完全に敵対的なデータを仮定すると、実際にはしばしば空白となる非常に悲観的な境界につながる。
このモチベーションを捉えるために,学習者が対向的な例を犠牲にすることなく予測することを禁じることにより,純粋に確率的かつ完全な対向的な設定の間に位置するシーケンシャルな予測モデルを提案する。
非敵対的な例の限界分布へのアクセスを仮定し、完全に敵対的な設定を特徴付けるリトルストーン次元とは対照的に、仮説クラスのvc次元(確率的設定を模倣する)に誤差がスケールする学習者を設計する。
さらに,vc次元~1クラスの学習者の設計を行い,限界分布へのアクセスがなくても動作するようにした。
私たちの重要な技術的貢献は、VCクラスを学ぶための不確実性を定量化する新しい手段です。 We study the problem of sequential prediction in the stochastic setting with an adversary that is allowed to inject clean-label adversarial (or out-of-distribution) examples. Algorithms designed to handle purely stochastic data tend to fail in the presence of such adversarial examples, often leading to erroneous predictions. This is undesirable in many high-stakes applications such as medical recommendations, where abstaining from predictions on adversarial examples is preferable to misclassification. On the other hand, assuming fully adversarial data leads to very pessimistic bounds that are often vacuous in practice. To capture this motivation, we propose a new model of sequential prediction that sits between the purely stochastic and fully adversarial settings by allowing the learner to abstain from making a prediction at no cost on adversarial examples. Assuming access to the marginal distribution on the non-adversarial examples, we design a learner whose error scales with the VC dimension (mirroring the stochastic setting) of the hypothesis class, as opposed to the Littlestone dimension which characterizes the fully adversarial setting. Furthermore, we design a learner for VC dimension~1 classes, which works even in the absence of access to the marginal distribution. Our key technical contribution is a novel measure for quantifying uncertainty for learning VC classes, which may be of independent interest. | 翻訳日:2024-01-26 18:28:07 公開日:2024-01-25 |
# 線形制約をもつバンディットの純粋探査 Pure Exploration in Bandits with Linear Constraints ( http://arxiv.org/abs/2306.12774v4 ) ライセンス: Link先を確認 | Emil Carlsson, Debabrota Basu, Fredrik D. Johansson, Devdatt Dubhashi | (参考訳) 我々は,多腕バンディット設定における最適ポリシーを一定の信頼度で識別する問題に, 'emph{the arms' が線形制約を受ける際に対処する。
良く研究されている標準的な最良の腕識別問題とは異なり、この場合の最適方針は決定論的ではなく、複数の腕の間で混合することができる。
これは、情報理論の下界によって特徴づけられる問題の幾何学を変える。
本稿では,この設定に対して,トラック・アンド・ストップ法とゲーム理論に基づく2つの漸近的最適アルゴリズムを提案する。
これらのアルゴリズムは、下界に基づいて最適な割り当てを追跡し、通常の円錐の境界への重み付き投影によって計算する。
最後に,限界を検証し,制約が問題の硬さを変える様子を可視化する実験結果を提供する。 We address the problem of identifying the optimal policy with a fixed confidence level in a multi-armed bandit setup, when \emph{the arms are subject to linear constraints}. Unlike the standard best-arm identification problem which is well studied, the optimal policy in this case may not be deterministic and could mix between several arms. This changes the geometry of the problem which we characterize via an information-theoretic lower bound. We introduce two asymptotically optimal algorithms for this setting, one based on the Track-and-Stop method and the other based on a game-theoretic approach. Both these algorithms try to track an optimal allocation based on the lower bound and computed by a weighted projection onto the boundary of a normal cone. Finally, we provide empirical results that validate our bounds and visualize how constraints change the hardness of the problem. | 翻訳日:2024-01-26 18:27:45 公開日:2024-01-25 |
# 人間の行動を説明する固有の時空間論理則の発見 Discovering Intrinsic Spatial-Temporal Logic Rules to Explain Human Actions ( http://arxiv.org/abs/2306.12244v2 ) ライセンス: Link先を確認 | Chengzhi Cao, Chao Yang, and Shuang Li | (参考訳) そこで本研究では,人体の動きを解析し,論理インフォームドな知識駆動モデリングフレームワークを提案する。
我々のアプローチは、人間の行動は、通常、意図や欲望によって駆動され、周囲の物体との空間的関係のような環境要因に影響されるという事実にインスパイアされている。
本稿では,人間の行動を説明する知識として,空間時間論理則のセットを紹介する。
これらの規則は観測データから自動的に発見される。
モデルパラメータとルール内容を学ぶために,期待最大化(em)アルゴリズムを設計し,ルール内容を潜在変数として扱う。
emアルゴリズムはeステップとmステップを交互に構成し、eステップでは潜在ルールコンテンツに対する後方分布を評価し、mステップでは現在の予測ログの類似度を最大化することによりルール生成器とモデルパラメータを共同で最適化する。
我々のモデルは、人間の動きを理解することが不可欠であるスポーツ分析、ロボティクス、自動運転車など、幅広い分野に応用できるかもしれない。
歩行者およびNBAバスケットボール選手のデータセットに対して,モデルの優れた解釈可能性および予測性能を示し,有望な結果を得た。 We propose a logic-informed knowledge-driven modeling framework for human movements by analyzing their trajectories. Our approach is inspired by the fact that human actions are usually driven by their intentions or desires, and are influenced by environmental factors such as the spatial relationships with surrounding objects. In this paper, we introduce a set of spatial-temporal logic rules as knowledge to explain human actions. These rules will be automatically discovered from observational data. To learn the model parameters and the rule content, we design an expectation-maximization (EM) algorithm, which treats the rule content as latent variables. The EM algorithm alternates between the E-step and M-step: in the E-step, the posterior distribution over the latent rule content is evaluated; in the M-step, the rule generator and model parameters are jointly optimized by maximizing the current expected log-likelihood. Our model may have a wide range of applications in areas such as sports analytics, robotics, and autonomous cars, where understanding human movements are essential. We demonstrate the model's superior interpretability and prediction performance on pedestrian and NBA basketball player datasets, both achieving promising results. | 翻訳日:2024-01-26 18:27:31 公開日:2024-01-25 |
# 大規模言語モデルと知識グラフの統合:ロードマップ Unifying Large Language Models and Knowledge Graphs: A Roadmap ( http://arxiv.org/abs/2306.08302v3 ) ライセンス: Link先を確認 | Shirui Pan, Linhao Luo, Yufei Wang, Chen Chen, Jiapu Wang, Xindong Wu | (参考訳) ChatGPTやGPT4のような大規模言語モデル(LLM)は、その創発的能力と一般化性のために、自然言語処理と人工知能の分野で新たな波を発生させている。
しかし、llmはブラックボックスモデルであり、事実知識を捉えてアクセスすることができないことが多い。
対照的に、ナレッジグラフ(kgs)、wikipedia、huapuは、リッチな事実知識を明示的に格納する構造化ナレッジモデルである。
kgsは推論と解釈の外部知識を提供することでllmを強化することができる。
一方、KGは自然によって構築と進化が困難であり、KGの既存の手法に挑戦して新しい事実を生成し、目に見えない知識を表現する。
したがって、llmとkgを統一し、同時にその利点を活用することは相補的である。
本稿では,LLMとKGの統合に向けた今後のロードマップを示す。
私たちのロードマップは3つの一般的なフレームワークで構成されています。
1) LLMの事前訓練及び推論段階でKGを組み込んだKG強化LLM、又は、LLMが学習した知識の理解を深めることを目的とした。
2 LLM強化KGは、埋め込み、完了、構築、グラフ・トゥ・テキスト生成、質問応答等の異なるKGタスクにLLMを活用する。
3) LLM と KG が同等の役割を担い、相互に有益な方法で機能し、データと知識の両方によって駆動される双方向推論のための LLM と KG の両方を強化する。
我々は、これらの3つのフレームワークの既存の取り組みをロードマップでレビューし、要約し、今後の研究方向性を見極める。 Large language models (LLMs), such as ChatGPT and GPT4, are making new waves in the field of natural language processing and artificial intelligence, due to their emergent ability and generalizability. However, LLMs are black-box models, which often fall short of capturing and accessing factual knowledge. In contrast, Knowledge Graphs (KGs), Wikipedia and Huapu for example, are structured knowledge models that explicitly store rich factual knowledge. KGs can enhance LLMs by providing external knowledge for inference and interpretability. Meanwhile, KGs are difficult to construct and evolving by nature, which challenges the existing methods in KGs to generate new facts and represent unseen knowledge. Therefore, it is complementary to unify LLMs and KGs together and simultaneously leverage their advantages. In this article, we present a forward-looking roadmap for the unification of LLMs and KGs. Our roadmap consists of three general frameworks, namely, 1) KG-enhanced LLMs, which incorporate KGs during the pre-training and inference phases of LLMs, or for the purpose of enhancing understanding of the knowledge learned by LLMs; 2) LLM-augmented KGs, that leverage LLMs for different KG tasks such as embedding, completion, construction, graph-to-text generation, and question answering; and 3) Synergized LLMs + KGs, in which LLMs and KGs play equal roles and work in a mutually beneficial way to enhance both LLMs and KGs for bidirectional reasoning driven by both data and knowledge. We review and summarize existing efforts within these three frameworks in our roadmap and pinpoint their future research directions. | 翻訳日:2024-01-26 18:27:10 公開日:2024-01-25 |
# バッテリー駆動の電気自動車ユーザーの距離不安:距離と待ち時間の両方 Range Anxiety Among Battery Electric Vehicle Users: Both Distance and Waiting Time Matter ( http://arxiv.org/abs/2306.05768v3 ) ライセンス: Link先を確認 | Jiyao Wang, Chunxi Huang, Dengbo He, Ran Tu | (参考訳) 距離不安は、バッテリ電気自動車(BEV)ユーザーや潜在的なユーザーにとって大きな関心事である。
前回の研究では、距離関連範囲不安の影響要因を調査した。
しかし、時間に関する不安が探求されることはほとんどない。
BEVの充電や充電待ちの時間費用は、BEVユーザーの経験に悪影響を及ぼす可能性がある。
予備実験として,バッテリレベルと時間コストの両方が懸念されるシナリオにおいて,bevユーザの課金判断を観察することで,時間に関わる不安について検討した。
中国本土のBEV利用者217名から回答を収集,分析した。
その結果、時間に関わる不安が存在し、ユーザーの課金決定に影響を及ぼすことが判明した。
さらに、ユーザの課金決定は、距離関連と時間関連不安のトレードオフの結果であり、いくつかの外部要因(例えば、地域や個人差)によって緩和される可能性がある。
この結果は、充電ステーション分布の最適化とEV充電推奨アルゴリズムを支援することができる。 Range anxiety is a major concern of battery electric vehicles (BEVs) users or potential users. Previous work has explored the influential factors of distance-related range anxiety. However, time-related range anxiety has rarely been explored. The time cost when charging or waiting to charge the BEVs can negatively impact BEV users' experience. As a preliminary attempt, this survey study investigated time-related anxiety by observing BEV users' charging decisions in scenarios when both battery level and time cost are of concern. We collected and analyzed responses from 217 BEV users in mainland China. The results revealed that time-related anxiety exists and could affect users' charging decisions. Further, users' charging decisions can be a result of the trade-off between distance-related and time-related anxiety, and can be moderated by several external factors (e.g., regions and individual differences). The findings can support the optimization of charge station distribution and EV charge recommendation algorithms. | 翻訳日:2024-01-26 18:26:39 公開日:2024-01-25 |
# ダイナミックアベイラビリティによるコンテキスト選択は生涯連続学習を可能にする Context selectivity with dynamic availability enables lifelong continual learning ( http://arxiv.org/abs/2306.01690v2 ) ライセンス: Link先を確認 | Martin Barry, Wulfram Gerstner, Guillaume Bellec | (参考訳) 「自転車の乗り方を決して忘れないのに、どうすればいいの?」
脳は複雑なスキルを学び、何年も練習を止め、その間に他のスキルを学び、必要なときに元の知識を取り戻すことができる。
この能力のメカニズムは、生涯学習(または連続学習、CL)と呼ばれるが、不明である。
我々はclの古典的作業に基づく生体可塑性規則を提案し,2つの原則をまとめる。
(i)ニューロンは文脈選択的であり、
(2)ニューロンが以前のタスクに関係していた場合、局所可用性変数は部分的に可塑性を凍結する。
これらの原理の新しい神経中心形式化において、ニューロン選択性とニューロン全体の統合は、脳内のclを可能にするためのシンプルで実行可能なメタ可塑性仮説であることが示唆された。
シミュレーションでは、この単純なモデルは、画像認識や自然言語処理のCLベンチマークにおいて、現代のCLアルゴリズムよりも優れた転送学習をもたらす。 "You never forget how to ride a bike", -- but how is that possible? The brain is able to learn complex skills, stop the practice for years, learn other skills in between, and still retrieve the original knowledge when necessary. The mechanisms of this capability, referred to as lifelong learning (or continual learning, CL), are unknown. We suggest a bio-plausible meta-plasticity rule building on classical work in CL which we summarize in two principles: (i) neurons are context selective, and (ii) a local availability variable partially freezes the plasticity if the neuron was relevant for previous tasks. In a new neuro-centric formalization of these principles, we suggest that neuron selectivity and neuron-wide consolidation is a simple and viable meta-plasticity hypothesis to enable CL in the brain. In simulation, this simple model balances forgetting and consolidation leading to better transfer learning than contemporary CL algorithms on image recognition and natural language processing CL benchmarks. | 翻訳日:2024-01-26 18:26:24 公開日:2024-01-25 |
# 音声自動翻訳のための言語間変換学習の改善 Improved Cross-Lingual Transfer Learning For Automatic Speech Translation ( http://arxiv.org/abs/2306.00789v4 ) ライセンス: Link先を確認 | Sameer Khurana, Nauman Dawalatabad, Antoine Laurent, Luis Vicente, Pablo Gimeno, Victoria Mingote, James Glass | (参考訳) 多言語音声テキスト翻訳の研究は話題となっている。
複数の翻訳タスクをサポートする単一のモデルを持つことが望ましい。
本研究の目的は,意味知識蒸留による多言語間音声翻訳における言語間伝達学習を改善することである。
マルチモーダル(音声テキスト)意味知識蒸留法を用いて訓練した多言語音声変換器SAMU-XLS-Rを用いてエンコーダ列列列列列列列列変換モデルの初期化を行うことにより、自己教師学習により訓練された多言語音声変換器XLS-Rよりもはるかに優れた言語間タスク知識伝達を実現することを示す。
提案手法の有効性を,CoVoST-2とEuroparlという2つの一般的なデータセットに示す。
CoVoST-2ベンチマークの21の翻訳タスクでは、ベースラインよりも平均12.8のBLEU点が向上した。
ゼロショット翻訳のシナリオでは、未知の中・低リソース言語で平均18.8と1.9のBLEU点が得られる。
我々はEuroparl音声翻訳ベンチマークで同様の観察を行う。 Research in multilingual speech-to-text translation is topical. Having a single model that supports multiple translation tasks is desirable. The goal of this work it to improve cross-lingual transfer learning in multilingual speech-to-text translation via semantic knowledge distillation. We show that by initializing the encoder of the encoder-decoder sequence-to-sequence translation model with SAMU-XLS-R, a multilingual speech transformer encoder trained using multi-modal (speech-text) semantic knowledge distillation, we achieve significantly better cross-lingual task knowledge transfer than the baseline XLS-R, a multilingual speech transformer encoder trained via self-supervised learning. We demonstrate the effectiveness of our approach on two popular datasets, namely, CoVoST-2 and Europarl. On the 21 translation tasks of the CoVoST-2 benchmark, we achieve an average improvement of 12.8 BLEU points over the baselines. In the zero-shot translation scenario, we achieve an average gain of 18.8 and 11.9 average BLEU points on unseen medium and low-resource languages. We make similar observations on Europarl speech translation benchmark. | 翻訳日:2024-01-26 18:26:13 公開日:2024-01-25 |
# ディエンスマッチングのための拡散モデル Diffusion Model for Dense Matching ( http://arxiv.org/abs/2305.19094v2 ) ライセンス: Link先を確認 | Jisu Nam, Gyuseong Lee, Sunwoo Kim, Hyeonsu Kim, Hyoungwon Cho, Seyeon Kim, Seungryong Kim | (参考訳) ペア画像間の密接な対応を確立する目的は、データ項と前項の2つの用語からなる。
しかし近年のアプローチでは,モデル自体が大規模データセットから最適な事前学習能力を持つことを前提として,事前を明示的にモデル化することなく,深層ニューラルネットワークによるデータ項の学習に重点を置いている。
性能改善は明らかであったが、しばしば、テクスチャレス領域、反復パターン、大きな変位など、マッチングの本来の曖昧さに対処できなかった。
そこで我々は,データと先行項の両方を明示的にモデル化する新しい条件付き拡散ベースフレームワークdiffmatchを提案する。
従来の手法とは異なり、これは条件付き縮退拡散モデルを活用することで達成される。
DiffMatchは2つの主要なコンポーネントで構成されている。
段階的なトレーニング戦略により,トレーニングプロセスの安定化とメモリ使用量の削減を図る。
さらに,性能向上のため,精度の高いマッチングフィールドへのより良いパスを見出す推論手法を提案する。
実験の結果,既存手法よりも提案手法の大幅な性能向上が示され,各部品の有効性とともに設計選択の有効性が検証された。
プロジェクトページはhttps://ku-cvlab.github.io/diffmatch/。 The objective for establishing dense correspondence between paired images consists of two terms: a data term and a prior term. While conventional techniques focused on defining hand-designed prior terms, which are difficult to formulate, recent approaches have focused on learning the data term with deep neural networks without explicitly modeling the prior, assuming that the model itself has the capacity to learn an optimal prior from a large-scale dataset. The performance improvement was obvious, however, they often fail to address inherent ambiguities of matching, such as textureless regions, repetitive patterns, and large displacements. To address this, we propose DiffMatch, a novel conditional diffusion-based framework designed to explicitly model both the data and prior terms. Unlike previous approaches, this is accomplished by leveraging a conditional denoising diffusion model. DiffMatch consists of two main components: conditional denoising diffusion module and cost injection module. We stabilize the training process and reduce memory usage with a stage-wise training strategy. Furthermore, to boost performance, we introduce an inference technique that finds a better path to the accurate matching field. Our experimental results demonstrate significant performance improvements of our method over existing approaches, and the ablation studies validate our design choices along with the effectiveness of each component. Project page is available at https://ku-cvlab.github.io/DiffMatch/. | 翻訳日:2024-01-26 18:25:51 公開日:2024-01-25 |
# 後継・先駆的探究 Successor-Predecessor Intrinsic Exploration ( http://arxiv.org/abs/2305.15277v3 ) ライセンス: Link先を確認 | Changmin Yu, Neil Burgess, Maneesh Sahani, Samuel J. Gershman | (参考訳) 探索は強化学習、特に外部報酬が希薄な環境では不可欠である。
ここでは,エージェントが自己生成した内在的な報酬によって外部の報酬を過度に増強する,内在的な報酬による探索に焦点を当てる。
内在的な報酬の研究には長い歴史があるが、既存の手法では、状態の将来の見通しに基づく内在的な報酬の構成に焦点をあて、遷移系列の振り返り構造に含まれる情報を無視している。
ここでは,局地的な情報ではなく,グローバルな情報に基づく効率的な探索を容易にするために,エージェントが振り返り情報を利用して構造認識による爆発行動を生成することを論じる。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
また, 深層強化学習エージェントにSPIEを実装し, 既存のスパース・リワード・アタリゲームに比べて, 実験性能が向上することを示す。 Exploration is essential in reinforcement learning, particularly in environments where external rewards are sparse. Here we focus on exploration with intrinsic rewards, where the agent transiently augments the external rewards with self-generated intrinsic rewards. Although the study of intrinsic rewards has a long history, existing methods focus on composing the intrinsic reward based on measures of future prospects of states, ignoring the information contained in the retrospective structure of transition sequences. Here we argue that the agent can utilise retrospective information to generate explorative behaviour with structure-awareness, facilitating efficient exploration based on global instead of local information. We propose Successor-Predecessor Intrinsic Exploration (SPIE), an exploration algorithm based on a novel intrinsic reward combining prospective and retrospective information. We show that SPIE yields more efficient and ethologically plausible exploratory behaviour in environments with sparse rewards and bottleneck states than competing methods. We also implement SPIE in deep reinforcement learning agents, and show that the resulting agent achieves stronger empirical performance than existing methods on sparse-reward Atari games. | 翻訳日:2024-01-26 18:25:31 公開日:2024-01-25 |
# OpenPI2.0: テキストにおけるエンティティ追跡のための改善されたデータセット OpenPI2.0: An Improved Dataset for Entity Tracking in Texts ( http://arxiv.org/abs/2305.14603v2 ) ライセンス: Link先を確認 | Li Zhang, Hainiu Xu, Abhinav Kommula, Chris Callison-Burch, Niket Tandon | (参考訳) 多くのテキストは、変化する世界(手順、ストーリー、ニュースワイヤーなど)を記述し、それらを理解するには、エンティティがどのように変化するかを追跡する必要がある。
以前のデータセットであるOpenPIは、テキストのエンティティ状態変更のクラウドソースアノテーションを提供する。
しかし、これらのアノテーションは自由形式であり、健全な変化を特定しておらず、モデル評価を妨げている。
これらの制限を克服するために、改善されたデータセットであるOpenPI2.0を紹介し、エンティティと属性は完全に標準化され、追加のエンティティサリエンスアノテーションが追加される。
より公平な評価設定では、現在の最先端の言語モデルはもはや有能ではない。
また,質問応答や古典的な計画といったタスクにおいて,提案するエンティティの状態変化を考慮の連鎖的なプロンプトとして使用することにより,下流のパフォーマンスが向上し,関連するエンティティのすべてに関わる設定を無差別に上回ることを示した。
テキスト内のエンティティのダイナミクスを理解できるモデルの開発を継続する上で、OpenPI2.0を提供する。 Much text describes a changing world (e.g., procedures, stories, newswires), and understanding them requires tracking how entities change. An earlier dataset, OpenPI, provided crowdsourced annotations of entity state changes in text. However, a major limitation was that those annotations were free-form and did not identify salient changes, hampering model evaluation. To overcome these limitations, we present an improved dataset, OpenPI2.0, where entities and attributes are fully canonicalized and additional entity salience annotations are added. On our fairer evaluation setting, we find that current state-of-the-art language models are far from competent. We also show that using state changes of salient entities as a chain-of-thought prompt, downstream performance is improved on tasks such as question answering and classical planning, outperforming the setting involving all related entities indiscriminately. We offer OpenPI2.0 for the continued development of models that can understand the dynamics of entities in text. | 翻訳日:2024-01-26 18:25:14 公開日:2024-01-25 |
# WaveDM:画像復元のためのウェーブレットベース拡散モデル WaveDM: Wavelet-Based Diffusion Models for Image Restoration ( http://arxiv.org/abs/2305.13819v2 ) ライセンス: Link先を確認 | Yi Huang, Jiancheng Huang, Jianzhuang Liu, Mingfu Yan, Yu Dong, Jiaxi Lv, Chaoqi Chen, Shifeng Chen | (参考訳) 多くの画像復元タスクに対する最新の拡散ベース手法は、従来のモデルよりも優れているが、長期にわたる推論問題に遭遇する。
そこで本研究では,Wavelet-based Diffusion Model (WaveDM)を提案する。
WaveDMは,ウェーブレット変換後の劣化画像のウェーブレットスペクトルに条件付きウェーブレット領域におけるクリーン画像の分布を学習する。
復元性能を確保するため、異なるモジュールを用いて低周波・高周波スペクトルを学習するユニークなトレーニング戦略を提案する。
さらに,効率的な条件サンプリング(ECS)戦略を実験から開発し,全サンプリング回数を約5。
イメージレインドロップ除去、レインステーキ除去、デハジング、デフォーカスデブラリング、demoir\'eing、デノジングを含む12のベンチマークデータセットの評価は、wavedmが従来のワンパス法に匹敵する効率で、バニラ拡散モデルを用いた既存の画像復元法よりも100$\times$以上高速であることを示している。 Latest diffusion-based methods for many image restoration tasks outperform traditional models, but they encounter the long-time inference problem. To tackle it, this paper proposes a Wavelet-Based Diffusion Model (WaveDM). WaveDM learns the distribution of clean images in the wavelet domain conditioned on the wavelet spectrum of degraded images after wavelet transform, which is more time-saving in each step of sampling than modeling in the spatial domain. To ensure restoration performance, a unique training strategy is proposed where the low-frequency and high-frequency spectrums are learned using distinct modules. In addition, an Efficient Conditional Sampling (ECS) strategy is developed from experiments, which reduces the number of total sampling steps to around 5. Evaluations on twelve benchmark datasets including image raindrop removal, rain steaks removal, dehazing, defocus deblurring, demoir\'eing, and denoising demonstrate that WaveDM achieves state-of-the-art performance with the efficiency that is comparable to traditional one-pass methods and over 100$\times$ faster than existing image restoration methods using vanilla diffusion models. | 翻訳日:2024-01-26 18:24:29 公開日:2024-01-25 |
# データ曖昧化によるラベルノイズの低減 Mitigating Label Noise through Data Ambiguation ( http://arxiv.org/abs/2305.13764v2 ) ライセンス: Link先を確認 | Julian Lienen, Eyke H\"ullermeier | (参考訳) ラベルノイズは、特にディープラーニングにおいて、高い表現力を持つ大きなモデルがフィールドを支配している機械学習において重要な課題となる。
このようなモデルは誤ったラベルを覚えやすいため、一般化性能を損なう。
この問題を解決するために、ロバストな損失関数やより複雑なラベル補正アプローチを含む多くの手法が提案されている。
ロバストな損失関数はその単純さのために魅力的だが、通常は柔軟性が欠けている。
本稿では,学習者が観測された学習ラベルを十分に理解していない場合,目標情報を「曖昧化」し,補足的な候補ラベルを追加することで,両手法の欠点を解決することを提案する。
より正確には、いわゆる超集合学習の枠組みを利用して、信頼度閾値に基づいて設定された値の目標を構築する。
提案手法は, 合成および実世界の騒音に対する良好な学習行動を示し, 誤学習ラベルの検出と修正の有効性を確認した。 Label noise poses an important challenge in machine learning, especially in deep learning, in which large models with high expressive power dominate the field. Models of that kind are prone to memorizing incorrect labels, thereby harming generalization performance. Many methods have been proposed to address this problem, including robust loss functions and more complex label correction approaches. Robust loss functions are appealing due to their simplicity, but typically lack flexibility, while label correction usually adds substantial complexity to the training setup. In this paper, we suggest to address the shortcomings of both methodologies by "ambiguating" the target information, adding additional, complementary candidate labels in case the learner is not sufficiently convinced of the observed training label. More precisely, we leverage the framework of so-called superset learning to construct set-valued targets based on a confidence threshold, which deliver imprecise yet more reliable beliefs about the ground-truth, effectively helping the learner to suppress the memorization effect. In an extensive empirical evaluation, our method demonstrates favorable learning behavior on synthetic and real-world noise, confirming the effectiveness in detecting and correcting erroneous training labels. | 翻訳日:2024-01-26 18:24:05 公開日:2024-01-25 |
# 粒子物理学のための量子センシング Quantum sensing for particle physics ( http://arxiv.org/abs/2305.11518v2 ) ライセンス: Link先を確認 | Steven D. Bass and Michael Doser | (参考訳) 量子センシングは、基礎物理学を探索し、物質の深い構造とその相互作用を理解するために、精度と高感度の測定が可能な新しい物理のための新しい位相空間を探索する、急速に成長するアプローチである。
この分野は、検出器における量子力学の特性を利用して、従来の測定技術を超える。
量子センシングが重要な役割を果たす主要な粒子物理学のトピックには、ニュートリノの性質、基本対称性の試験(ローレンツ不変性と等価原理、電気双極子モーメントの探索と基本定数の変動の可能性)、ダークマターの探索、ダークエネルギーの性質に関するテストなどがある。
興味深い新しいセンサー技術としては、原子干渉計、光学デバイス、そして絡み合いを含む原子と核時計がある。
このパースペクティブは将来の粒子物理学実験におけるこれらの技術の可能性を探究し、宇宙の構造に新しい窓を開く。 Quantum sensing is a rapidly growing approach to probe fundamental physics and explore new phase space for possible new physics with precision and highly sensitive measurements in our quest to understand the deep structure of matter and its interactions. This field uses properties of quantum mechanics in the detectors to go beyond traditional measurement techniques. Key particle physics topics where quantum sensing can play a vital role include neutrino properties, tests of fundamental symmetries (Lorentz invariance and the equivalence principle as well as searches for electric dipole moments and possible variations in fundamental constants), the search for dark matter and testing ideas about the nature of dark energy. Interesting new sensor technologies include atom interferometry, optomechanical devices, and atomic and nuclear clocks including with entanglement. This Perspective explores the opportunities for these technologies in future particle physics experiments, opening new windows on the structure of the Universe. | 翻訳日:2024-01-26 18:23:44 公開日:2024-01-25 |
# kobbq:韓国の質問に対するバイアスベンチマーク KoBBQ: Korean Bias Benchmark for Question Answering ( http://arxiv.org/abs/2307.16778v2 ) ライセンス: Link先を確認 | Jiho Jin, Jiseon Kim, Nayeon Lee, Haneul Yoo, Alice Oh, Hwaran Lee | (参考訳) Bias Benchmark for Question Answering (BBQ)は、言語モデル(LM)の社会的バイアスを評価するために設計されたものであるが、社会的バイアスは文化的文脈に大きく依存するため、このベンチマークを米国以外の文化文脈に適用することは簡単ではない。
本稿では,韓国バイアスベンチマークデータセットであるkobbqについて述べるとともに,データセットの文化的適応のための考慮事項に対処する汎用フレームワークを提案する。
本フレームワークでは,BBQデータセットを3つのクラス – Simply-Transferred(文化翻訳後直接使用可能),Target-Modified(対象グループへのローカライゼーションの要求),Sample-Demoved(韓国文化に適合しない) – に分割し,韓国文化に特有の4つの新たなバイアスカテゴリを追加する。
韓国文化のステレオタイプを反映した社会的偏見と偏見のターゲットを収集・検証する大規模な調査を行っている。
結果として得られたKoBBQデータセットは、12のカテゴリにわたる268のテンプレートと76,048のサンプルで構成されている。
我々はKoBBQを用いて複数の最先端多言語LMの精度とバイアススコアを測定する。
KoBBQ と BBQ の機械翻訳版によって測定された LM のバイアスの差異が明らかに示され、よく構築された文化的に認知された社会的バイアスベンチマークの必要性と有用性を示している。 The Bias Benchmark for Question Answering (BBQ) is designed to evaluate social biases of language models (LMs), but it is not simple to adapt this benchmark to cultural contexts other than the US because social biases depend heavily on the cultural context. In this paper, we present KoBBQ, a Korean bias benchmark dataset, and we propose a general framework that addresses considerations for cultural adaptation of a dataset. Our framework includes partitioning the BBQ dataset into three classes--Simply-Transferred (can be used directly after cultural translation), Target-Modified (requires localization in target groups), and Sample-Removed (does not fit Korean culture)-- and adding four new categories of bias specific to Korean culture. We conduct a large-scale survey to collect and validate the social biases and the targets of the biases that reflect the stereotypes in Korean culture. The resulting KoBBQ dataset comprises 268 templates and 76,048 samples across 12 categories of social bias. We use KoBBQ to measure the accuracy and bias scores of several state-of-the-art multilingual LMs. The results clearly show differences in the bias of LMs as measured by KoBBQ and a machine-translated version of BBQ, demonstrating the need for and utility of a well-constructed, culturally-aware social bias benchmark. | 翻訳日:2024-01-26 18:16:31 公開日:2024-01-25 |
# 量子熱電対における熱電電流とノイズのコヒーレント制御 Coherent control of thermoelectric currents and noise in quantum thermocouples ( http://arxiv.org/abs/2307.13319v2 ) ライセンス: Link先を確認 | Jos\'e Balduque and Rafael S\'anchez | (参考訳) 3端子コヒーレント導体は、一方の端子から吸収された熱がもう一方の2つの端子で有用な電力に変換されたとき、量子熱電対として振る舞うことができる。
熱源への位相コヒーレント結合を可能にするため、量子干渉による熱電応答を制御し改善する方法を提案する。
2つの共振トンネル領域間の走査プローブからなる簡易な構成を提案し, 発生電力と効率を向上し, 出力電流ノイズを低減することにより, 非コヒーレントアナログよりも優れた性能を実現する。 Three-terminal coherent conductors are able to perform as quantum thermocouples when the heat absorbed from one terminal is transformed into useful power in the other two. Allowing for a phase coherent coupling to the heat source, we introduce a way to control and improve the thermoelectric response via quantum interference. A simple setup composed of a scanning probe between two resonant tunneling regions is proposed that achieves better performance than incoherent analogs by enhancing the generated power and efficiency, and reducing the output current noise. | 翻訳日:2024-01-26 18:16:06 公開日:2024-01-25 |
# 歯科用点雲の変分自動符号化 Variational Autoencoding of Dental Point Clouds ( http://arxiv.org/abs/2307.10895v2 ) ライセンス: Link先を確認 | Johan Ziruo Ye, Thomas {\O}rkild, Peter Lempel S{\o}ndergaard, S{\o}ren Hauberg | (参考訳) デジタル歯科は大きな進歩を遂げているが、多くの課題が残っている。
本稿では歯のメッシュと点雲の広範なコレクションであるFDI 16データセットを紹介する。
さらに, 点雲用に設計された完全確率的変分オートエンコーダである変分FoldingNet (VF-Net) を提案する。
特に、点雲に対する先行潜伏変数モデルは、入力点と出力点の間の1対1対応を欠いている。
代わりに、正規化された分布の対応式を欠いた計量であるシャムファー距離の最適化に頼り、確率的モデリングには適さない。
チャンファー距離の明示的な最小化を適切なエンコーダに置き換え、確率的拡張を簡素化しながら計算効率を向上する。
これにより、メッシュ生成、形状補完、表現学習など、さまざまなタスクに簡単な適用が可能になる。
経験的に, 歯の再構築や補間における再構成誤差が低く, 有意な潜在表現を同定しながら, 歯のサンプル生成における術中性能を示す。 Digital dentistry has made significant advancements, yet numerous challenges remain. This paper introduces the FDI 16 dataset, an extensive collection of tooth meshes and point clouds. Additionally, we present a novel approach: Variational FoldingNet (VF-Net), a fully probabilistic variational autoencoder designed for point clouds. Notably, prior latent variable models for point clouds lack a one-to-one correspondence between input and output points. Instead, they rely on optimizing Chamfer distances, a metric that lacks a normalized distributional counterpart, rendering it unsuitable for probabilistic modeling. We replace the explicit minimization of Chamfer distances with a suitable encoder, increasing computational efficiency while simplifying the probabilistic extension. This allows for straightforward application in various tasks, including mesh generation, shape completion, and representation learning. Empirically, we provide evidence of lower reconstruction error in dental reconstruction and interpolation, showcasing state-of-the-art performance in dental sample generation while identifying valuable latent representations. | 翻訳日:2024-01-26 18:15:54 公開日:2024-01-25 |
# グラウンドド・オブジェクト・セントリック・ラーニング Grounded Object Centric Learning ( http://arxiv.org/abs/2307.09437v2 ) ライセンス: Link先を確認 | Avinash Kori, Francesco Locatello, Fabio De Sousa Ribeiro, Francesca Toni, Ben Glocker | (参考訳) 下流タスクに対するモジュラーオブジェクト中心表現の抽出は、新たな研究分野である。
安定していることを保証するオブジェクトの基底表現を学習し、異なるタスクや環境にわたって堅牢なパフォーマンスを約束する。
slot attention (sa) はオブジェクトを \textit{slots} に割り当てることでオブジェクト中心の表現を学習するが、すべてのスロットがランダムに初期化される \textit{single} 分布を前提としている。
これにより、特定のオブジェクトタイプにバインドし、オブジェクトの外観におけるアイデンティティ保存変更に不変である \textit{specialized}スロットを学習できない。
これを解決するために、ベクトル量子化に着想を得た新しい概念である \emph{Grounded Slot Dictionary} (GSD) を用いて、 \emph{\textsc{Co}nditional \textsc{S}lot \textsc{A}ttention} (\textsc{CoSA}) を示す。
提案するGSDは
(i)標準のオブジェクトレベル特性ベクトル及び
(ii)パラメトリックガウス分布はスロット上の事前を定義する。
提案手法はシーン生成,コンポジション,タスク適応といった複数の下流タスクにおいて,一般的なオブジェクト発見ベンチマークではsaと競争力を維持しながら,そのメリットを実証する。 The extraction of modular object-centric representations for downstream tasks is an emerging area of research. Learning grounded representations of objects that are guaranteed to be stable and invariant promises robust performance across different tasks and environments. Slot Attention (SA) learns object-centric representations by assigning objects to \textit{slots}, but presupposes a \textit{single} distribution from which all slots are randomly initialised. This results in an inability to learn \textit{specialized} slots which bind to specific object types and remain invariant to identity-preserving changes in object appearance. To address this, we present \emph{\textsc{Co}nditional \textsc{S}lot \textsc{A}ttention} (\textsc{CoSA}) using a novel concept of \emph{Grounded Slot Dictionary} (GSD) inspired by vector quantization. Our proposed GSD comprises (i) canonical object-level property vectors and (ii) parametric Gaussian distributions, which define a prior over the slots. We demonstrate the benefits of our method in multiple downstream tasks such as scene generation, composition, and task adaptation, whilst remaining competitive with SA in popular object discovery benchmarks. | 翻訳日:2024-01-26 18:15:36 公開日:2024-01-25 |
# 絡み合った光子の実験的ガウス的非ガウス的一致 Experimental quantum non-Gaussian coincidences of entangled photons ( http://arxiv.org/abs/2307.04531v2 ) ライセンス: Link先を確認 | Run-Ze Liu, Yu-Kun Qiao, Luk\'a\v{s} Lachman, Zhen-Xuan Ge, Tung-Hsun Chung, Jun-Yi Zhao, Hao Li, Lixing You, Radim Filip, Yong-Heng Huo | (参考訳) 量子非ガウス性(英語版)(Quantum non-Gaussianity)はより強力で有用な非古典性であり、ガウス状態とガウスパラメトリック過程のすべての凸混合を除外する。
ここで、初めて、絡み合った光子対の量子非ガウス的一致を単一の量子ドットから chsh-ベル因子 $s=2.328\pm0.004$ で、深さ0.94\pm 0.02$ db までテストする。
このような決定論的に生成された光子対は、重要な多重光子誤差を減らすことによってパラメトリック過程を根本的に克服する。
単光子状態の非ガウスの量子深度については、8.08\pm0.05$ dB(19.06\pm0.29$ dB)の値が得られる。
本研究は,光センシング,通信,計算に非常に関連する排他的量子非ガウス性特性を実験的に検証する。 Quantum non-Gaussianity, a more potent and highly useful form of nonclassicality, excludes all convex mixtures of Gaussian states and Gaussian parametric processes generating them. Here, for the first time, we conclusively test quantum non-Gaussian coincidences of entangled photon pairs with the CHSH-Bell factor $S=2.328\pm0.004$ from a single quantum dot with a depth up to $0.94\pm 0.02$ dB. Such deterministically generated photon pairs fundamentally overcome parametric processes by reducing crucial multiphoton errors. For the quantum non-Gaussian depth of the unheralded (heralded) single-photon state, we achieve the value of $8.08\pm0.05$ dB ($19.06\pm0.29$ dB). Our work experimentally certifies the exclusive quantum non-Gaussianity properties highly relevant for optical sensing, communication and computation. | 翻訳日:2024-01-26 18:14:46 公開日:2024-01-25 |
# DyEdgeGAT: IIoTシステムにおける早期故障検出のためのグラフ注意による動的エッジ DyEdgeGAT: Dynamic Edge via Graph Attention for Early Fault Detection in IIoT Systems ( http://arxiv.org/abs/2307.03761v3 ) ライセンス: Link先を確認 | Mengjie Zhao and Olga Fink | (参考訳) 産業用モノのインターネット(iiot)では、複雑なシステムからのコンディショニングセンサー信号は、様々な条件下で非線形・確率的空間-時間ダイナミクスを示すことが多い。
これらの複雑なダイナミクスは、特に障害検出を難しくする。
従来の手法は、これらのダイナミクスを効果的にモデル化するが、センサー信号間の関係の進化をしばしば無視する。
これらの関係の未検出なシフトは、重大なシステム障害を引き起こす可能性がある。
さらに、これらの手法は、しばしば新しい動作条件を欠陥として誤認する。
これらの制限に対処するため、IIoTシステムにおける早期故障検出の新しいアプローチであるDyEdgeGAT(Dynamic Edge via Graph Attention)を提案する。
DyEdgeGATの主な革新は、動的エッジ構造によって実現される時系列間の関係の進化を追跡する多変量時系列の新しいグラフ推論スキームである。
DyEdgeGATのもうひとつの重要な革新は、動作条件コンテキストをノードダイナミックスモデリングに組み込むことで、その正確性と堅牢性を向上させることだ。
我々は,DyEdgeGATを人工的データセットを用いて厳格に評価し,種々の断層重大度レベルをシミュレートし,実世界の産業規模多相流施設ベンチマークを行った。
以上の結果から,DyEdgeGATは異常検出における他の基準手法,特に低重度初期において著しく優れ,新規な動作条件下では堅牢な性能を示すことが示された。 In the Industrial Internet of Things (IIoT), condition monitoring sensor signals from complex systems often exhibit nonlinear and stochastic spatial-temporal dynamics under varying conditions. These complex dynamics make fault detection particularly challenging. While previous methods effectively model these dynamics, they often neglect the evolution of relationships between sensor signals. Undetected shifts in these relationships can lead to significant system failures. Furthermore, these methods frequently misidentify novel operating conditions as faults. Addressing these limitations, we propose DyEdgeGAT (Dynamic Edge via Graph Attention), a novel approach for early-stage fault detection in IIoT systems. DyEdgeGAT's primary innovation lies in a novel graph inference scheme for multivariate time series that tracks the evolution of relationships between time series, enabled by dynamic edge construction. Another key innovation of DyEdgeGAT is its ability to incorporate operating condition contexts into node dynamics modeling, enhancing its accuracy and robustness. We rigorously evaluated DyEdgeGAT using both a synthetic dataset, simulating varying levels of fault severity, and a real-world industrial-scale multiphase flow facility benchmark with diverse fault types under varying operating conditions and detection complexities. The results show that DyEdgeGAT significantly outperforms other baseline methods in fault detection, particularly in the early stages with low severity, and exhibits robust performance under novel operating conditions. | 翻訳日:2024-01-26 18:14:30 公開日:2024-01-25 |
# 符号化データ構造を用いた変分量子回帰アルゴリズム Variational quantum regression algorithm with encoded data structure ( http://arxiv.org/abs/2307.03334v3 ) ライセンス: Link先を確認 | C.-C. Joseph Wang and Ryan S. Bennink | (参考訳) ハイブリッド変分量子アルゴリズム(vqas)は、組合せ最適化、量子化学シミュレーション、量子機械学習、ノイズ量子コンピュータ上の量子誤差補正といった実用的な問題を解決することを約束している。
しかし、典型的なランダムアンサッツあるいは量子交互作用素アンサッツでは、派生した変分量子アルゴリズムはモデル解釈のためのブラックボックスとなる。
本論文では、量子状態が古典的データテーブルを直接符号化し、変動パラメータが実数である回帰係数に直接対応する量子回帰アルゴリズムを構築し、適切な表現性で最適化するための高次モデル解釈可能性と最小コストを提供する。
状態準備が当然のものであると仮定する代わりに、異なるエンコーダによる状態準備と、それらの時間の複雑さと全体的なリソースコストについて論じる。
符号化データ構造を利用することで、アルゴリズムの時間の複雑さを削減できます。
我々の知る限りでは、古典的なデータ構造のリンクが、構成によって量子サブルーチンを通して直接的に活用できることを示すのが初めてである。
非線形回帰の場合,非線形特徴をトレーニングデータに組み込むことで,数値計算結果からアルゴリズムを拡張することができる。
さらに、M$がレコード数よりはるかに少ない場合にのみ、モデルトレーサビリティが達成可能であることを実証し、リソース推定において$L\gg M$を正当化するために符号化データ構造に対して$L$を値する。 Hybrid variational quantum algorithms (VQAs) are promising for solving practical problems such as combinatorial optimization, quantum chemistry simulation, quantum machine learning, and quantum error correction on noisy quantum computers. However, with typical random ansatz or quantum alternating operator ansatz, derived variational quantum algorithms become a black box for model interpretation. In this paper we construct a quantum regression algorithm wherein the quantum state directly encodes the classical data table and the variational parameters correspond directly to the regression coefficients which are real numbers by construction, providing a high degree of model interpretability and minimal cost to optimize with the right expressiveness. Instead of assuming the state preparation is given by granted, we discuss the state preparation with different encoders and their time complexity and overall resource cost. We can take advantage of the encoded data structure to cut down the algorithm time complexity. To the best of our knowledge, we show for the first time explicitly how the linkage of the classical data structure can be taken advantage of directly through quantum subroutines by construction. For nonlinear regression, our algorithm can be extended by building nonlinear features into the training data as demonstrated by numerical results. In addition, we demonstrate that the model trainability is achievable only when the number of features $M$ is much less than the number of records $L$ for the encoded data structure to justify $L\gg M$ in our resource estimation. | 翻訳日:2024-01-26 18:14:06 公開日:2024-01-25 |
# log-depth量子回路を用いた行列積状態の合成 Preparation of matrix product states with log-depth quantum circuits ( http://arxiv.org/abs/2307.01696v2 ) ライセンス: Link先を確認 | Daniel Malz, Georgios Styliaris, Zhi-Yuan Wei, J. Ignacio Cirac | (参考訳) 局所ゲートの量子回路を用いた量子デバイス上での行列積状態(MPS)の作成について検討する。
まず、n$サイトの翻訳不変正規mpを忠実に準備するには回路深度$t=\omega(\log n)$が必要であることを証明します。
次に、正規化群変換に基づくアルゴリズムを導入し、誤差$\epsilon$ in depth $T=O(\log (N/\epsilon))$で正規MPSを作成する。
また、測定とフィードバックがアルゴリズムの指数的高速化につながり、$T=O(\log\log (N/\epsilon))$であることを示す。
測定により、任意の翻訳不変MPS、例えば長距離非正規MPSを同じ深さで作成することもできる。
最後に、アルゴリズムは自然に不均一MPSにまで拡張する。 We consider the preparation of matrix product states (MPS) on quantum devices via quantum circuits of local gates. We first prove that faithfully preparing translation-invariant normal MPS of $N$ sites requires a circuit depth $T=\Omega(\log N)$. We then introduce an algorithm based on the renormalization-group transformation to prepare normal MPS with an error $\epsilon$ in depth $T=O(\log (N/\epsilon))$, which is optimal. We also show that measurement and feedback leads to an exponential speedup of the algorithm, to $T=O(\log\log (N/\epsilon))$. Measurements also allow one to prepare arbitrary translation-invariant MPS, including long-range non-normal ones, in the same depth. Finally, the algorithm naturally extends to inhomogeneous MPS. | 翻訳日:2024-01-26 18:13:42 公開日:2024-01-25 |
# 非条件音声合成のためのganの絡み合い Disentanglement in a GAN for Unconditional Speech Synthesis ( http://arxiv.org/abs/2307.01673v2 ) ライセンス: Link先を確認 | Matthew Baas and Herman Kamper | (参考訳) 明示的な条件付けなしに、潜在空間から直接リアルな音声を合成できるモデルを開発することができるか?
過去10年間、いくつかの努力にもかかわらず、過去の敵対的および拡散ベースのアプローチは、小さなボカブラリデータセットでも、これを達成するのに苦労している。
そこで本稿では,無条件音声合成のための生成対向ネットワークであるAudioStyleGAN(ASGAN)を提案する。
画像合成モデルのstyleganファミリに基づいて、asganはサンプリングされたノイズを不連続な潜在ベクトルにマッピングし、オーディオ特徴のシーケンスにマッピングすることで、各層で信号エイリアシングが抑制される。
AsGANのトレーニングを成功させるためには、適応型判別器の増分修正など、いくつかの新しい手法を導入する。
小語彙のGoogle Speech Commands digitsデータセットに適用し、非条件音声合成の最先端結果を達成する。
また、既存の最高性能拡散モデルよりもかなり高速である。
我々は,asganの潜在空間が不連続であることを確認する。空間内の単純な線形演算が,訓練中に見当たらないいくつかのタスクを実行するためにどのように利用できるかを示す。
具体的には,音声変換,音声強調,話者照合,キーワード分類における評価を行う。
我々の研究は、ganは依然として無条件音声合成環境において非常に競争力があり、非知覚タスクの一般化を支援するために不連続な潜在空間が利用できることを示している。
コード、モデル、サンプル:https://github.com/RF5/simple-asgan/ Can we develop a model that can synthesize realistic speech directly from a latent space, without explicit conditioning? Despite several efforts over the last decade, previous adversarial and diffusion-based approaches still struggle to achieve this, even on small-vocabulary datasets. To address this, we propose AudioStyleGAN (ASGAN) -- a generative adversarial network for unconditional speech synthesis tailored to learn a disentangled latent space. Building upon the StyleGAN family of image synthesis models, ASGAN maps sampled noise to a disentangled latent vector which is then mapped to a sequence of audio features so that signal aliasing is suppressed at every layer. To successfully train ASGAN, we introduce a number of new techniques, including a modification to adaptive discriminator augmentation which probabilistically skips discriminator updates. We apply it on the small-vocabulary Google Speech Commands digits dataset, where it achieves state-of-the-art results in unconditional speech synthesis. It is also substantially faster than existing top-performing diffusion models. We confirm that ASGAN's latent space is disentangled: we demonstrate how simple linear operations in the space can be used to perform several tasks unseen during training. Specifically, we perform evaluations in voice conversion, speech enhancement, speaker verification, and keyword classification. Our work indicates that GANs are still highly competitive in the unconditional speech synthesis landscape, and that disentangled latent spaces can be used to aid generalization to unseen tasks. Code, models, samples: https://github.com/RF5/simple-asgan/ | 翻訳日:2024-01-26 18:13:23 公開日:2024-01-25 |
# 自己教師型音声モデルは単語について何を知っているか? What do self-supervised speech models know about words? ( http://arxiv.org/abs/2307.00162v2 ) ライセンス: Link先を確認 | Ankita Pasad, Chung-Ming Chien, Shane Settle, Karen Livescu | (参考訳) 多くの自己教師型音声モデル(S3M)がここ数年で導入され、様々な音声タスクの性能とデータ効率が向上した。
しかし、これらの経験的な成功だけでは、事前トレーニング中に学んだことの完全な図は示されていない。
最近の研究は、音声情報や話者情報などの特定の特性をS3Mでエンコードする方法を分析し始めたが、それでも、単語レベルでエンコードされた知識の適切な理解は欠如している。
本研究では,S3Mで符号化された単語識別,境界,発音,構文的特徴,意味的特徴などセグメントレベルの言語特性を研究するために,軽量な解析手法を用いる。
我々は,10 s3msの層別表現の比較研究を行い,それを見出す。
(i)各単語セグメント内のフレームレベルの表現は、すべて等しく情報的ではなく、
(ii)事前学習目標とモデルサイズは,レイヤ間の言語情報のアクセシビリティと分布に大きく影響する。
また、いくつかのタスク -- 単語の識別、単語分割、意味文の類似性 -- では、視覚的な接頭辞で訓練されたs3msが、音声のみのタスクよりも優れていることも分かりました。
最後に,タスクベース分析により,従来の作業よりも簡単な手法を用いて,単語分割と音響的単語識別の性能向上を示す。 Many self-supervised speech models (S3Ms) have been introduced over the last few years, improving performance and data efficiency on various speech tasks. However, these empirical successes alone do not give a complete picture of what is learned during pre-training. Recent work has begun analyzing how S3Ms encode certain properties, such as phonetic and speaker information, but we still lack a proper understanding of knowledge encoded at the word level and beyond. In this work, we use lightweight analysis methods to study segment-level linguistic properties -- word identity, boundaries, pronunciation, syntactic features, and semantic features -- encoded in S3Ms. We present a comparative study of layer-wise representations from ten S3Ms and find that (i) the frame-level representations within each word segment are not all equally informative, and (ii) the pre-training objective and model size heavily influence the accessibility and distribution of linguistic information across layers. We also find that on several tasks -- word discrimination, word segmentation, and semantic sentence similarity -- S3Ms trained with visual grounding outperform their speech-only counterparts. Finally, our task-based analyses demonstrate an improved performance on word segmentation and acoustic word discrimination while using simpler methods than prior work. | 翻訳日:2024-01-26 18:12:54 公開日:2024-01-25 |
# 反マネーロンダリングモデルのためのリアルな合成金融取引 Realistic Synthetic Financial Transactions for Anti-Money Laundering Models ( http://arxiv.org/abs/2306.16424v3 ) ライセンス: Link先を確認 | Erik Altman, Jovan Blanu\v{s}a, Luc von Niederh\"ausern, B\'eni Egressy, Andreea Anghel, Kubilay Atasu | (参考訳) 金融のデジタル化や暗号通貨の普及に伴い、サイバー犯罪者が考案した詐欺スキームの高度化が進んでいる。
マネーロンダリング(資金洗浄)は銀行と国の境界を越えて複雑な取引パターンを生み出す可能性がある。
国連の推計では、世界のGDPの2-5\%、すなわち0.8ドル=2.0兆ドルが毎年洗浄されている。
残念なことに、洗浄を検出するために機械学習モデルをトレーニングする実際のデータは一般的には利用できない。
現実的で標準化された公開可能なベンチマークは、モデルの比較と領域の進歩のために必要である。
そこで本研究では,合成金融トランザクションデータセット生成と合成生成されたAML(Anti-Money Laundering)データセットのセットについて述べる。
このエージェントベースのジェネレータをキャリブレーションして、実際のトランザクションを可能な限り密に一致させ、データセットを公開しました。
生成元を詳細に記述し、生成したデータセットが、AML能力の観点から異なる機械学習モデルを比較するのにどう役立つかを実証する。
重要な方法では、これらの比較で合成データを使用することは、実際のデータを使用するよりもさらによい。 With the widespread digitization of finance and the increasing popularity of cryptocurrencies, the sophistication of fraud schemes devised by cybercriminals is growing. Money laundering -- the movement of illicit funds to conceal their origins -- can cross bank and national boundaries, producing complex transaction patterns. The UN estimates 2-5\% of global GDP or \$0.8 - \$2.0 trillion dollars are laundered globally each year. Unfortunately, real data to train machine learning models to detect laundering is generally not available, and previous synthetic data generators have had significant shortcomings. A realistic, standardized, publicly-available benchmark is needed for comparing models and for the advancement of the area. To this end, this paper contributes a synthetic financial transaction dataset generator and a set of synthetically generated AML (Anti-Money Laundering) datasets. We have calibrated this agent-based generator to match real transactions as closely as possible and made the datasets public. We describe the generator in detail and demonstrate how the datasets generated can help compare different machine learning models in terms of their AML abilities. In a key way, using synthetic data in these comparisons can be even better than using real data: the ground truth labels are complete, whilst many laundering transactions in real data are never detected. | 翻訳日:2024-01-26 18:12:32 公開日:2024-01-25 |
# 密度分布の相互相関を用いた時間制御障害実現における量子ガスの特徴付け Characterizing quantum gases in time-controlled disorder realizations using cross-correlations of density distributions ( http://arxiv.org/abs/2306.16099v2 ) ライセンス: Link先を確認 | Silvia Hiebel, Benjamin Nagler, Sian Barbosa, Jennifer Koch, and Artur Widera | (参考訳) 物理系における障害の役割は、マクロとミクロの世界で広く研究されている。
静的障害は多くの場合よく理解されているが、時間依存障害が量子気体に与える影響はいまだに研究されていない。
実験では, 時間制御型光スペックル障害を発生できる手法を紹介し, 特徴付ける。
実験的に、コヒーレント光は、スタティックと回転ディフューザの組み合わせを照らし、ディフューザの構造による空間変化相と相対回転による時間変化相とを収集する。
ディフューザの回転を制御することは、スペックル実現の変更、または将来の作業において、スペックルパターンの変化の特徴的な時間スケール、すなわち、研究された量子ガスの典型的な時間スケールと一致する相関時間を測定することができる。
我々は,その強度分布を異なる強度パターンに相互相関して測定することにより,スペックルパターンを特徴付ける。
そこで我々は,分子ボース・アインシュタイン凝縮体 (bec) に対するその影響を観察し,異なるスペックル実現法で観測されたbecの密度分布を相互に相関させた。
1つのディフューザが共通の光学軸の周りで互いに相対的に回転すると、光学スペックルの強度相関と量子気体の密度相関が追跡される。
その結果,両測定法に比較して結果が得られた。
この設定により、量子ガスの特性に適応した乱れポテンシャルを調整できる。
これらの研究は、制御された動的不規則ポテンシャルを用いて相互作用する量子気体における非平衡物理学の研究の道を開いた。 The role of disorder on physical systems has been widely studied in the macroscopic and microscopic world. While static disorder is well understood in many cases, the impact of time-dependent disorder on quantum gases is still poorly investigated. In our experimental setup, we introduce and characterize a method capable of producing time-controlled optical-speckle disorder. Experimentally, coherent light illuminates a combination of a static and a rotating diffuser, thereby collecting a spatially varying phase due to the diffusers' structure and a temporally variable phase due to the relative rotation. Controlling the rotation of the diffuser allows changing the speckle realization or, for future work, the characteristic time scale of the change of the speckle pattern, i.e. the correlation time, matching typical time scales of the quantum gases investigated. We characterize the speckle pattern ex-situ by measuring its intensity distribution cross-correlating different intensity patterns. In-situ, we observe its impact on a molecular Bose-Einstein condensate (BEC) and cross-correlate the density distributions of BECs probed in different speckle realizations. As one diffuser rotates relative to the other around the common optical axis, we trace the optical speckle's intensity cross-correlations and the quantum gas' density cross-correlations. Our results show comparable outcomes for both measurement methods. The setup allows us to tune the disorder potential adapted to the characteristics of the quantum gas. These studies pave the way for investigating nonequilibrium physics in interacting quantum gases using controlled dynamical-disorder potentials. | 翻訳日:2024-01-26 18:12:10 公開日:2024-01-25 |
# 不完全ラベリングを用いた文書レベル関係抽出のための正非ラベル付きメトリクス学習フレームワーク A Positive-Unlabeled Metric Learning Framework for Document-Level Relation Extraction with Incomplete Labeling ( http://arxiv.org/abs/2306.14806v2 ) ライセンス: Link先を確認 | Ye Wang, Huazheng Pan, Tao Zhang, Wen Wu, Wenxin Hu | (参考訳) 文書レベルの関係抽出(RE)の目的は、複数の文にまたがるエンティティ間の関係を特定することである。
近年,文書レベルのreにおける不完全ラベリングが注目され,この問題に対してポジティブラベル学習などの手法が用いられている研究もあるが,改善の余地は多い。
そこで我々は,P3M(Pyse-augmentation and positive-mixup positive-unlabeled metric learning framework)を提案する。
具体的には,文書レベルのREを計量学習問題として定式化する。
我々は,エンティティペアの埋め込みとそれに対応する関係の埋め込みとの距離を近づけると同時に,非クラス関係の埋め込みとの距離を遠ざけることを目的としている。
さらに、この損失目標に正の未ラベル学習を適用する。
モデルの一般化性を改善するため,正のサンプルを増強するためにドロップアウトを用い,正のnoneクラス混合法を提案する。
実験の結果,P3Mは文書レベルREのF1スコアを4~10ポイント改善し,完全ラベル付きシナリオで最先端の結果が得られることがわかった。
さらに、P3Mは不完全ラベル付きシナリオにおける事前推定バイアスに対して堅牢性を示した。 The goal of document-level relation extraction (RE) is to identify relations between entities that span multiple sentences. Recently, incomplete labeling in document-level RE has received increasing attention, and some studies have used methods such as positive-unlabeled learning to tackle this issue, but there is still a lot of room for improvement. Motivated by this, we propose a positive-augmentation and positive-mixup positive-unlabeled metric learning framework (P3M). Specifically, we formulate document-level RE as a metric learning problem. We aim to pull the distance closer between entity pair embedding and their corresponding relation embedding, while pushing it farther away from the none-class relation embedding. Additionally, we adapt the positive-unlabeled learning to this loss objective. In order to improve the generalizability of the model, we use dropout to augment positive samples and propose a positive-none-class mixup method. Extensive experiments show that P3M improves the F1 score by approximately 4-10 points in document-level RE with incomplete labeling, and achieves state-of-the-art results in fully labeled scenarios. Furthermore, P3M has also demonstrated robustness to prior estimation bias in incomplete labeled scenarios. | 翻訳日:2024-01-26 18:11:30 公開日:2024-01-25 |
# オンライン無限次元回帰:学習線形作用素 Online Infinite-Dimensional Regression: Learning Linear Operators ( http://arxiv.org/abs/2309.06548v3 ) ライセンス: Link先を確認 | Vinod Raman, Unique Subedi, Ambuj Tewari | (参考訳) オンライン環境における2つの無限次元ヒルベルト空間間の二乗損失下での線形作用素の学習問題を考察する。
一様有界な$p$-schattenノルムを持つ線型作用素のクラスは、任意の$p \in [1, \infty)$に対してオンライン学習可能である。
一方、作用素ノルムに関する一様有界線型作用素のクラスがオンライン学習可能であることを示すことによって、不可能な結果が証明される。
さらに,オンライン学習可能だが一様収束しない有界線形作用素のクラスを同定することにより,逐次一様収束とオンライン学習可能性との分離を示す。
最後に,不合理化結果と一様収束と学習可能性の分離がバッチ設定においても成り立つことを示す。 We consider the problem of learning linear operators under squared loss between two infinite-dimensional Hilbert spaces in the online setting. We show that the class of linear operators with uniformly bounded $p$-Schatten norm is online learnable for any $p \in [1, \infty)$. On the other hand, we prove an impossibility result by showing that the class of uniformly bounded linear operators with respect to the operator norm is \textit{not} online learnable. Moreover, we show a separation between sequential uniform convergence and online learnability by identifying a class of bounded linear operators that is online learnable but uniform convergence does not hold. Finally, we prove that the impossibility result and the separation between uniform convergence and learnability also hold in the batch setting. | 翻訳日:2024-01-26 18:04:38 公開日:2024-01-25 |
# 歴史から学ぶ:画像復元のためのタスク非依存モデルコントラスト学習 Learning from History: Task-agnostic Model Contrastive Learning for Image Restoration ( http://arxiv.org/abs/2309.06023v5 ) ライセンス: Link先を確認 | Gang Wu, Junjun Jiang, Kui Jiang, Xianming Liu | (参考訳) コントラスト学習は、適切な負のサンプルを導入することで、その不適切な性質を考慮に入れたコンパクトな最適化空間を実現するために、低レベルの視覚タスクにも活用されている。
しかし、既存の手法は手動で事前定義されたタスク指向のネガティブに依存しており、しばしばタスク固有のバイアスが顕著に現れる。
この課題に対処するために,本稿では,対象モデル自体から負のサンプルを動的に生成する「歴史から学ぶ」という革新的な手法を提案する。
我々のアプローチはMCLIR(Model Contrastive Learning for Image Restoration)と呼ばれ、遅延モデルを負のモデルとして再定義し、多様な画像復元タスクと互換性を持つ。
そこで我々は,SPN(Self-Prior Guided Negative Los)を提案する。
このアプローチは、提案したモデルコントラッシブパラダイムで再訓練された場合、既存のモデルを大幅に強化する。
その結果,様々なタスクやアーキテクチャにおける画像復元の大幅な改善が示された。
例えば、SPNで再訓練されたモデルは、オリジナルのFFANetとDehazeFormerを3.41dB、0.57dBで上回っている。
同様に、SPA-Data の 0.47 dB と IDT の 0.12 dB を、Manga109 の 0.12 dB を、それぞれ軽量の SwinIR よりも 4倍の解像度で改善した。
コードと再訓練されたモデルはhttps://github.com/Aitical/MCLIRで入手できる。 Contrastive learning has emerged as a prevailing paradigm for high-level vision tasks, which, by introducing properly negative samples, has also been exploited for low-level vision tasks to achieve a compact optimization space to account for their ill-posed nature. However, existing methods rely on manually predefined and task-oriented negatives, which often exhibit pronounced task-specific biases. To address this challenge, our paper introduces an innovative method termed 'learning from history', which dynamically generates negative samples from the target model itself. Our approach, named Model Contrastive Learning for Image Restoration (MCLIR), rejuvenates latency models as negative models, making it compatible with diverse image restoration tasks. We propose the Self-Prior guided Negative loss (SPN) to enable it. This approach significantly enhances existing models when retrained with the proposed model contrastive paradigm. The results show significant improvements in image restoration across various tasks and architectures. For example, models retrained with SPN outperform the original FFANet and DehazeFormer by 3.41 dB and 0.57 dB on the RESIDE indoor dataset for image dehazing. Similarly, they achieve notable improvements of 0.47 dB on SPA-Data over IDT for image deraining and 0.12 dB on Manga109 for a 4x scale super-resolution over lightweight SwinIR, respectively. Code and retrained models are available at https://github.com/Aitical/MCLIR. | 翻訳日:2024-01-26 18:04:24 公開日:2024-01-25 |
# ReSimAD:ソース再構成とターゲットシミュレーションによる自律走行のためのゼロショット3Dドメイン転送 ReSimAD: Zero-Shot 3D Domain Transfer for Autonomous Driving with Source Reconstruction and Target Simulation ( http://arxiv.org/abs/2309.05527v4 ) ライセンス: Link先を確認 | Bo Zhang, Xinyu Cai, Jiakang Yuan, Donglin Yang, Jianfei Guo, Xiangchao Yan, Renqiu Xia, Botian Shi, Min Dou, Tao Chen, Si Liu, Junchi Yan, Yu Qiao | (参考訳) センサタイプの変更や地理的状況の変化といったドメインシフトは、従来のドメイン知識に依存する広告モデルは、追加コストなしで新たなドメインに直接デプロイできないため、自律運転(autonomous driving:ad)では一般的である。
本稿では,再構成・シミュレーション・パーセプション(resimad)スキームを提案することにより,ドメインシフトを緩和する新たな視点とアプローチを提案する。
具体的には、暗黙の再構築プロセスは以前のドメインからの知識に基づいており、ドメイン関連の知識をドメイン不変表現に変換することを目的としている。
また、上記再構成された3dメッシュ上では、複数の新規ドメインのポイントクラウドシミュレーションプロセスが条件付けされ、ターゲット領域ライクなシミュレーションサンプルが得られるため、その後の知覚プロセスのための新しいドメインデータの収集と注釈付けのコストが削減される。
実験では, Waymo-to-KITTI, Waymo-to-nuScenes, Waymo-to-ONCEなど, 異なる領域の状況について検討し, ReSimADを用いたゼロショット目標領域認識の検証を行う。
その結果,本手法は,3次元事前学習を約束する領域一般化能力の向上に有効であることが示された。 Domain shifts such as sensor type changes and geographical situation variations are prevalent in Autonomous Driving (AD), which poses a challenge since AD model relying on the previous domain knowledge can be hardly directly deployed to a new domain without additional costs. In this paper, we provide a new perspective and approach of alleviating the domain shifts, by proposing a Reconstruction-Simulation-Perception (ReSimAD) scheme. Specifically, the implicit reconstruction process is based on the knowledge from the previous old domain, aiming to convert the domain-related knowledge into domain-invariant representations, e.g., 3D scene-level meshes. Besides, the point clouds simulation process of multiple new domains is conditioned on the above reconstructed 3D meshes, where the target-domain-like simulation samples can be obtained, thus reducing the cost of collecting and annotating new-domain data for the subsequent perception process. For experiments, we consider different cross-domain situations such as Waymo-to-KITTI, Waymo-to-nuScenes, Waymo-to-ONCE, etc, to verify the zero-shot target-domain perception using ReSimAD. Results demonstrate that our method is beneficial to boost the domain generalization ability, even promising for 3D pre-training. | 翻訳日:2024-01-26 18:03:58 公開日:2024-01-25 |
# 非線形パーセルフィルタを用いた超伝導量子ビットの光ノイズ耐性分散読み出し Photon-noise-tolerant dispersive readout of a superconducting qubit using a nonlinear Purcell filter ( http://arxiv.org/abs/2309.04315v2 ) ライセンス: Link先を確認 | Yoshiki Sunada, Kenshi Yuki, Zhiling Wang, Takeaki Miyamura, Jesper Ilves, Kohei Matsuura, Peter A. Spring, Shuhei Tamate, Shingo Kono, Yasunobu Nakamura | (参考訳) 読み出し共振器内の残留雑音光子は、高速で高忠実な分散読み出しに最適化された場合、超伝導量子ビットの劣化の主な原因となる。
本稿では,読み出し性能を犠牲にすることなく,望ましくないデファス処理を抑制する非線形パーセルフィルタを提案する。
読み出しパルスが印加されると、フィルタは読み出し共振器の有効ライン幅を自動的に低減し、入力フィールドへのqubitの感度を高める。
我々が作製した装置の耐雑音性は、線形フィルタを有する装置に対して3の係数で向上する。
非線形フィルタの分岐を利用して測定速度を3の別の係数で向上させる。
読み出し忠実度99.4%、量子非分解忠実度99.2%は40-ns読み出しパルスを用いて達成される。
非線形パーセルフィルタは、量子ビットのコヒーレンス時間を損なうことなく高速かつ高忠実な読み出しを実現するための有効なツールとなる。 Residual noise photons in a readout resonator become a major source of dephasing for a superconducting qubit when the resonator is optimized for a fast, high-fidelity dispersive readout. Here, we propose and demonstrate a nonlinear Purcell filter that suppresses such an undesirable dephasing process without sacrificing the readout performance. When a readout pulse is applied, the filter automatically reduces the effective linewidth of the readout resonator, increasing the sensitivity of the qubit to the input field. The noise tolerance of the device we have fabricated is shown to be enhanced by a factor of 3 relative to a device with a linear filter. The measurement rate is enhanced by another factor of 3 by utilizing the bifurcation of the nonlinear filter. A readout fidelity of 99.4% and a quantum nondemolition fidelity of 99.2% are achieved using a 40-ns readout pulse. The nonlinear Purcell filter will be an effective tool for realizing a fast, high-fidelity readout without compromising the coherence time of the qubit. | 翻訳日:2024-01-26 18:03:35 公開日:2024-01-25 |
# PRISM: EHRデータスカラー化のための特徴ミス対応校正による患者表現の活用 PRISM: Leveraging Prototype Patient Representations with Feature-Missing-Aware Calibration for EHR Data Sparsity Mitigation ( http://arxiv.org/abs/2309.04160v3 ) ライセンス: Link先を確認 | Yinghao Zhu, Zixiang Wang, Long He, Shiyun Xie, Liantao Ma, Chengwei Pan | (参考訳) EHR(Electronic Health Record)のデータは情報に富んでいるが、しばしばスパーシティに悩まされ、予測モデリングにおいて重大な課題を提起する。
従来の命令法は、実データと偽データとを不適切に区別し、モデルに潜在的な不正確性をもたらす。
PRISMは、類似した患者のプロトタイプ表現を通じてデータを間接的にインプットし、より密で正確な埋め込みを保証する新しい手法である。
PRISMはさらに機能信頼学習モジュールで革新し、欠落したデータに照らして各機能の信頼性を評価する。
さらに、不正確なインプット値に対する過度な信頼を避けるため、特徴的信頼を考慮に入れた新しい患者類似度指標も組み込まれている。
我々のMIMIC-IIIとMIMIC-IVデータセットに関する広範な実験は、PRISMが宿主死亡率と30日間の読解タスクを予測する上で優れた性能を示し、EHRデータ空間の扱いの有効性を示している。
再現性とさらなる研究のために、コードをhttps://github.com/yhzhu99/PRISM.comで公開しました。 Electronic Health Record (EHR) data, while rich in information, often suffers from sparsity, posing significant challenges in predictive modeling. Traditional imputation methods inadequately distinguish between real and imputed data, leading to potential inaccuracies in models. Addressing this, we introduce PRISM, a novel approach that indirectly imputes data through prototype representations of similar patients, thus ensuring denser and more accurate embeddings. PRISM innovates further with a feature confidence learner module, which evaluates the reliability of each feature in light of missing data. Additionally, it incorporates a novel patient similarity metric that accounts for feature confidence, avoiding overreliance on imprecise imputed values. Our extensive experiments on the MIMIC-III and MIMIC-IV datasets demonstrate PRISM's superior performance in predicting in-hospital mortality and 30-day readmission tasks, showcasing its effectiveness in handling EHR data sparsity. For the sake of reproducibility and further research, we have made the code publicly available at https://github.com/yhzhu99/PRISM. | 翻訳日:2024-01-26 18:03:17 公開日:2024-01-25 |
# 時間的知識グラフ推論のための時間的誘導経路ニューラルネットワーク Temporal Inductive Path Neural Network for Temporal Knowledge Graph Reasoning ( http://arxiv.org/abs/2309.03251v3 ) ライセンス: Link先を確認 | Hao Dong, Pengyang Wang, Meng Xiao, Zhiyuan Ning, Pengfei Wang, Yuanchun Zhou | (参考訳) 時間的知識グラフ(TKG)は、時間次元を組み込んだ伝統的な知識グラフ(KG)の拡張である。
TKGの推論は、歴史的事象に基づく将来の事実の予測を目的とした重要な課題である。
重要な課題は、歴史的部分グラフと時間的パターン内の構造的依存関係を明らかにすることである。
既存のアプローチの多くは、グラフのノードが知識表現において重要な役割を果たすため、エンティティモデリングに依存するtkgモデルである。
しかし、現実世界のシナリオは、しばしば多数のエンティティを伴い、時間とともに新しいエンティティが出現する。
これにより、エンティティ依存のメソッドが大量のエンティティに対処することが難しくなり、新しいエンティティを効果的に扱うことも大きな課題となる。
そこで我々は,実体に依存しない視点で歴史情報をモデル化するTiPNN(Temporal Inductive Path Neural Network)を提案する。
具体的には、TiPNNは履歴から情報を包括的にキャプチャし、カプセル化するために、ヒストリー時間グラフという統一グラフを採用している。
その後,履歴時間グラフ上で定義された問合せ対応時間経路を用いて,問合せに関連する履歴経路情報をモデル化し,推論を行う。
大規模な実験では,提案モデルが大幅な性能向上を達成するだけでなく,帰納的設定も扱えるとともに,履歴時間グラフによる証拠の推論を容易にすることが示されている。 Temporal Knowledge Graph (TKG) is an extension of traditional Knowledge Graph (KG) that incorporates the dimension of time. Reasoning on TKGs is a crucial task that aims to predict future facts based on historical occurrences. The key challenge lies in uncovering structural dependencies within historical subgraphs and temporal patterns. Most existing approaches model TKGs relying on entity modeling, as nodes in the graph play a crucial role in knowledge representation. However, the real-world scenario often involves an extensive number of entities, with new entities emerging over time. This makes it challenging for entity-dependent methods to cope with extensive volumes of entities, and effectively handling newly emerging entities also becomes a significant challenge. Therefore, we propose Temporal Inductive Path Neural Network (TiPNN), which models historical information in an entity-independent perspective. Specifically, TiPNN adopts a unified graph, namely history temporal graph, to comprehensively capture and encapsulate information from history. Subsequently, we utilize the defined query-aware temporal paths on a history temporal graph to model historical path information related to queries for reasoning. Extensive experiments illustrate that the proposed model not only attains significant performance enhancements but also handles inductive settings, while additionally facilitating the provision of reasoning evidence through history temporal graphs. | 翻訳日:2024-01-26 18:02:55 公開日:2024-01-25 |
# 騒がしい資源状態によるポートベースの絡み合いテレポーテーション Port-based entanglement teleportation via noisy resource states ( http://arxiv.org/abs/2309.01550v2 ) ライセンス: Link先を確認 | Ha Eum Kim, Kabgyun Jeong | (参考訳) ポートベーステレポーテーション (Port-based teleportation, PBT) は、標準的な量子テレポーテーションの変種であり、現在、その様々な応用により量子情報処理の分野に採用され、研究されている。
本研究では,資源状態が局所的なパウリ雑音によって破壊される場合のPBTプロトコルに着目した。
ここでは,うるさいpbtプロトコルのチャネルをkrauss表現を用いて完全に特徴付ける。
特に、量子ネットワークの実現に必要なエンタングルメント分布へのPBTの適用を利用して、ポートベースエンタングルメント・テレポーテーション(PBET)と表されるノイズの多い資源状態を考慮した各キュービットに対するこのプロトコルによるエンタングルメント・トランスミッションを調査する。
最後に、最初の絡み合いと雑音の関数として、テレポートされた絡み合いの上下境界を導出する。
本研究は,大規模資源状態を利用するプロトコルによって,ノイズの存在下で量子絡み合いを効率的に分散できることを示し,PBETプロトコルを最適化するための信頼性の高いガイドとして機能することが期待される。
これらの結果を得るために, 2つの量子ビット状態の絡み合いの順序は, 局所パウリチャネルを通じて保持され, このテレポーテーションチャネルを介して絡み合い損失の境界を特定する。 Port-based teleportation (PBT) represents a variation of the standard quantum teleportation and is currently being employed and explored within the field of quantum information processing owing to its various applications. In this study, we focus on PBT protocol when the resource state is disrupted by local Pauli noises. Here, we fully characterise the channel of the noisy PBT protocol using Krauss representation. Especially, by exploiting the application of PBT for entanglement distribution necessary in realizing quantum networks, we investigate entanglement transmission through this protocol for each qubit considering noisy resource states, denoted as port-based entanglement teleportation (PBET). Finally, we derive upper and lower bounds for the teleported entanglement as a function of the initial entanglement and the noises. Our study demonstrates that quantum entanglement can be efficiently distributed by protocols utilizing large-sized resource states in the presence of noise and is expected to serve as a reliable guide for developing optimized PBET protocols. To obtain these results, we address that the order of entanglement of two qubit states is preserved through the local Pauli channel, and identify the boundaries of entanglement loss through this teleportation channel. | 翻訳日:2024-01-26 18:02:34 公開日:2024-01-25 |
# HRリモートセンシング画像における変化検出のためのセグメントモデルの適用 Adapting Segment Anything Model for Change Detection in HR Remote Sensing Images ( http://arxiv.org/abs/2309.01429v4 ) ライセンス: Link先を確認 | Lei Ding, Kun Zhu, Daifeng Peng, Hao Tang, Kuiwu Yang and Lorenzo Bruzzone | (参考訳) Segment Anything Model (SAM) のような視覚基礎モデル(VFM)は、ゼロショットまたはインタラクティブな視覚内容のセグメンテーションを可能にするため、様々な視覚シーンに迅速に適用することができる。
しかし、多くのリモートセンシング(rs)アプリケーションでの直接の使用は、rs画像の特別な撮像特性のため、しばしば不十分である。
本研究では,高解像度リモートセンシング画像(RSI)の変化検出を改善するために,VFMの強力な視覚認識機能を活用することを目的とする。
我々は、能率的なSAMの変種であるFastSAMの視覚エンコーダを用いて、RSシーンの視覚表現を抽出する。
我々は,FastSAMをRSシーンの特定の基底オブジェクトに適応させるために,タスク指向の変更情報を集約する畳み込み適応器を提案する。
さらに、SAMの特徴に固有の意味表現を活用するために、両時間RSIにおける意味潜在をモデル化するためのタスク非依存の意味学習ブランチを導入する。
SAMCD法は,SOTA法と比較して精度が高く,半教師付きCD法に匹敵する標本効率の学習能力を示す。
私たちの知る限りでは、HR RSIのCDにVFMを適用する最初の作品です。 Vision Foundation Models (VFMs) such as the Segment Anything Model (SAM) allow zero-shot or interactive segmentation of visual contents, thus they are quickly applied in a variety of visual scenes. However, their direct use in many Remote Sensing (RS) applications is often unsatisfactory due to the special imaging characteristics of RS images. In this work, we aim to utilize the strong visual recognition capabilities of VFMs to improve the change detection of high-resolution Remote Sensing Images (RSIs). We employ the visual encoder of FastSAM, an efficient variant of the SAM, to extract visual representations in RS scenes. To adapt FastSAM to focus on some specific ground objects in the RS scenes, we propose a convolutional adaptor to aggregate the task-oriented change information. Moreover, to utilize the semantic representations that are inherent to SAM features, we introduce a task-agnostic semantic learning branch to model the semantic latent in bi-temporal RSIs. The resulting method, SAMCD, obtains superior accuracy compared to the SOTA methods and exhibits a sample-efficient learning ability that is comparable to semi-supervised CD methods. To the best of our knowledge, this is the first work that adapts VFMs for the CD of HR RSIs. | 翻訳日:2024-01-26 18:02:10 公開日:2024-01-25 |
# トランスファーブルローカルポリシを用いた車両ルーティング問題に対する一般化可能なニューラルソルバーの実現に向けて Towards Generalizable Neural Solvers for Vehicle Routing Problems via Ensemble with Transferrable Local Policy ( http://arxiv.org/abs/2308.14104v2 ) ライセンス: Link先を確認 | Chengrui Gao, Haopu Shang, Ke Xue, Dong Li, Chao Qian | (参考訳) 機械学習はNPハードな組合せ最適化問題を解決するのに役立っている。
ひとつの一般的な方法は、ディープニューラルネットワークによるソリューション構築の学習であり、高い効率と専門知識の要件の低さから、ますます注目を集めている。
しかし、車載ルーティング問題(VRP)のための多くのニューラルネットワーク構築手法は、特定のノード分布と限られたスケールを持つ合成問題インスタンスに焦点を合わせており、通常は複雑で未知のノード分布を大規模に含む実世界の問題では性能が劣る。
ニューラルVRPソルバをより実用的なものにするために,局所移動可能なトポロジカルな特徴から学習する補助ポリシーを設計し,それを典型的な建設方針(VRPインスタンスのグローバルな情報から学習する)と統合し,アンサンブルポリシーを形成する。
共同トレーニングでは、集約されたポリシが協調的かつ補完的に実行され、一般化が促進される。
tsplib と cvrplib の2つの有名なベンチマーク実験の結果, 巡回セールスマン問題, 容量vrp は, アンサンブルポリシーにより, クロスディストリビューションとクロススケール一般化のパフォーマンスが著しく向上し, 数千ノードの実際の問題においても良好な結果が得られた。 Machine learning has been adapted to help solve NP-hard combinatorial optimization problems. One prevalent way is learning to construct solutions by deep neural networks, which has been receiving more and more attention due to the high efficiency and less requirement for expert knowledge. However, many neural construction methods for Vehicle Routing Problems (VRPs) focus on synthetic problem instances with specified node distributions and limited scales, leading to poor performance on real-world problems which usually involve complex and unknown node distributions together with large scales. To make neural VRP solvers more practical, we design an auxiliary policy that learns from the local transferable topological features, named local policy, and integrate it with a typical construction policy (which learns from the global information of VRP instances) to form an ensemble policy. With joint training, the aggregated policies perform cooperatively and complementarily to boost generalization. The experimental results on two well-known benchmarks, TSPLIB and CVRPLIB, of travelling salesman problem and capacitated VRP show that the ensemble policy significantly improves both cross-distribution and cross-scale generalization performance, and even performs well on real-world problems with several thousand nodes. | 翻訳日:2024-01-26 18:01:50 公開日:2024-01-25 |
# 個人化生成ネットワークによるヘテロジニアスフェデレーション学習 Heterogeneous Federated Learning via Personalized Generative Networks ( http://arxiv.org/abs/2308.13265v2 ) ライセンス: Link先を確認 | Zahra Taghiyarrenani, Abdallah Alabdallah, Slawomir Nowaczyk, Sepideh Pashami | (参考訳) フェデレーション学習(fl)は、複数のクライアントがデータを共有することなく、共通のグローバル機械学習モデルを構築することができる。
しかしながらflは、パフォーマンスを低下させ、グローバルモデルへの収束を遅くするクライアントデータ間の統計的不均一性の課題に直面している。
本稿では,クライアント間の不均一性を最小化することで,各クライアントに対するグローバルモデルの収束が促進されることを示す。
これは、これまで研究されてきた不均衡なクラスではなく、クライアント間での経験的な概念シフトの下で特に重要になる。
そこで,サーバがクライアント固有生成器を訓練するクライアント間の知識伝達手法を提案する。
各ジェネレータは対応するクライアントのサンプルを生成し、他のクライアントのモデルとの競合を取り除く。
実データと合成データを用いた実験は, 局所モデル間の衝突を低減し, 一般化可能なグローバルモデルの構築において, 提案手法の有効性を裏付けるものである。 Federated Learning (FL) allows several clients to construct a common global machine-learning model without having to share their data. FL, however, faces the challenge of statistical heterogeneity between the client's data, which degrades performance and slows down the convergence toward the global model. In this paper, we provide theoretical proof that minimizing heterogeneity between clients facilitates the convergence of a global model for every single client. This becomes particularly important under empirical concept shifts among clients, rather than merely considering imbalanced classes, which have been studied until now. Therefore, we propose a method for knowledge transfer between clients where the server trains client-specific generators. Each generator generates samples for the corresponding client to remove the conflict with other clients' models. Experiments conducted on synthetic and real data, along with a theoretical study, support the effectiveness of our method in constructing a well-generalizable global model by reducing the conflict between local models. | 翻訳日:2024-01-26 18:01:26 公開日:2024-01-25 |
# スパース深層学習のための多目的最適化 Multi-Objective Optimization for Sparse Deep Multi-Task Learning ( http://arxiv.org/abs/2308.12243v3 ) ライセンス: Link先を確認 | S. S. Hotegni, M. Berkemeier, S. Peitz | (参考訳) 異なる矛盾する最適化基準は、様々なディープラーニングシナリオで自然に発生する。
これらは、異なる主要なタスク(例えば、マルチタスク学習の設定)に対処できるだけでなく、損失最小化やスパーシリティといったメインタスクやセカンダリタスクにも対応できる。
通常のアプローチは、基準の単純な重み付けであり、正式には凸設定でのみ機能する。
本稿では,改良重み付きchebyshevスカラー化を用いた多目的最適化アルゴリズムを提案する。
このスカラー化手法を用いることで、アルゴリズムは元の問題の全ての最適解を識別し、その複雑さを単目的問題の列に還元する。
単純化された問題は、Augmented Lagrangian 法を用いて解決され、Adam や Stochastic Gradient Descent のような一般的な最適化手法を効果的に扱いながら利用できる。
我々の研究は、DNNモデルの(経済的かつ生態学的にも)持続可能性の問題に対処することを目的としており、特にDeep Multi-Taskモデルに焦点を当てている。
2つの機械学習データセットで実施された実験を通じて、ネットワーク重みにタスク固有の適応を適用したい場合、トレーニング中にモデルを適応的にスパース化する可能性を示す。
コードはhttps://github.com/salomonhotegni/mdmtnで入手できる。 Different conflicting optimization criteria arise naturally in various Deep Learning scenarios. These can address different main tasks (i.e., in the setting of Multi-Task Learning), but also main and secondary tasks such as loss minimization versus sparsity. The usual approach is a simple weighting of the criteria, which formally only works in the convex setting. In this paper, we present a Multi-Objective Optimization algorithm using a modified Weighted Chebyshev scalarization for training Deep Neural Networks (DNNs) with respect to several tasks. By employing this scalarization technique, the algorithm can identify all optimal solutions of the original problem while reducing its complexity to a sequence of single-objective problems. The simplified problems are then solved using an Augmented Lagrangian method, enabling the use of popular optimization techniques such as Adam and Stochastic Gradient Descent, while efficaciously handling constraints. Our work aims to address the (economical and also ecological) sustainability issue of DNN models, with a particular focus on Deep Multi-Task models, which are typically designed with a very large number of weights to perform equally well on multiple tasks. Through experiments conducted on two Machine Learning datasets, we demonstrate the possibility of adaptively sparsifying the model during training without significantly impacting its performance, if we are willing to apply task-specific adaptations to the network weights. The code is available at https://github.com/salomonhotegni/MDMTN | 翻訳日:2024-01-26 18:01:09 公開日:2024-01-25 |
# ERNetCL:カリキュラム学習戦略に基づくテキスト会話における新しい感情認識ネットワーク ERNetCL: A novel emotion recognition network in textual conversation based on curriculum learning strategy ( http://arxiv.org/abs/2308.06450v2 ) ライセンス: Link先を確認 | Jiang Li, Xiaoping Wang, Yingjian Liu, Zhigang Zeng | (参考訳) 会話における感情認識(ERC)は、会話ロボットや質問応答システムといった領域において研究ホットスポットとして現れている。
文脈的感情的な手がかりを効果的かつ適切に回収する方法は、ERCタスクにおける重要な課題の1つです。
既存の取り組みは、コンテキストを完全にモデル化せず、複雑なネットワーク構造を採用する。
本稿では,カリキュラム学習戦略(ERNetCL)に基づく新しい感情認識ネットワークを提案する。
提案するERNetCLは主に、時間エンコーダ(TE)、空間エンコーダ(SE)、カリキュラム学習(CL)損失からなる。
TEとSEを用いて、従来の手法の強みを簡易に組み合わせ、会話における時間的・空間的な情報を効率的に捉える。
感情変化による有害な影響を緩和し、人間のカリキュラム学習を容易かつ困難にシミュレートするために、clのアイデアをercタスクに適用し、ネットワークパラメータを漸進的に最適化する。
トレーニング開始時に,難解なサンプルに低い学習重みを割り当てる。
時代が進むにつれて、これらのサンプルの学習重量は徐々に上昇する。
4つのデータセットに関する広範囲な実験により,提案手法が有効であることを示し,他のベースラインモデルと劇的に比較した。 Emotion recognition in conversation (ERC) has emerged as a research hotspot in domains such as conversational robots and question-answer systems. How to efficiently and adequately retrieve contextual emotional cues has been one of the key challenges in the ERC task. Existing efforts do not fully model the context and employ complex network structures, resulting in limited performance gains. In this paper, we propose a novel emotion recognition network based on curriculum learning strategy (ERNetCL). The proposed ERNetCL primarily consists of temporal encoder (TE), spatial encoder (SE), and curriculum learning (CL) loss. We utilize TE and SE to combine the strengths of previous methods in a simplistic manner to efficiently capture temporal and spatial contextual information in the conversation. To ease the harmful influence resulting from emotion shift and simulate the way humans learn curriculum from easy to hard, we apply the idea of CL to the ERC task to progressively optimize the network parameters. At the beginning of training, we assign lower learning weights to difficult samples. As the epoch increases, the learning weights for these samples are gradually raised. Extensive experiments on four datasets exhibit that our proposed method is effective and dramatically beats other baseline models. | 翻訳日:2024-01-26 18:00:45 公開日:2024-01-25 |
# 第1印象を超えて: 総合的3次元表現のための統合型マルチモーダルキューの統合 Beyond First Impressions: Integrating Joint Multi-modal Cues for Comprehensive 3D Representation ( http://arxiv.org/abs/2308.02982v2 ) ライセンス: Link先を確認 | Haowei Wang, Jiji Tang, Jiayi Ji, Xiaoshuai Sun, Rongsheng Zhang, Yiwei Ma, Minda Zhao, Lincheng Li, zeng zhao, Tangjie Lv, Rongrong Ji | (参考訳) 近年,データの不足を克服するために,3次元理解が2次元視覚言語事前学習モデルに転換されている。
しかし、既存の手法では2Dアライメント戦略を単純に伝達し、単一ビューの2D画像と粗い親カテゴリテキストに3D表現を整列させる。
これらのアプローチは、情報劣化と相乗効果の不十分な問題を導入し、性能を損なう。
情報劣化は、3D表現が一連の多視点画像とよりきめ細かなサブカテゴリテキストと等価であるべきという事実から生じる。
十分でないシナジーは、ロバストな3次元表現はそれぞれのモダリティと独立に整合するのではなく、共同視覚言語空間と整合するべきだという考えを無視している。
本稿では,jm3dと呼ばれる多視点共同モダリティモデリング手法を提案し,ポイントクラウド,テキスト,画像の統一表現を得る。
具体的には, 情報劣化問題に対処するために, 視覚表現と言語モダリティを豊かにするために, 連続した多視点画像と階層テキストを導入する新しい構造化マルチモーダルオーガナイザ (smo) を提案する。
ジョイント・マルチモーダルアライメント(jma)は、視覚モダリティに言語知識を取り入れることでジョイントモダリティをモデル化する、不十分なシナジー問題に対処するために設計された。
ModelNet40 と ScanObjectNN の大規模実験により,提案手法 JM3D の有効性が実証された。
JM3Dは、ポイントMLPでULIPを約4.3%上回り、ModelNet40でゼロショットの3D分類を行うため、ポイントネット++で最大6.5%の精度向上を実現している。
すべての実験のソースコードとトレーニングされたモデルは、https://github.com/mr-neko/jm3dで公開されています。 In recent years, 3D understanding has turned to 2D vision-language pre-trained models to overcome data scarcity challenges. However, existing methods simply transfer 2D alignment strategies, aligning 3D representations with single-view 2D images and coarse-grained parent category text. These approaches introduce information degradation and insufficient synergy issues, leading to performance loss. Information degradation arises from overlooking the fact that a 3D representation should be equivalent to a series of multi-view images and more fine-grained subcategory text. Insufficient synergy neglects the idea that a robust 3D representation should align with the joint vision-language space, rather than independently aligning with each modality. In this paper, we propose a multi-view joint modality modeling approach, termed JM3D, to obtain a unified representation for point cloud, text, and image. Specifically, a novel Structured Multimodal Organizer (SMO) is proposed to address the information degradation issue, which introduces contiguous multi-view images and hierarchical text to enrich the representation of vision and language modalities. A Joint Multi-modal Alignment (JMA) is designed to tackle the insufficient synergy problem, which models the joint modality by incorporating language knowledge into the visual modality. Extensive experiments on ModelNet40 and ScanObjectNN demonstrate the effectiveness of our proposed method, JM3D, which achieves state-of-the-art performance in zero-shot 3D classification. JM3D outperforms ULIP by approximately 4.3% on PointMLP and achieves an improvement of up to 6.5% accuracy on PointNet++ in top-1 accuracy for zero-shot 3D classification on ModelNet40. The source code and trained models for all our experiments are publicly available at https://github.com/Mr-Neko/JM3D. | 翻訳日:2024-01-26 18:00:25 公開日:2024-01-25 |
# 保存電荷によるハミルトニアンの最小量子ビット表現 Minimal qubit representations of Hamiltonians via conserved charges ( http://arxiv.org/abs/2308.01986v2 ) ライセンス: Link先を確認 | Lane G. Gunderman, Andrew J. Jena, Luca Dellantonio | (参考訳) 過去数年間、我々は量子コンピュータが古典的に難解な問題を解くことができることを実証する、驚くべき動きを目撃してきた。
当初、ハードウェアに焦点をあてたこの取り組みは、シミュレートされるモデルの単純化を徐々に含んだ。
パウリ作用素の観点で書かれたハミルトニアンは、系をシミュレートするのに必須でない全てのキュービットを体系的にカットする。
我々のアプローチは普遍的に適用可能であり、まずヒルベルト空間の最大の部分が無関係になることを保証し、続いて系の保存されたすべての電荷、すなわちパウリ作用素として表現できる対称性を発見して利用することによって複雑さを下げる。
驚くべきことに、両方のプロセスは古典的に効率的で最適です。
このアルゴリズムを実証するため, 化学分子, 格子ゲージ理論, ハバードモデル, 北エフモデルを単純化した。 In the last years, we have been witnessing a tremendous push to demonstrate that quantum computers can solve classically intractable problems. This effort, initially focused on the hardware, progressively included the simplification of the models to be simulated. We consider Hamiltonians written in terms of Pauli operators and systematically cut all qubits that are not essential to simulate the system. Our approach is universally applicable and lowers the complexity by first ensuring that the largest possible portion of the Hilbert space becomes irrelevant, and then by finding and exploiting all conserved charges of the system, i.e., symmetries that can be expressed as Pauli operators. Remarkably, both processes are classically efficient and optimal. To showcase our algorithm, we simplify chemical molecules, lattice gauge theories, the Hubbard and the Kitaev models. | 翻訳日:2024-01-26 17:59:53 公開日:2024-01-25 |
# 言語モデルを用いた算術:記憶から計算へ Arithmetic with Language Models: from Memorization to Computation ( http://arxiv.org/abs/2308.01154v2 ) ライセンス: Link先を確認 | Davide Maltoni and Matteo Ferrara | (参考訳) 最近の大規模言語モデルの創発的な計算と問題解決能力をよりよく理解することは、それらをさらに改善し、その適用性を広げるために最も重要なことです。
本研究は、次のトークンを予測するために訓練された言語モデルが、トレーニングデータを超えて一般化された算術演算を実行する方法を検討する。
バイナリの追加と乗算は、非常に小さな語彙を必要とするため、新しいデータに対してスムーズな入力補間を行うのに有効な入力/出力の不連続性を示すため、この目的のために良いテストベッドを構成する。
我々はこれらのタスクを学習するために軽量言語モデルをトレーニングし、外挿能力と内部情報処理を調査するために多くの実験を行った。
本研究は,入力トークン表現が適切な内部表現にマッピングされると,値空間内で計算が行われるエンコーディング・レグレッション・デコーディングマシンとして言語モデルが動作するという仮説を支持する。 A better understanding of the emergent computation and problem-solving capabilities of recent large language models is of paramount importance to further improve them and broaden their applicability. This work investigates how a language model, trained to predict the next token, can perform arithmetic computations generalizing beyond training data. Binary addition and multiplication constitute a good testbed for this purpose, since they require a very small vocabulary and exhibit relevant input/output discontinuities making smooth input interpolation ineffective for novel data. We successfully trained a light language model to learn these tasks and ran a number of experiments to investigate the extrapolation capabilities and internal information processing. Our findings support the hypothesis that the language model works as an Encoding-Regression-Decoding machine where the computation takes place in the value space once the input token representation is mapped to an appropriate internal representation. | 翻訳日:2024-01-26 17:59:39 公開日:2024-01-25 |
# 信頼できるエッジインテリジェンスに関する調査:セキュリティと信頼性から透明性と持続可能性へ A Survey on Trustworthy Edge Intelligence: From Security and Reliability To Transparency and Sustainability ( http://arxiv.org/abs/2310.17944v2 ) ライセンス: Link先を確認 | Xiaojie Wang, Beibei Wang, Yu Wu, Zhaolong Ning, Song Guo, and Fei Richard Yu | (参考訳) Edge Intelligence(EI)は、エッジコンピューティング(EC)と人工知能(AI)を統合し、リアルタイムで効率的でセキュアなインテリジェントな意思決定と計算のために、AIの能力をネットワークエッジにプッシュする。
しかし、EIはリソースの制約、異種ネットワーク環境、さまざまなアプリケーションの多様なサービス要件などにより、さまざまな課題に直面します。
本調査は,信頼性の高いeiの特徴,アーキテクチャ,技術,ソリューションを包括的に要約する。
具体的には、まず、信頼性の高いEIの必要性を、大規模モデルへのトレンドの文脈で強調する。
次に、信頼に値するEIを最初に定義し、その重要な特徴を探求し、信頼できるEIのための多層アーキテクチャを提供する。
そして、信頼できるEIの達成を妨げる重要な課題をいくつかまとめる。
続いて、信頼できるEIシステムを実現する技術を提案し、EIの信頼性を実現するための最先端のソリューションの詳細な文献レビューを行う。
最後に、対応する研究課題とオープン課題について論じる。 Edge Intelligence (EI) integrates Edge Computing (EC) and Artificial Intelligence (AI) to push the capabilities of AI to the network edge for real-time, efficient and secure intelligent decision-making and computation. However, EI faces various challenges due to resource constraints, heterogeneous network environments, and diverse service requirements of different applications, which together affect the trustworthiness of EI in the eyes of stakeholders. This survey comprehensively summarizes the characteristics, architecture, technologies, and solutions of trustworthy EI. Specifically, we first emphasize the need for trustworthy EI in the context of the trend toward large models. We then provide an initial definition of trustworthy EI, explore its key characteristics and give a multi-layered architecture for trustworthy EI. Then, we summarize several important issues that hinder the achievement of trustworthy EI. Subsequently, we present enabling technologies for trustworthy EI systems and provide an in-depth literature review of the state-of-the-art solutions for realizing the trustworthiness of EI. Finally, we discuss the corresponding research challenges and open issues. | 翻訳日:2024-01-26 17:52:31 公開日:2024-01-25 |
# MO-YOLO: YOLOとデコーダを用いた複数物体追跡手法 MO-YOLO: End-to-End Multiple-Object Tracking Method with YOLO and Decoder ( http://arxiv.org/abs/2310.17170v2 ) ライセンス: Link先を確認 | Liao Pan and Yang Feng and Wu Di and Liu Bo and Zhang Xingle | (参考訳) マルチオブジェクトトラッキング(MOT)の分野では、最近のTransformerベースのMOTRのようなエンドツーエンドモデルは、DanceTrackerのようなデータセットでは例外的なパフォーマンスを示している。
しかし、これらのモデルの計算要求は、訓練と展開において困難を呈している。
GPTのような成功したモデルからインスピレーションを得たMO-YOLOは、効率的で計算力豊かなエンドツーエンドMOTモデルである。
MO-YOLOはYou Only Look Once (YOLO)とRT-DETRの原則を統合し、デコーダのみのアプローチを採用する。
RT-DETRのデコーダとYOLOv8のアーキテクチャコンポーネントを活用することで、MO-YOLOは高速で、トレーニング時間も短く、MOT性能も優れている。
ダンストラックでは、MO-YOLOはMOTRのパフォーマンスに匹敵するだけでなく、毎秒2倍のフレーム(MOTR 9.5 FPS、MO-YOLO 19.6 FPS)を達成した。
さらに、MO-YOLOはMOTRと比較してトレーニング時間を大幅に短縮し、ハードウェアの要求を小さくする。
本研究は,性能向上と資源効率の向上を重視した,効率的なエンドツーエンドMOTのための有望なパラダイムを提案する。 In the field of multi-object tracking (MOT), recent Transformer based end-to-end models like MOTR have demonstrated exceptional performance on datasets such as DanceTracker. However, the computational demands of these models present challenges in training and deployment. Drawing inspiration from successful models like GPT, we present MO-YOLO, an efficient and computationally frugal end-to-end MOT model. MO-YOLO integrates principles from You Only Look Once (YOLO) and RT-DETR, adopting a decoder-only approach. By leveraging the decoder from RT-DETR and architectural components from YOLOv8, MO-YOLO achieves high speed, shorter training times, and proficient MOT performance. On the Dancetrack, MO-YOLO not only matches MOTR's performance but also surpasses it, achieving over twice the frames per second (MOTR 9.5 FPS, MO-YOLO 19.6 FPS). Furthermore, MO-YOLO demonstrates significantly reduced training times and lower hardware requirements compared to MOTR. This research introduces a promising paradigm for efficient end-to-end MOT, emphasizing enhanced performance and resource efficiency. | 翻訳日:2024-01-26 17:52:15 公開日:2024-01-25 |
# RD-VIO:動的環境における移動拡張現実のためのロバスト視覚慣性オドメトリー RD-VIO: Robust Visual-Inertial Odometry for Mobile Augmented Reality in Dynamic Environments ( http://arxiv.org/abs/2310.15072v2 ) ライセンス: Link先を確認 | Jinyu Li, Xiaokun Pan, Gan Huang, Ziyang Zhang, Nan Wang, Hujun Bao, Guofeng Zhang | (参考訳) 典型的には、視覚または視覚慣性オドメトリシステムが動的シーンと純粋回転の問題を扱うのが困難である。
本研究では,これら2つの問題に対処するために,RD-VIOと呼ばれる新しい視覚慣性オドメトリー(VIO)システムを設計する。
まず,2段階プロセスにおいてキーポイントを頑健に検出し,一致させることができるIMU-PARSACアルゴリズムを提案する。
最初の状態では、ランドマークは視覚的およびIMU測定を使用して新しいキーポイントと一致します。
マッチングから統計情報を収集し,第2段階のキーポイント内マッチングを導出する。
次に, 純粋回転の問題に対処するために, 運動タイプを検知し, データ結合過程において遅延三角法を適応させる。
純粋な回転フレームを特別なサブフレームにします。
視覚-慣性束調整を解く際には、純粋回転運動にさらなる制約を与える。
提案するvioシステムをパブリックデータセット上で評価する。
実験により、RD-VIOは動的環境における他の手法よりも明らかに有利であることが示された。 It is typically challenging for visual or visual-inertial odometry systems to handle the problems of dynamic scenes and pure rotation. In this work, we design a novel visual-inertial odometry (VIO) system called RD-VIO to handle both of these two problems. Firstly, we propose an IMU-PARSAC algorithm which can robustly detect and match keypoints in a two-stage process. In the first state, landmarks are matched with new keypoints using visual and IMU measurements. We collect statistical information from the matching and then guide the intra-keypoint matching in the second stage. Secondly, to handle the problem of pure rotation, we detect the motion type and adapt the deferred-triangulation technique during the data-association process. We make the pure-rotational frames into the special subframes. When solving the visual-inertial bundle adjustment, they provide additional constraints to the pure-rotational motion. We evaluate the proposed VIO system on public datasets. Experiments show the proposed RD-VIO has obvious advantages over other methods in dynamic environments. | 翻訳日:2024-01-26 17:51:52 公開日:2024-01-25 |
# ProteusNeRF:3次元画像コンテキストを用いた高速軽量NeRF編集 ProteusNeRF: Fast Lightweight NeRF Editing using 3D-Aware Image Context ( http://arxiv.org/abs/2310.09965v2 ) ライセンス: Link先を確認 | Binglun Wang, Niladri Shekhar Dutt, Niloy J. Mitra | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、ハンドヘルドビデオ入力からでも高忠実度ボリュームコンテンツを忠実にキャプチャできるため、フォトリアリスティック・オブジェクトキャプチャの一般的な選択肢として最近登場した。
リアルタイムのトレーニングとレンダリングにつながる効率的な最適化に多くの研究が費やされているが、対話型編集の選択肢は依然として限られている。
我々は,メモリフットプリントの低さを維持しながら,高速かつ効率的なニューラルネットワークアーキテクチャを提案する。
このアーキテクチャは、ユーザーフレンドリーな画像ベースの編集を通じて徐々にガイドすることができる。
我々の表現は、訓練段階における意味的特徴蒸留による簡単なオブジェクト選択を可能にする。
より重要なことは、幾何学的および外観的調整により、細調整されたNeRFに蒸留できるビュー一貫性画像編集を容易にするために、局所的な3D対応画像コンテキストを提案することである。
テキスト誘導型NeRF編集に焦点をあてた同時作業に対して,外観と幾何学的編集を実証し,10~30倍の高速化を報告した。
ビデオ結果は、プロジェクトのWebページ(https://proteusnerf.github.io.)で見ることができる。 Neural Radiance Fields (NeRFs) have recently emerged as a popular option for photo-realistic object capture due to their ability to faithfully capture high-fidelity volumetric content even from handheld video input. Although much research has been devoted to efficient optimization leading to real-time training and rendering, options for interactive editing NeRFs remain limited. We present a very simple but effective neural network architecture that is fast and efficient while maintaining a low memory footprint. This architecture can be incrementally guided through user-friendly image-based edits. Our representation allows straightforward object selection via semantic feature distillation at the training stage. More importantly, we propose a local 3D-aware image context to facilitate view-consistent image editing that can then be distilled into fine-tuned NeRFs, via geometric and appearance adjustments. We evaluate our setup on a variety of examples to demonstrate appearance and geometric edits and report 10-30x speedup over concurrent work focusing on text-guided NeRF editing. Video results can be seen on our project webpage at https://proteusnerf.github.io. | 翻訳日:2024-01-26 17:51:37 公開日:2024-01-25 |
# 衣服操作におけるSim-to-Realギャップのベンチマーク Benchmarking the Sim-to-Real Gap in Cloth Manipulation ( http://arxiv.org/abs/2310.09543v2 ) ライセンス: Link先を確認 | David Blanco-Mulero, Oriol Barbany, Gokhan Alcan, Adri\`a Colom\'e, Carme Torras, Ville Kyrki | (参考訳) リアルな物理エンジンは、シミュレーションにおいて衣服などの変形可能な物体を操作するために重要な役割を果たす。
そうすることで、研究者は現実世界の物体の変形を感知するといった困難を回避できる。
この課題に対するシミュレーションの広範な使用にもかかわらず、変形可能なオブジェクトシミュレータと実世界のデータの間の現実のギャップを評価する研究はほとんどない。
布の操作におけるシム・トゥ・リアルギャップを評価するためのベンチマークデータセットを提案する。
データセットは、強固なテーブルとの接触を伴う準静的布操作タスクと同様に動的に実行することにより収集される。
このデータセットを用いて、MuJoCo、Bullet、Flex、SOFAの4つの一般的な変形可能なオブジェクトシミュレータの現実的ギャップ、計算時間、シミュレーション安定性を評価する。
さらに,各シミュレータの利点と欠点について考察する。
ベンチマークデータセットはオープンソースである。
補足資料、ビデオ、コードはhttps://sites.google.com/view/cloth-sim2real-benchmark.com にある。 Realistic physics engines play a crucial role for learning to manipulate deformable objects such as garments in simulation. By doing so, researchers can circumvent challenges such as sensing the deformation of the object in the realworld. In spite of the extensive use of simulations for this task, few works have evaluated the reality gap between deformable object simulators and real-world data. We present a benchmark dataset to evaluate the sim-to-real gap in cloth manipulation. The dataset is collected by performing a dynamic as well as a quasi-static cloth manipulation task involving contact with a rigid table. We use the dataset to evaluate the reality gap, computational time, and simulation stability of four popular deformable object simulators: MuJoCo, Bullet, Flex, and SOFA. Additionally, we discuss the benefits and drawbacks of each simulator. The benchmark dataset is open-source. Supplementary material, videos, and code, can be found at https://sites.google.com/view/cloth-sim2real-benchmark. | 翻訳日:2024-01-26 17:51:15 公開日:2024-01-25 |
# JM3DとJM3D-LLM:ジョイントマルチモーダルクイズを用いた3次元理解の高次化 JM3D & JM3D-LLM: Elevating 3D Understanding with Joint Multi-modal Cues ( http://arxiv.org/abs/2310.09503v3 ) ライセンス: Link先を確認 | Jiayi Ji, Haowei Wang, Changli Wu, Yiwei Ma, Xiaoshuai Sun, Rongrong Ji | (参考訳) コンピュータビジョン、自律運転、ロボット工学における3D理解の重要性の高まりは明らかである。
しかし,2次元のアライメント戦略を3次元領域へ直接移行する傾向は,(1)情報劣化:これは単に1次元の2次元画像と一般的なテキストとのアライメントから生じるものであり,マルチビュー画像や詳細なサブカテゴリテキストの必要性を無視している。
2) 不十分なシナジー: これらの戦略は3次元モデル全体の最適化を妨げ、画像とテキストの特徴を個別に3次元表現に整合させる。
3) 活用不足: 学習表現に内在する細かな情報は、しばしば十分に活用されず、詳細が失われる可能性がある。
これらの問題に対処するために、ポイントクラウド、テキスト、イメージを統合する包括的なアプローチであるJM3Dを紹介します。
SMO(Structured Multimodal Organizer)、複数のビューと階層的なテキストによる視覚言語表現の充実、および言語理解と視覚表現を組み合わせたJMA(Joint Multi-modal Alignment)などである。
我々の高度なモデルであるJM3D-LLMは、効率的な微調整により、大規模言語モデルと3D表現を結合する。
ModelNet40とScanObjectNNの評価はJM3Dの優位性を確立する。
JM3D-LLMの優れた性能は、表現伝達手法の有効性をさらに強調する。
私たちのコードとモデルはhttps://github.com/mr-neko/jm3dで利用可能です。 The rising importance of 3D understanding, pivotal in computer vision, autonomous driving, and robotics, is evident. However, a prevailing trend, which straightforwardly resorted to transferring 2D alignment strategies to the 3D domain, encounters three distinct challenges: (1) Information Degradation: This arises from the alignment of 3D data with mere single-view 2D images and generic texts, neglecting the need for multi-view images and detailed subcategory texts. (2) Insufficient Synergy: These strategies align 3D representations to image and text features individually, hampering the overall optimization for 3D models. (3) Underutilization: The fine-grained information inherent in the learned representations is often not fully exploited, indicating a potential loss in detail. To address these issues, we introduce JM3D, a comprehensive approach integrating point cloud, text, and image. Key contributions include the Structured Multimodal Organizer (SMO), enriching vision-language representation with multiple views and hierarchical text, and the Joint Multi-modal Alignment (JMA), combining language understanding with visual representation. Our advanced model, JM3D-LLM, marries 3D representation with large language models via efficient fine-tuning. Evaluations on ModelNet40 and ScanObjectNN establish JM3D's superiority. The superior performance of JM3D-LLM further underscores the effectiveness of our representation transfer approach. Our code and models are available at https://github.com/Mr-Neko/JM3D. | 翻訳日:2024-01-26 17:50:58 公開日:2024-01-25 |
# EMRデータセット間のデータ分散シフトのブリッジングによるドメイン不変な臨床表現学習 Domain-invariant Clinical Representation Learning by Bridging Data Distribution Shift across EMR Datasets ( http://arxiv.org/abs/2310.07799v2 ) ライセンス: Link先を確認 | Zhongji Zhang, Yuhang Wang, Yinghao Zhu, Xinyu Ma, Tianlong Wang, Chaohe Zhang, Yasha Wang, Liantao Ma | (参考訳) 新興疾患に関する情報が限られているため、症状の認識や認識が困難であるため、臨床介入の窓は無視できる。
適切な診断とパーソナライズされた治療計画の策定を支援するために,効果的な予後モデルが期待されている。
しかしながら、疾患の初期段階では、データ収集と臨床経験の制限と、プライバシや倫理上の懸念により、参照のためのデータ可用性が制限され、データラベルさえ正しくマークすることが困難になる可能性がある。
さらに、異なる疾患の電子カルテ(EMR)データや同一疾患の異なるソースの電子カルテ(EMR)データは、深刻なクロスデータセットの特徴的不整合の問題があり、深層学習モデルの効率を大幅に損なう可能性がある。
本稿では、ソースデータセットからターゲットデータセットへの遷移モデルを構築するためのドメイン不変表現学習手法を紹介する。
異なる領域で発生する特徴の分布シフトを制限することにより、下流タスクにのみ相対するドメイン不変な特徴をキャプチャし、様々なタスク領域にまたがる統一ドメイン不変エンコーダを育成し、より優れた特徴表現を実現する。
いくつかの目標タスクの実験結果から,提案モデルが競合するベースライン法より優れ,特に限られたデータ量を扱う場合のトレーニング収束率が高いことが示された。
新たに発生したパンデミックやその他の病気について,より正確な予測を行うための手法の有効性を,数多くの経験から証明した。 Due to the limited information about emerging diseases, symptoms are hard to be noticed and recognized, so that the window for clinical intervention could be ignored. An effective prognostic model is expected to assist doctors in making right diagnosis and designing personalized treatment plan, so to promptly prevent unfavorable outcomes. However, in the early stage of a disease, limited data collection and clinical experiences, plus the concern out of privacy and ethics, may result in restricted data availability for reference, to the extent that even data labels are difficult to mark correctly. In addition, Electronic Medical Record (EMR) data of different diseases or of different sources of the same disease can prove to be having serious cross-dataset feature misalignment problems, greatly mutilating the efficiency of deep learning models. This article introduces a domain-invariant representation learning method to build a transition model from source dataset to target dataset. By way of constraining the distribution shift of features generated in disparate domains, domain-invariant features that are exclusively relative to downstream tasks are captured, so to cultivate a unified domain-invariant encoder across various task domains to achieve better feature representation. Experimental results of several target tasks demonstrate that our proposed model outperforms competing baseline methods and has higher rate of training convergence, especially in dealing with limited data amount. A multitude of experiences have proven the efficacy of our method to provide more accurate predictions concerning newly emergent pandemics and other diseases. | 翻訳日:2024-01-26 17:50:30 公開日:2024-01-25 |
# 大型事前学習モデルを用いたゼロショットオープンボキャブラリートラッキング Zero-Shot Open-Vocabulary Tracking with Large Pre-Trained Models ( http://arxiv.org/abs/2310.06992v2 ) ライセンス: Link先を確認 | Wen-Hsuan Chu, Adam W. Harley, Pavel Tokmakov, Achal Dave, Leonidas Guibas, Katerina Fragkiadaki | (参考訳) 物体追跡はロボットの知覚とシーン理解の中心である。
トラッキングバイ検出は、特定のオブジェクトカテゴリのオブジェクトトラッキングにおいて、長い間支配的なパラダイムであった。
近年,大規模事前学習モデルでは,野生の2次元静止画像における物体や部品の検出・分割が有望な進歩を遂げている。
この大規模な事前訓練された静的画像モデルを、ボキャブラリなビデオトラッキングに再利用することは可能か?
本稿では,2dビデオ中の任意のカテゴリの物体を追跡・分割するモデルに,開語彙検出器,セグメンタ,高密度光フロー推定器を応用した。
Our method predicts object and part tracks with associated language descriptions in monocular videos, rebuilding the pipeline of Tractor with modern large pre-trained models for static image detection and segmentation: we detect open-vocabulary object instances and propagate their boxes from frame to frame using a flow-based motion model, refine the propagated boxes with the box regression module of the visual detector, and prompt an open-world segmenter with the refined box to segment the objects.
伝搬された箱の被写体性スコアと前後方向の光流の一貫性に基づいて対象トラックの終了を決定する。
深い特徴マッチングを用いて、オクルージョン間でオブジェクトを再識別する。
提案手法は,複数のビデオオブジェクトのセグメンテーションおよびトラッキングベンチマークにおいて高い性能を達成し,データ操作において妥当なトラックを生成可能であることを示す。
特に、我々のモデルは、オープンワールドのオブジェクト追跡とセグメンテーションのためのベンチマークであるUVOとBURSTのこれまでの最先端よりも優れています。
われわれのアプローチが、将来の研究のためのシンプルで拡張可能なフレームワークになり得ることを願っている。 Object tracking is central to robot perception and scene understanding. Tracking-by-detection has long been a dominant paradigm for object tracking of specific object categories. Recently, large-scale pre-trained models have shown promising advances in detecting and segmenting objects and parts in 2D static images in the wild. This begs the question: can we re-purpose these large-scale pre-trained static image models for open-vocabulary video tracking? In this paper, we re-purpose an open-vocabulary detector, segmenter, and dense optical flow estimator, into a model that tracks and segments objects of any category in 2D videos. Our method predicts object and part tracks with associated language descriptions in monocular videos, rebuilding the pipeline of Tractor with modern large pre-trained models for static image detection and segmentation: we detect open-vocabulary object instances and propagate their boxes from frame to frame using a flow-based motion model, refine the propagated boxes with the box regression module of the visual detector, and prompt an open-world segmenter with the refined box to segment the objects. We decide the termination of an object track based on the objectness score of the propagated boxes, as well as forward-backward optical flow consistency. We re-identify objects across occlusions using deep feature matching. We show that our model achieves strong performance on multiple established video object segmentation and tracking benchmarks, and can produce reasonable tracks in manipulation data. In particular, our model outperforms previous state-of-the-art in UVO and BURST, benchmarks for open-world object tracking and segmentation, despite never being explicitly trained for tracking. We hope that our approach can serve as a simple and extensible framework for future research. | 翻訳日:2024-01-26 17:50:03 公開日:2024-01-25 |
# 三面ハイブリッドニューラルフィールドのニューラルプロセッシング Neural Processing of Tri-Plane Hybrid Neural Fields ( http://arxiv.org/abs/2310.01140v2 ) ライセンス: Link先を確認 | Adriano Cardace, Pierluigi Zama Ramirez, Francesco Ballerini, Allan Zhou, Samuele Salti, Luigi Di Stefano | (参考訳) 3Dデータの保存と通信のためのニューラルネットワークの魅力によって、分類や部分分割といったタスクに対処するための直接処理の問題が出現し、近年研究が進められている。
初期のアプローチでは、データセット全体でトレーニングされた共有ネットワークによってパラメータ化されたニューラルネットワークを採用し、優れたタスクパフォーマンスを実現しつつ、再構成品質を犠牲にしている。
後者の改良のために、後の手法では、大きな多層パーセプトロン(mlps)としてパラメータ化された個々の神経場に焦点を当てているが、重み空間の高次元、内在的な重み空間対称性、ランダム初期化に対する感受性のため、処理が困難である。
したがって、ポイントクラウドやメッシュといった明示的な表現を処理することで得られる結果よりも、結果が著しく劣ることがわかった。
一方、特に三面体に基づくハイブリッド表現は、ニューラルネットワークを実現するためのより効率的で効率的な代替手段として現れてきたが、その直接処理はまだ研究されていない。
本稿では,三平面離散データ構造がリッチな情報を符号化し,標準ディープラーニング機械で効果的に処理できることを示す。
我々は、占有率、符号付き/符号なし距離、および初めて放射場などの様々な分野をカバーする広範囲なベンチマークを定義する。
同じ再構成品質のフィールドを処理する一方で、大規模なMLPを処理するフレームワークよりもはるかに優れたタスク性能を実現しています。 Driven by the appealing properties of neural fields for storing and communicating 3D data, the problem of directly processing them to address tasks such as classification and part segmentation has emerged and has been investigated in recent works. Early approaches employ neural fields parameterized by shared networks trained on the whole dataset, achieving good task performance but sacrificing reconstruction quality. To improve the latter, later methods focus on individual neural fields parameterized as large Multi-Layer Perceptrons (MLPs), which are, however, challenging to process due to the high dimensionality of the weight space, intrinsic weight space symmetries, and sensitivity to random initialization. Hence, results turn out significantly inferior to those achieved by processing explicit representations, e.g., point clouds or meshes. In the meantime, hybrid representations, in particular based on tri-planes, have emerged as a more effective and efficient alternative to realize neural fields, but their direct processing has not been investigated yet. In this paper, we show that the tri-plane discrete data structure encodes rich information, which can be effectively processed by standard deep-learning machinery. We define an extensive benchmark covering a diverse set of fields such as occupancy, signed/unsigned distance, and, for the first time, radiance fields. While processing a field with the same reconstruction quality, we achieve task performance far superior to frameworks that process large MLPs and, for the first time, almost on par with architectures handling explicit representations. | 翻訳日:2024-01-26 17:49:17 公開日:2024-01-25 |
# 赤外線検出における身体的対人パッチ攻撃の予防 Defending Against Physical Adversarial Patch Attacks on Infrared Human Detection ( http://arxiv.org/abs/2309.15519v2 ) ライセンス: Link先を確認 | Lukas Strack, Futa Waseda, Huy H. Nguyen, Yinqiang Zheng, and Isao Echizen | (参考訳) 赤外線検出は、その顕著な対干渉能力により、安全クリティカルなタスクの新興技術である。
しかし、最近の研究では、物理的に実現可能な敵パッチに弱いことが判明し、現実世界の応用にリスクが生じる。
この問題に対処するため,我々は赤外線検知,特に人間検出における敵対的パッチ攻撃に対する防衛戦略を初めて調査する。
本研究では,無作為なパッチで効率的にトレーニングサンプルを増強し,その後に検出するパッチベースオクルージョンアウェア検出(pod)という,簡単な防御戦略を考案した。
PODは人を堅牢に検出するだけでなく、敵のパッチ位置も特定する。
驚くべきことに、非常に計算効率が高いpodは、トレーニング中に目に見えない最先端のパッチ攻撃に簡単に一般化する。
さらに、PODは、データ増強効果によるクリーンな(すなわち無攻撃)状況においても検出精度を向上させる。
PODは様々な形状や大きさの逆パッチに対して堅牢であることを示した。
本手法の有効性は,実世界の赤外線検知システムにおいて有効な防御機構であることが示され,今後の研究の方向性を探るための道筋を拓いている。 Infrared detection is an emerging technique for safety-critical tasks owing to its remarkable anti-interference capability. However, recent studies have revealed that it is vulnerable to physically-realizable adversarial patches, posing risks in its real-world applications. To address this problem, we are the first to investigate defense strategies against adversarial patch attacks on infrared detection, especially human detection. We have devised a straightforward defense strategy, patch-based occlusion-aware detection (POD), which efficiently augments training samples with random patches and subsequently detects them. POD not only robustly detects people but also identifies adversarial patch locations. Surprisingly, while being extremely computationally efficient, POD easily generalizes to state-of-the-art adversarial patch attacks that are unseen during training. Furthermore, POD improves detection precision even in a clean (i.e., no-attack) situation due to the data augmentation effect. Evaluation demonstrated that POD is robust to adversarial patches of various shapes and sizes. The effectiveness of our baseline approach is shown to be a viable defense mechanism for real-world infrared human detection systems, paving the way for exploring future research directions. | 翻訳日:2024-01-26 17:48:50 公開日:2024-01-25 |
# 提案要求に対するオープンデータ駆動チーム推奨によるリサーチコラボレーションの促進 Promoting Research Collaboration with Open Data Driven Team Recommendation in Response to Call for Proposals ( http://arxiv.org/abs/2309.09404v5 ) ライセンス: Link先を確認 | Siva Likitha Valluru, Biplav Srivastava, Sai Teja Paladi, Siwen Yan, Sriraam Natarajan | (参考訳) チームの構築とコラボレーションの促進は2つの非常に一般的なビジネス活動です。
例えばteamingforfunding問題では、研究機関や研究者が、後者の提案に応じて資金提供機関に申し込む際の協力的な機会を特定することに関心を持っている。
本稿では,(1)各チームが,その機会に要求される最高のスキルカバレッジを達成し,(2)その機会を分配する作業負荷が,候補メンバー間でバランスをとるような,さまざまなAI手法を用いてチームを推薦するシステムについて述べる。
我々は,提案コール(需要)と研究者プロファイル(供給)のオープンデータに潜んでいるスキルを抽出し,分類法を用いてそれらを正規化し,供給需要にマッチする効率的なアルゴリズムを作成することで,これらの疑問に対処した。
短期と長期の目標のバランスをとる新しいメトリクスに沿って、良さを最大化するチームを作ります。
我々は,(1) アルゴリズムの成功を定量的に検証し,(1) 優れたスコアを用いて推奨チームを評価し,より情報のある手法がより少ない人数のチームの推薦につながること,(2) 大学レベルの大規模ユーザスタディを実施することによって質的に,そのツールが極めて有用かつ関連性の高いものであることを示す。
最後に,我々のアプローチの汎用性を確立するために,米国とインド(研究者と提案コール)の2つの異なる環境でシステムを評価し,日常的な使用のために米国の主要大学に展開する。 Building teams and promoting collaboration are two very common business activities. An example of these are seen in the TeamingForFunding problem, where research institutions and researchers are interested to identify collaborative opportunities when applying to funding agencies in response to latter's calls for proposals. We describe a novel system to recommend teams using a variety of AI methods, such that (1) each team achieves the highest possible skill coverage that is demanded by the opportunity, and (2) the workload of distributing the opportunities is balanced amongst the candidate members. We address these questions by extracting skills latent in open data of proposal calls (demand) and researcher profiles (supply), normalizing them using taxonomies, and creating efficient algorithms that match demand to supply. We create teams to maximize goodness along a novel metric balancing short- and long-term objectives. We validate the success of our algorithms (1) quantitatively, by evaluating the recommended teams using a goodness score and find that more informed methods lead to recommendations of smaller number of teams but higher goodness, and (2) qualitatively, by conducting a large-scale user study at a college-wide level, and demonstrate that users overall found the tool very useful and relevant. Lastly, we evaluate our system in two diverse settings in US and India (of researchers and proposal calls) to establish generality of our approach, and deploy it at a major US university for routine use. | 翻訳日:2024-01-26 17:48:33 公開日:2024-01-25 |
# BCI MIデコードのための強力でシンプルなディープラーニングベースライン A Strong and Simple Deep Learning Baseline for BCI MI Decoding ( http://arxiv.org/abs/2309.07159v2 ) ライセンス: Link先を確認 | Yassine El Ouahidi, Vincent Gripon, Bastien Pasdeloup, Ghaith Bouallegue, Nicolas Farrugia and Giulia Lioi | (参考訳) BCIにおける運動画像復号のための1次元畳み込みニューラルネットワークであるEEG-SimpleConvを提案する。
我々の主な動機は、文献の非常に標準的な材料のみを用いて、比較するためのシンプルで実行可能なベースラインを提案することである。
シミュレーションオンラインセットアップを含む4つの脳波運動画像データセットでその性能を評価し,最近のディープラーニングおよび機械学習アプローチと比較した。
EEG-SimpleConvは、他のアプローチよりも少なくとも良い、あるいははるかに効率的であり、推論時間の低いコストで、被験者間で強力な知識伝達能力を示す。
アドホックなソリューションではなく、市販の材料を使うことは、bciにディープラーニングのアプローチを採用するのに大いに役立つ、と私たちは主張している。
モデルと実験のコードをアクセス可能にします。 We propose EEG-SimpleConv, a straightforward 1D convolutional neural network for Motor Imagery decoding in BCI. Our main motivation is to propose a simple and performing baseline to compare to, using only very standard ingredients from the literature. We evaluate its performance on four EEG Motor Imagery datasets, including simulated online setups, and compare it to recent Deep Learning and Machine Learning approaches. EEG-SimpleConv is at least as good or far more efficient than other approaches, showing strong knowledge-transfer capabilities across subjects, at the cost of a low inference time. We advocate that using off-the-shelf ingredients rather than coming with ad-hoc solutions can significantly help the adoption of Deep Learning approaches for BCI. We make the code of the models and the experiments accessible. | 翻訳日:2024-01-26 17:47:47 公開日:2024-01-25 |
# プロパゲータのFeynman-Dyson図形摂動膨張の非収束性 Nonconvergence of the Feynman-Dyson diagrammatic perturbation expansion of propagators ( http://arxiv.org/abs/2312.03157v6 ) ライセンス: Link先を確認 | So Hirata, Ireneusz Grabowski, J. V. Ortiz, Rodney J. Bartlett | (参考訳) 分子の一般多体グリーン関数法を用いて、1粒子多体グリーン関数のファインマン・ダイソン図形摂動膨張のいくつかの病理学的挙動を数値的に説明する。
(i)周波数依存性の自己エネルギーの摂動膨張は多くの周波数領域において正確な自己エネルギーに収束しない。
二) 奇摂次自己エネルギーは定性的に間違った形状であり、その結果、対応するダイソン方程式の多くの根は、極が複雑であるか、残基が一元を超えたり、負になったりする、非物理的である。
3) 等階自己エネルギーを持つダイソン方程式は、電子相関効果を考慮に入れないゼロ階平均場理論の軌道エネルギー差にエネルギーが近づいた根を持つ。
(4)頂点あるいは辺再正規化による図形の無限部分和はこれらの問題を悪化させる。
これらの非コンバージェンスにより、多くの低次イオン化や高次電子結合根では役に立たない高次ファインマン・ダイソン図式摂動理論が実現されるだけでなく、全ての極と残基の知識を必要とする ans\"{a}tze と組み合わせた使用の妥当性も疑問視される。
このような ans\"{a}tze には、ガリツキー・ミグダル恒等式、自己整合グリーン関数法、代数図形構成のモデルなどがある。 Using a general-order many-body Green's-function method for molecules, we numerically illustrate several pathological behaviors of the Feynman-Dyson diagrammatic perturbation expansion of one-particle many-body Green's functions as electron Feynman propagators. (i) The perturbation expansion of the frequency-dependent self-energy is not convergent at the exact self-energy in many frequency domains. (ii) An odd-perturbation-order self-energy has a qualitatively wrong shape and, as a result, many roots of the corresponding Dyson equation are nonphysical in that the poles may be complex or the residues can exceed unity or be negative. (iii) The Dyson equation with an even-order self-energy has roots whose energies approach sheer orbital energy differences of the zeroth-order mean-field theory with little to no electron-correlation effects taken into account. (iv) Infinite partial summation of diagrams by vertex or edge renormalization can exacerbate these problems. Not only do these nonconvergences render higher-order Feynman-Dyson diagrammatic perturbation theory useless for many lower-lying ionization or higher-lying electron-attachment roots, but they also call into question the validity of its combined use with the ans\"{a}tze requiring the knowledge of all poles and residues. Such ans\"{a}tze include the Galitskii-Migdal identity, the self-consistent Green's-function methods, and some models of the algebraic diagrammatic construction. | 翻訳日:2024-01-26 17:40:44 公開日:2024-01-25 |
# 知覚的グループトケナイザ:反復的グループ化による知覚の構築 Perceptual Group Tokenizer: Building Perception with Iterative Grouping ( http://arxiv.org/abs/2311.18296v2 ) ライセンス: Link先を確認 | Zhiwei Deng, Ting Chen, Yang Li | (参考訳) 人間の視覚認識システムは、ラベルの監督なしに、リッチな表現を含むトークンの集合に視覚情報を圧縮する驚くべき能力を示す。
その背後にある重要な駆動原理の1つは知覚的グループ化である。
2010年代初頭にコンピュータビジョンで広く使われているが、知覚的グループ化が強力な表現を生み出す神経視覚認識のバックボーンを導き出すことができるかどうかは謎のままである。
本稿では,視覚特徴を抽出し,自己教師あり表現学習を行うためのグループ化操作に完全に依存するモデルである知覚型グループトークン化器を提案する。
提案モデルでは,最先端の視覚アーキテクチャと比較して競争性能が向上し,再学習を伴わない適応計算や解釈可能性など,望ましい特性を継承できることを示す。
具体的には、Perceptual Group Tokenizerは、線形プローブ評価によるImageNet-1K自己教師型学習ベンチマークで80.3%を達成した。 Human visual recognition system shows astonishing capability of compressing visual information into a set of tokens containing rich representations without label supervision. One critical driving principle behind it is perceptual grouping. Despite being widely used in computer vision in the early 2010s, it remains a mystery whether perceptual grouping can be leveraged to derive a neural visual recognition backbone that generates as powerful representations. In this paper, we propose the Perceptual Group Tokenizer, a model that entirely relies on grouping operations to extract visual features and perform self-supervised representation learning, where a series of grouping operations are used to iteratively hypothesize the context for pixels or superpixels to refine feature representations. We show that the proposed model can achieve competitive performance compared to state-of-the-art vision architectures, and inherits desirable properties including adaptive computation without re-training, and interpretability. Specifically, Perceptual Group Tokenizer achieves 80.3% on ImageNet-1K self-supervised learning benchmark with linear probe evaluation, marking a new progress under this paradigm. | 翻訳日:2024-01-26 17:39:57 公開日:2024-01-25 |
# IA-LSTM:歩行者軌道予測のための対話型LSTM IA-LSTM: Interaction-Aware LSTM for Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2311.15193v2 ) ライセンス: Link先を確認 | Yuehai Chen | (参考訳) 群衆シナリオにおける歩行者の軌道予測は、衝突を避けるための政策決定に有用であるため、自動運転や自律移動ロボット分野において不可欠である。
人間には異なる歩行運動があり、現在の環境における人間と物体、特に人間自身との相互作用は複雑であるため、これは難しい問題である。
以前の研究者は人間と人間の相互作用をモデル化する方法に注目したが、相互作用の相対的重要性は無視していた。
この問題に対処するために,コレントロピーに基づく新しいメカニズムを導入する。
提案手法は人間と人間の相互作用の相対的重要性を計測できるだけでなく,歩行者ごとの空間を構築できる。
このデータ駆動機構を含む相互作用モジュールも提案されている。
提案するモジュールにおいて,データ駆動機構はシーン内の動的人間-人間の相互作用の特徴表現を効果的に抽出し,対応する重みを計算し,異なる相互作用の重要性を表わす。
このようなソーシャルメッセージを歩行者間で共有するために、軌跡予測のための長期記憶ネットワークに基づく対話型アーキテクチャを設計する。
2つの公開データセットで実験が行われる。
実験結果から,本モデルでは性能が向上した複数の手法よりも優れた性能が得られることが示された。 Predicting the trajectory of pedestrians in crowd scenarios is indispensable in self-driving or autonomous mobile robot field because estimating the future locations of pedestrians around is beneficial for policy decision to avoid collision. It is a challenging issue because humans have different walking motions, and the interactions between humans and objects in the current environment, especially between humans themselves, are complex. Previous researchers focused on how to model human-human interactions but neglected the relative importance of interactions. To address this issue, a novel mechanism based on correntropy is introduced. The proposed mechanism not only can measure the relative importance of human-human interactions but also can build personal space for each pedestrian. An interaction module including this data-driven mechanism is further proposed. In the proposed module, the data-driven mechanism can effectively extract the feature representations of dynamic human-human interactions in the scene and calculate the corresponding weights to represent the importance of different interactions. To share such social messages among pedestrians, an interaction-aware architecture based on long short-term memory network for trajectory prediction is designed. Experiments are conducted on two public datasets. Experimental results demonstrate that our model can achieve better performance than several latest methods with good performance. | 翻訳日:2024-01-26 17:39:38 公開日:2024-01-25 |
# General Phrase Debiaser:マルチトークンレベルでのマスク言語モデルのデバイアス General Phrase Debiaser: Debiasing Masked Language Models at a Multi-Token Level ( http://arxiv.org/abs/2311.13892v3 ) ライセンス: Link先を確認 | Bingkang Shi, Xiaodan Zhang, Dehan Kong, Yulei Wu, Zongzhen Liu, Honglei Lyu, Longtao Huang | (参考訳) 事前訓練された言語モデルによって明らかになった社会的バイアスと不適切なステレオタイプは、彼らの応用の障害になりつつある。
単語レベルを対象とする多くのデバイアス化手法と比較して、フレーズレベルに存在するバイアスに対する関心は比較的少なく、規律領域におけるデバイアス化のパフォーマンスが制限されている。
本稿では,マスキング言語モデルにおける句レベルの偏りを緩和できる「textbf{ General Phrase Debiaser}」と呼ばれる自動多言語脱バイアスパイプラインを提案する。
具体的には、wikipediaページから定型的なフレーズを生成する \textit{phrase filter stage} と、複数トケンレベルでモデルをデバイアスし、フレーズのバイアス課題に取り組む \textit{model debias stage} からなる。
後者はモデルのバイアスをトリガーするプロンプトを検索し、デバイアスに使用する。
標準データセットとメトリクスの最先端結果から、我々のアプローチは、様々なパラメータサイズを持つモデル間で、キャリアと複数の規律の両方における性別バイアスを著しく低減できることを示している。 The social biases and unwelcome stereotypes revealed by pretrained language models are becoming obstacles to their application. Compared to numerous debiasing methods targeting word level, there has been relatively less attention on biases present at phrase level, limiting the performance of debiasing in discipline domains. In this paper, we propose an automatic multi-token debiasing pipeline called \textbf{General Phrase Debiaser}, which is capable of mitigating phrase-level biases in masked language models. Specifically, our method consists of a \textit{phrase filter stage} that generates stereotypical phrases from Wikipedia pages as well as a \textit{model debias stage} that can debias models at the multi-token level to tackle bias challenges on phrases. The latter searches for prompts that trigger model's bias, and then uses them for debiasing. State-of-the-art results on standard datasets and metrics show that our approach can significantly reduce gender biases on both career and multiple disciplines, across models with varying parameter sizes. | 翻訳日:2024-01-26 17:39:04 公開日:2024-01-25 |
# penrose tilingは、量子誤り訂正符号である The Penrose Tiling is a Quantum Error-Correcting Code ( http://arxiv.org/abs/2311.13040v2 ) ライセンス: Link先を確認 | Zhi Li, Latham Boyle | (参考訳) ペンローズ・ティリング (penrose tiling, pt) は、本質的に非周期的に平面をタイル化する方法であり、多くの顕著な性質を持つ。
量子誤り訂正符号(Quantum error-correcting code, QECC)は、量子情報をノイズから保護するための巧妙な方法である。
PTとQECCは全く無関係に思えるかもしれないが、本論文では、PTが驚くべき新しいタイプのQECCをもたらす(あるいはある意味では)ことを指摘している。
このコードでは、量子情報は量子幾何学を通じてエンコードされ、どんなに大きくてもあらゆる有限領域の局所的エラーや消去は診断され、修正される。
また、このコード(ammann-beenker と fibonacci tilings に基づく)の変種も構築し、有限空間トーラス、離散スピン系、あるいは任意の数の空間次元で生きることができる。
量子コンピューティング、凝縮物質物理学、量子重力との関係について論じる。 The Penrose tiling (PT) is an intrinsically non-periodic way of tiling the plane, with many remarkable properties. A quantum error-correcting code (QECC) is a clever way of protecting quantum information from noise, by encoding the information with a sophisticated type of redundancy. Although PTs and QECCs might seem completely unrelated, in this paper we point out that PTs give rise to (or, in a sense, are) a remarkable new type of QECC. In this code, quantum information is encoded through quantum geometry, and any local errors or erasures in any finite region, no matter how large, may be diagnosed and corrected. We also construct variants of this code (based on the Ammann-Beenker and Fibonacci tilings) that can live on finite spatial tori, in discrete spin systems, or in an arbitrary number of spatial dimensions. We discuss connections to quantum computing, condensed matter physics, and quantum gravity. | 翻訳日:2024-01-26 17:38:43 公開日:2024-01-25 |
# AGIシステムのためのメタプロンプティング Meta Prompting for AGI Systems ( http://arxiv.org/abs/2311.11482v2 ) ライセンス: Link先を確認 | Yifan Zhang | (参考訳) 本稿では,大規模言語モデル(llms),マルチモーダル基礎モデル,およびaiシステムを用いた問題解決とデータ解釈の革新的手法であるメタプロンプトの包括的研究について述べる。
型理論とカテゴリ理論に基礎を置き、メタプロンピングは従来のコンテンツ中心の手法よりも情報の構造と構文を強調している。
本稿では,メタプロンプティング(MP)の形式的定義を探求し,Few-Shot Promptingとは分離し,さまざまなAIアプリケーションにおけるその有効性を明らかにする。
重要な焦点はメタプロンプトを複雑な推論タスクに拡張することであり、複雑な問題をより単純なサブ問題に効果的に分解する方法を示し、トークン効率を高め、より公平な問題解決の比較を可能にする。
さらに,本論文では,Prompting TasksのためのMeta Promptingを導入し,LCMが反復的,メタプログラミング的な方法で新たなプロンプトを自己生成できるようにする。
この革新的なアプローチは、AIの自律的かつ適応的な能力を大きく飛躍させる。
また,Meta Promptingをマルチモーダル基盤モデル設定に統合し,画像やオーディオ,ビデオなどのさまざまなデータタイプを構造化されたMeta Promptingフレームワークに組み込む上での課題と機会に対処する。
(コードはhttps://github.com/meta-prompting/meta-promptingで利用可能)。 This paper presents a comprehensive study of Meta Prompting, an innovative technique reshaping the utilization of large language models (LLMs), multi-modal foundation models, and AI systems in problem-solving and data interpretation. Grounded in type theory and category theory, Meta Prompting emphasizes the structure and syntax of information over traditional content-centric methods. The paper explores the formal definitions of Meta Prompting (MP), sets it apart from Few-Shot Prompting, and underlines its effectiveness in various AI applications. A key focus is on extending Meta Prompting to complex reasoning tasks, showing how it effectively deconstructs intricate problems into simpler sub-problems, enhancing token efficiency and enabling more equitable problem-solving comparisons, especially against few-shot example methods. Additionally, the paper introduces Meta Prompting for Prompting Tasks, allowing LLMs to self-generate new prompts in an iterative, metaprogramming-like manner. This innovative approach marks a significant leap in AI's autonomous and adaptive capabilities. The paper also pioneers the integration of Meta Prompting into multi-modal foundation model settings, tackling the challenges and opportunities of incorporating varied data types such as images, audio, and video within the structured Meta Prompting framework. (The code is available at https://github.com/meta-prompting/meta-prompting) | 翻訳日:2024-01-26 17:38:23 公開日:2024-01-25 |
# 正の依存下での複数検定に対する強力なランクベース補正 A powerful rank-based correction to multiple testing under positive dependency ( http://arxiv.org/abs/2311.10900v2 ) ライセンス: Link先を確認 | Alexander Timans, Christoph-Nikolas Straehle, Kaspar Sakmann, Eric Nalisnick | (参考訳) 本研究では, 統計的に相関する確率的仮説テスト間の正の依存関係を効率的に活用するFWER制御を用いた新しい多重仮説検定法を開発した。
提案アルゴリズムである$\texttt{max-rank}$ は,計算されたテスト統計のランク領域における$\max$-operator の使用に依拠して,概念上はストレートフォワードである。
ボニフェロニ補正に対する我々のアプローチと比較し、既存の正の依存の場合のボニフェロニの優位性とその同値性について理論的および実証的に証明する。
ボンフェロニに対する我々の優位性は、テストの数が増えるにつれて増大し、FWER制御を確保しながら高い統計力を維持する。
複雑な予測環境における不確かさを定量化する手法として,共形予測を主応用するシナリオとして,並列置換テストの文脈でアルゴリズムを具体的に構成する。 We develop a novel multiple hypothesis testing correction with family-wise error rate (FWER) control that efficiently exploits positive dependencies between potentially correlated statistical hypothesis tests. Our proposed algorithm $\texttt{max-rank}$ is conceptually straight-forward, relying on the use of a $\max$-operator in the rank domain of computed test statistics. We compare our approach to the frequently employed Bonferroni correction, theoretically and empirically demonstrating its superiority over Bonferroni in the case of existing positive dependency, and its equivalence otherwise. Our advantage over Bonferroni increases as the number of tests rises, and we maintain high statistical power whilst ensuring FWER control. We specifically frame our algorithm in the context of parallel permutation testing, a scenario that arises in our primary application of conformal prediction, a recently popularized approach for quantifying uncertainty in complex predictive settings. | 翻訳日:2024-01-26 17:37:57 公開日:2024-01-25 |
# ドローンの短期対長期協調:分散最適化が深層強化学習と出会うとき Short vs. Long-term Coordination of Drones: When Distributed Optimization Meets Deep Reinforcement Learning ( http://arxiv.org/abs/2311.09852v2 ) ライセンス: Link先を確認 | Chuhao Qin and Evangelos Pournaras | (参考訳) リチャージ技術をサポートする自律型インタラクティブドローンの群れは、交通監視や災害対応といったスマートシティーに魅力的なセンシング機能を提供する。
分散最適化と深層強化学習(DRL)を含む既存のアプローチは、コスト効率が高く高品質なナビゲーション、センシング、充電を実現するためにドローンを調整することを目的としている。
短期最適化は予期せぬ変更を伴う動的環境では有効ではないが、長期学習にはスケーラビリティ、レジリエンス、柔軟性が欠けている。
このギャップを埋めるため,本稿では,分散最適化に基づく短期計画生成と選択と,飛行方向のdrlに基づく長期戦略スケジューリングを組み合わせた新しい手法を提案する。
リアルな都市モビリティから生成されたデータセットの広範な実験は、最先端のソリューションに比べて優れた性能を示している。
また、さまざまなセンシングミッションにおけるドローン密度の役割、ドローン運用のエネルギー安全性、充電インフラの重要な場所に対する投資の優先順位付けについて、新たな洞察を与えています。 Swarms of autonomous interactive drones, with the support of recharging technology, can provide compelling sensing capabilities in Smart Cities, such as traffic monitoring and disaster response. Existing approaches, including distributed optimization and deep reinforcement learning (DRL), aim to coordinate drones to achieve cost-effective, high-quality navigation, sensing, and charging. However, they face grand challenges: short-term optimization is not effective in dynamic environments with unanticipated changes, while long-term learning lacks scalability, resilience, and flexibility. To bridge this gap, this paper introduces a new progressive approach that combines short-term plan generation and selection based on distributed optimization with a DRL-based long-term strategic scheduling of flying direction. Extensive experimentation with datasets generated from realistic urban mobility underscores an outstanding performance of the proposed solution compared to state-of-the-art. We also provide compelling new insights about the role of drones density in different sensing missions, the energy safety of drone operations and how to prioritize investments for key locations of charging infrastructure. | 翻訳日:2024-01-26 17:37:36 公開日:2024-01-25 |
# 2D-RC:OTFSシンボル検出のための2次元ニューラルネットワークアプローチ 2D-RC: Two-Dimensional Neural Network Approach for OTFS Symbol Detection ( http://arxiv.org/abs/2311.08543v2 ) ライセンス: Link先を確認 | Jiarui Xu, Karim Said, Lizhong Zheng, and Lingjia Liu | (参考訳) 直交時間周波数空間(OTFS)は、高移動度シナリオにおける無線通信のための有望な変調方式である。
近年,ota(over-the-air-air)パイロットシンボルが限られた数しか使用されていないotfsシステムにおいて,オンラインサブフレームに基づくシンボル検出のためのリザーバコンピューティング(rc)が導入された。
しかし、このアプローチはOTFSシステム固有のドメイン知識を活用せず、RCの可能性を完全に解放する。
本稿では,OTFSシステムのドメイン知識をオンラインサブフレーム方式でシンボル検出の設計に組み込んだ2次元RC(2D-RC)手法を提案する。
具体的には、遅延ドップラー(DD)領域におけるチャネル相互作用は2次元(2次元)の円形操作であるため、2D-RCは2次元の円パディング手順と2次元のフィルタリング構造を持つように設計されている。
導入されたアーキテクチャでは、2d-rcは単一のニューラルネットワークだけでddドメインで動作でき、以前の作業のように複数のrcsを必要とせず、時間領域のチャネル変動を追跡できる。
数値実験により,従来のRC方式に比べて2D-RC方式の利点を実証し,OTFS系と変調順序の異なるモデルベース手法との比較を行った。 Orthogonal time frequency space (OTFS) is a promising modulation scheme for wireless communication in high-mobility scenarios. Recently, a reservoir computing (RC) based approach has been introduced for online subframe-based symbol detection in the OTFS system, where only a limited number of over-the-air (OTA) pilot symbols are utilized for training. However, this approach does not leverage the domain knowledge specific to the OTFS system to fully unlock the potential of RC. This paper introduces a novel two-dimensional RC (2D-RC) method that incorporates the domain knowledge of the OTFS system into the design for symbol detection in an online subframe-based manner. Specifically, as the channel interaction in the delay-Doppler (DD) domain is a two-dimensional (2D) circular operation, the 2D-RC is designed to have the 2D circular padding procedure and the 2D filtering structure to embed this knowledge. With the introduced architecture, 2D-RC can operate in the DD domain with only a single neural network, instead of necessitating multiple RCs to track channel variations in the time domain as in previous work. Numerical experiments demonstrate the advantages of the 2D-RC approach over the previous RC-based approach and compared model-based methods across different OTFS system variants and modulation orders. | 翻訳日:2024-01-26 17:37:18 公開日:2024-01-25 |
# 真の多部交絡状態のネットワークアシスト自由自己検定 Network-assist free self-testing of genuine multipartite entangled states ( http://arxiv.org/abs/2311.07266v2 ) ライセンス: Link先を確認 | Ranendu Adhikary, Abhishek Mishra and Ramij Rahaman | (参考訳) セルフテストは、デバイスに依存しない方法で量子状態と測定を認証する方法である。
デバイスに依存しない量子特性の認証は、内部動作に関する最小限の知識を持つ関係するデバイスの入力出力測定統計に基づいている。
両部純絡み状態は自己テスト可能であるが、多部純絡状態の場合、その答えはそれほど単純ではない。
それにもかかわらず、 \v{s}upi\'{c}らは最近、ネットワーク支援を利用して二成分の絡み合った測定に依存する、純粋な絡み合った量子状態に対する新しい自己テスト法を導入した。
したがって、これらのスキームは真のデバイスに依存しない自己テストのフレーバーを失う。
この点に関して、一般化されたハーディ型非局所論法を用いて、真の多部的純粋絡み合い状態に対する自己検証スキームを提供する。
本手法は,局所的な操作と古典的通信のみを対象とし,両部交絡測定に依存せず,ネットワーク支援も不要である。
さらに,一般化ハーディ型非局所性引数に対して,成功の最大確率をデバイスに依存しない境界を与える。 Self-testing is a method to certify quantum states and measurements in a device-independent way. The device-independent certification of quantum properties is purely based on input-output measurement statistics of the involved devices with minimal knowledge about their internal workings. Bipartite pure entangled states can be self-tested, but, in the case of multipartite pure entangled states, the answer is not so straightforward. Nevertheless, \v{S}upi\'{c} et al. recently introduced a novel self-testing method for any pure entangled quantum state, which leverages network assistance and relies on bipartite entangled measurements. Hence, their scheme loses the true device-independent flavor of self-testing. In this regard, we provide a self-testing scheme for genuine multipartite pure entangle states in the true sense by employing a generalized Hardy-type non-local argument. Our scheme involves only local operations and classical communications and does not depend on bipartite entangled measurements and is free from any network assistance. In addition, we provide the device-independent bound of the maximum probability of success for generalized Hardy-type nonlocality argument. | 翻訳日:2024-01-26 17:36:55 公開日:2024-01-25 |
# メタ学習による大規模言語モデルの大量編集 Massive Editing for Large Language Models via Meta Learning ( http://arxiv.org/abs/2311.04661v3 ) ライセンス: Link先を確認 | Chenmien Tan and Ge Zhang and Jie Fu | (参考訳) 大規模言語モデル(LLM)は、事前学習したコーパスから学習知識を可能にする一方で、習得した知識は時間とともに根本的に誤りまたは時代遅れになり、訓練後に言語モデル(LM)の知識を修正する必要がある。
有望なアプローチはパラメータシフトを生成するためにハイパーネットワークを使用するのに対して、既存のハイパーネットワークは同期編集操作量においてスケーラビリティが劣る。
この問題を軽減するために,パラメータシフト集約を最小二乗問題として定式化し,次に正規方程式を用いてLMパラメータを更新するMassive Language Model Editing Network (MALMEN)を提案する。
限られたメモリ予算で複数の事実を同時に編集できるように、ハイパーネットワークとlmの計算を分離し、両方のニューラルネットワークの任意のバッチサイズを可能にした。
本手法は,異なるアーキテクチャ,すなわちBERTベース,GPT-2,T5-XL (2.8B),GPT-J (6B) を用いて,様々な知識集約型NLPタスク,すなわちクローズドブックのファクトチェックと質問応答を用いて,最大数千の事実をLM上で編集することによって評価する。
驚くべきことに、malmenは、gpt用に特別に設計された同一のハイパーネットワークアーキテクチャとより強力なベースラインよりも数百倍の事実を編集できる。
私たちのコードはhttps://github.com/ChenmienTan/malmen.comから入手可能です。 While large language models (LLMs) have enabled learning knowledge from the pre-training corpora, the acquired knowledge may be fundamentally incorrect or outdated over time, which necessitates rectifying the knowledge of the language model (LM) after the training. A promising approach involves employing a hyper-network to generate parameter shift, whereas existing hyper-networks suffer from inferior scalability in synchronous editing operation amount. To mitigate the problem, we propose the MAssive Language Model Editing Network (MALMEN), which formulates the parameter shift aggregation as the least square problem, subsequently updating the LM parameters using the normal equation. To accommodate editing multiple facts simultaneously with limited memory budgets, we separate the computation on the hyper-network and LM, enabling arbitrary batch size on both neural networks. Our method is evaluated by editing up to thousands of facts on LMs with different architectures, i.e., BERT-base, GPT-2, T5-XL (2.8B), and GPT-J (6B), across various knowledge-intensive NLP tasks, i.e., closed book fact-checking and question answering. Remarkably, MALMEN is capable of editing hundreds of times more facts than strong baselines with the identical hyper-network architecture and outperforms editor specifically designed for GPT. Our code is available at https://github.com/ChenmienTan/malmen. | 翻訳日:2024-01-26 17:36:19 公開日:2024-01-25 |
# 脳波からのfMRI信号予測のための正弦波表現ネットワークの活用 Leveraging sinusoidal representation networks to predict fMRI signals from EEG ( http://arxiv.org/abs/2311.04234v2 ) ライセンス: Link先を確認 | Yamin Li, Ange Lou, Ziyuan Xu, Shiyu Wang, Catie Chang | (参考訳) 現代の神経科学において、機能的磁気共鳴イメージング(fMRI)は脳全体の活動のダイナミックスに非侵襲的な窓を提供する重要な非置換可能なツールである。
それにもかかわらず、fMRIは血行動態のぼかしや、高コスト、不動性、金属インプラントとの互換性に制限されている。
脳波(EEG)はfMRIと相補的であり、高時間分解能で皮質電気活動を直接記録できるが、空間分解能はより限られており、深部皮質下脳構造に関する情報を回復できない。
脳波からfMRI情報を得る能力は、より広い脳領域にわたるコスト効率の良いイメージングを可能にする。
さらに、脳波の能力を増強するだけでなく、モード間モデルによってfMRI信号の解釈が促進される。
しかし、脳波とfMRIはどちらも高次元であり、人工物に近づきやすいため、現在、脳波からfMRIをモデル化することは困難である。
この課題に対処するために,マルチチャネル脳波から直接fMRI信号を予測できる新しいアーキテクチャを提案する。
本モデルでは,脳波から周波数情報を学習する正弦波表現ネットワーク(siren)を実装し,その後のエンコーダ・デコーダへの入力として機能し,特定の脳領域からfmri信号を効果的に再構成する。
我々は,脳波-fMRI同時データセットを8被験者で評価し,皮質下 fMRI 信号の予測の可能性について検討した。
その結果,本モデルは最近の最先端モデルよりも優れており,機能的ニューロイメージングデータをモデル化するために,深層ニューラルネットワークの周期的活性化関数を活用する可能性を示している。 In modern neuroscience, functional magnetic resonance imaging (fMRI) has been a crucial and irreplaceable tool that provides a non-invasive window into the dynamics of whole-brain activity. Nevertheless, fMRI is limited by hemodynamic blurring as well as high cost, immobility, and incompatibility with metal implants. Electroencephalography (EEG) is complementary to fMRI and can directly record the cortical electrical activity at high temporal resolution, but has more limited spatial resolution and is unable to recover information about deep subcortical brain structures. The ability to obtain fMRI information from EEG would enable cost-effective, imaging across a wider set of brain regions. Further, beyond augmenting the capabilities of EEG, cross-modality models would facilitate the interpretation of fMRI signals. However, as both EEG and fMRI are high-dimensional and prone to artifacts, it is currently challenging to model fMRI from EEG. To address this challenge, we propose a novel architecture that can predict fMRI signals directly from multi-channel EEG without explicit feature engineering. Our model achieves this by implementing a Sinusoidal Representation Network (SIREN) to learn frequency information in brain dynamics from EEG, which serves as the input to a subsequent encoder-decoder to effectively reconstruct the fMRI signal from a specific brain region. We evaluate our model using a simultaneous EEG-fMRI dataset with 8 subjects and investigate its potential for predicting subcortical fMRI signals. The present results reveal that our model outperforms a recent state-of-the-art model, and indicates the potential of leveraging periodic activation functions in deep neural networks to model functional neuroimaging data. | 翻訳日:2024-01-26 17:35:51 公開日:2024-01-25 |
# Shabari: 高速で効率的なサーバレス機能のための遅延決定処理 Shabari: Delayed Decision-Making for Faster and Efficient Serverless Functions ( http://arxiv.org/abs/2401.08859v2 ) ライセンス: Link先を確認 | Prasoon Sinha and Kostis Kaffes and Neeraja J. Yadwadkar | (参考訳) サーバレスコンピューティングは、開発者がリソース管理の負担を軽減し、ユーザへの使いやすさと、プロバイダのリソース利用を最適化する機会を提供する。
しかしながら、今日のサーバレスシステムは、関数呼び出しのパフォーマンス保証が欠如しているため、パフォーマンスクリティカルなアプリケーションのサポートが制限されている。
プロバイダはユーザ機能の可視性を欠いているため、適切なサイズにすることは困難である。
性能変動と不使用の原因を理解するため,一般に展開されているサーバレス機能の測定を行い,機能性能と資源利用が機能意味と入力に大きく依存していることを学んだ。
私たちの重要な洞察は、関数入力が利用可能になるまでリソース割り当ての決定を遅らせることです。
サーバーレスシステムのためのリソース管理フレームワークであるShabariを導入し、各呼び出しを適切なサイズにすることで、機能のパフォーマンス目標(SLO)を満たし、リソース利用を改善する。
Shabariはオンライン学習エージェントを使用して、関数入力の特徴に基づいて各関数呼び出しを右サイズ化し、コールドスタート対応のスケジューリング決定を行う。
さまざまなサーバレス機能とインプットに対して、Shabariは、Aquatope、Parrotfish、Cypressといった最先端システムと比較して、SLO違反を11~73%削減し、vCPUを無駄にせず、時間の無駄なメモリを64~94%削減する。 Serverless computing relieves developers from the burden of resource management, thus providing ease-of-use to the users and the opportunity to optimize resource utilization for the providers. However, today's serverless systems lack performance guarantees for function invocations, thus limiting support for performance-critical applications: we observed severe performance variability (up to 6x). Providers lack visibility into user functions and hence find it challenging to right-size them: we observed heavy resource underutilization (up to 80%). To understand the causes behind the performance variability and underutilization, we conducted a measurement study of commonly deployed serverless functions and learned that the function performance and resource utilization depend crucially on function semantics and inputs. Our key insight is to delay making resource allocation decisions until after the function inputs are available. We introduce Shabari, a resource management framework for serverless systems that makes decisions as late as possible to right-size each invocation to meet functions' performance objectives (SLOs) and improve resource utilization. Shabari uses an online learning agent to right-size each function invocation based on the features of the function input and makes cold-start-aware scheduling decisions. For a range of serverless functions and inputs, Shabari reduces SLO violations by 11-73% while not wasting any vCPUs and reducing wasted memory by 64-94% in the median case, compared to state-of-the-art systems, including Aquatope, Parrotfish, and Cypress. | 翻訳日:2024-01-26 17:29:19 公開日:2024-01-25 |
# 複雑論理仮説生成による知識グラフの帰納的推論の進歩 Advancing Abductive Reasoning in Knowledge Graphs through Complex Logical Hypothesis Generation ( http://arxiv.org/abs/2312.15643v2 ) ライセンス: Link先を確認 | Jiaxin Bai, Yicheng Wang, Tianshi Zheng, Yue Guo, Xin Liu, and Yangqiu Song | (参考訳) 帰納的推論は、観察のための説明を提供するために教育を受けた推測を行う過程である。
多くのアプリケーションは、説明のために知識の使用を必要とするが、知識グラフのような構造化知識とともに帰納的推論の利用は、ほとんど探索されていない。
このギャップを埋めるために、KGによる帰納的論理的推論への最初のステップとして、複雑な論理的仮説生成の課題を紹介する。
このタスクでは、一連の観測を説明できるように、複雑な論理仮説を生成することを目指している。
教師付き訓練された生成モデルは、参照仮説に構造的に近い論理仮説を生成することができる。
しかし、見えない観察に一般化すると、この訓練の目的はより良い仮説生成を保証しない。
そこで本研究では,生成仮説から得られた観察と結論の差を最小限に抑えるための知識グラフ(rlf-kg)法を提案する。
RLF-KGの助けを借りて、生成された仮説はより良い説明を提供し、3つの広く使われているKGの最先端の結果を得ることを示した。 Abductive reasoning is the process of making educated guesses to provide explanations for observations. Although many applications require the use of knowledge for explanations, the utilization of abductive reasoning in conjunction with structured knowledge, such as a knowledge graph, remains largely unexplored. To fill this gap, this paper introduces the task of complex logical hypothesis generation, as an initial step towards abductive logical reasoning with KG. In this task, we aim to generate a complex logical hypothesis so that it can explain a set of observations. We find that the supervised trained generative model can generate logical hypotheses that are structurally closer to the reference hypothesis. However, when generalized to unseen observations, this training objective does not guarantee better hypothesis generation. To address this, we introduce the Reinforcement Learning from Knowledge Graph (RLF-KG) method, which minimizes differences between observations and conclusions drawn from generated hypotheses according to the KG. Experiments show that, with RLF-KG's assistance, the generated hypotheses provide better explanations, and achieve state-of-the-art results on three widely used KGs. | 翻訳日:2024-01-26 17:28:34 公開日:2024-01-25 |
# すべてのタスクが同じくらい難しいわけではない:動的深層ルーティングによるマルチタスク深層強化学習 Not All Tasks Are Equally Difficult: Multi-Task Deep Reinforcement Learning with Dynamic Depth Routing ( http://arxiv.org/abs/2312.14472v2 ) ライセンス: Link先を確認 | Jinmin He, Kai Li, Yifan Zang, Haobo Fu, Qiang Fu, Junliang Xing, Jian Cheng | (参考訳) マルチタスク強化学習は、一つのポリシーで異なるタスクセットを達成する。
複数のタスクにまたがるパラメータを共有することでデータ効率を向上させるため、一般的なプラクティスでは、ネットワークを異なるモジュールに分割し、これらのモジュールをタスク固有のポリシーに再結合するようにルーティングネットワークを訓練する。
しかしながら、既存のルーティングアプローチでは、すべてのタスクに一定数のモジュールを使用するため、さまざまな困難を伴うタスクには通常、さまざまな知識が必要になることを無視する。
この研究は動的深度ルーティング(D2R)フレームワークを示し、特定の中間モジュールの戦略的スキップを学習し、各タスクに対して異なる数のモジュールを柔軟に選択する。
この枠組みでは,オフ・ポリシー・トレーニング中の行動と対象ポリシーの異なる経路の問題に対処するための再ルーティング手法についても紹介する。
さらに,マスタードタスクのルーティングを乱すことなく,未マスタータスクの経路探索を継続させる自動経路バランス機構の設計を行った。
メタワールドベンチマークでは,D2Rが最先端性能を実現し,学習効率が大幅に向上した。 Multi-task reinforcement learning endeavors to accomplish a set of different tasks with a single policy. To enhance data efficiency by sharing parameters across multiple tasks, a common practice segments the network into distinct modules and trains a routing network to recombine these modules into task-specific policies. However, existing routing approaches employ a fixed number of modules for all tasks, neglecting that tasks with varying difficulties commonly require varying amounts of knowledge. This work presents a Dynamic Depth Routing (D2R) framework, which learns strategic skipping of certain intermediate modules, thereby flexibly choosing different numbers of modules for each task. Under this framework, we further introduce a ResRouting method to address the issue of disparate routing paths between behavior and target policies during off-policy training. In addition, we design an automatic route-balancing mechanism to encourage continued routing exploration for unmastered tasks without disturbing the routing of mastered ones. We conduct extensive experiments on various robotics manipulation tasks in the Meta-World benchmark, where D2R achieves state-of-the-art performance with significantly improved learning efficiency. | 翻訳日:2024-01-26 17:28:17 公開日:2024-01-25 |
# MGAug:画像変形の潜在空間におけるマルチモーダル幾何学的拡張 MGAug: Multimodal Geometric Augmentation in Latent Spaces of Image Deformations ( http://arxiv.org/abs/2312.13440v2 ) ライセンス: Link先を確認 | Tonmoy Hossain and Miaomiao Zhang | (参考訳) 幾何変換はトレーニング画像のサイズを強化するために広く用いられてきた。
既存の手法では、イメージ間の変換のユニモーダル分布を仮定することが多く、マルチモーダル分布を持つデータの場合、そのパワーを制限する。
本稿では,MGAug(Multimodal Geometric Augmentation)と呼ばれる新しいモデルを提案する。
そこで我々はまず,微分同相変換の潜在幾何学空間(微分同相写像)の学習を変分オートエンコーダ(VAE)に組み込むディープネットワークを開発した。
多変量ガウスの混合は微分同相の接空間で定式化され、画像変換の隠れた分布を近似する前の役割を果たす。
次に、vaeの学習されたマルチモーダル潜在空間からランダムにサンプリングされた変換を用いて画像の変形により、元のトレーニングデータセットを増強する。
モデルの有効性を検証するために,我々は,2次元合成データセットのマルチクラス分類と実脳磁気共鳴画像(MRI)のセグメンテーションという,ドメイン固有の2つのタスクで拡張戦略を共同で学習した。
また,MGAugと最先端の変換に基づく画像強調アルゴリズムを比較した。
実験の結果,提案手法は予測精度が大幅に向上し,すべてのベースラインを上回った。
私たちのコードはhttps://github.com/tonmoy-hossain/MGAug.comで公開されています。 Geometric transformations have been widely used to augment the size of training images. Existing methods often assume a unimodal distribution of the underlying transformations between images, which limits their power when data with multimodal distributions occur. In this paper, we propose a novel model, Multimodal Geometric Augmentation (MGAug), that for the first time generates augmenting transformations in a multimodal latent space of geometric deformations. To achieve this, we first develop a deep network that embeds the learning of latent geometric spaces of diffeomorphic transformations (a.k.a. diffeomorphisms) in a variational autoencoder (VAE). A mixture of multivariate Gaussians is formulated in the tangent space of diffeomorphisms and serves as a prior to approximate the hidden distribution of image transformations. We then augment the original training dataset by deforming images using randomly sampled transformations from the learned multimodal latent space of VAE. To validate the efficiency of our model, we jointly learn the augmentation strategy with two distinct domain-specific tasks: multi-class classification on 2D synthetic datasets and segmentation on real 3D brain magnetic resonance images (MRIs). We also compare MGAug with state-of-the-art transformation-based image augmentation algorithms. Experimental results show that our proposed approach outperforms all baselines by significantly improved prediction accuracy. Our code is publicly available at https://github.com/tonmoy-hossain/MGAug. | 翻訳日:2024-01-26 17:27:56 公開日:2024-01-25 |
# RLHF訓練の高速化のための適応配置と並列化フレームワーク An Adaptive Placement and Parallelism Framework for Accelerating RLHF Training ( http://arxiv.org/abs/2312.11819v2 ) ライセンス: Link先を確認 | Youshao Xiao, Weichang Wu, Zhenglei Zhou, Fagui Mao, Shangchun Zhao, Lin Ju, Lei Liang, Xiaolu Zhang, Jun Zhou | (参考訳) 最近、ChatGPTやInstructGPTのような大きな言語モデル(LLM)がAIの世界に大きな影響を与えている。
多くの研究が複雑なInstructGPTのトレーニングパイプライン、すなわちReinforcement Learning with Human Feedback (RLHF)を再現しようと試みている。
しかし、主流の分散RLHFトレーニング手法は一般にフラッテニング戦略と呼ばれる固定モデル配置戦略を採用する。
この戦略は、RLHFに関連する4つの相互依存モデルを1つのエンティティとして扱い、すべてのデバイスに分散し、各モデル固有の異なるワークロードに関係なく、単一のモデル用に設計された並列性技術を適用します。
その結果、この戦略はRLHFトレーニングにおける生成ボトルネックを悪化させ、全体的なトレーニング効率を低下させる。
これらの問題に対処するために,2つの柔軟なモデル配置戦略を提供する適応型モデル配置フレームワークを提案する。
インターリーブ戦略は、注意深いオーケストレーションを伴う専用デバイスに依存せずにモデルを配置することで、rlhfトレーニングのメモリ冗長性と通信コストを削減するのに役立つ。
一方、分離戦略は、RLHFパイプラインのトレーニングと推論ランタイムを追加のシャドウモデルで分離することにより、モデルのトレーニングのスループットを向上させる。
さらに,このフレームワークはシンプルなユーザインターフェースを提供し,さまざまなトレーニングシナリオに対して,さまざまなサイズのモデルや,さまざまなスケールのデバイスを含む細かな方法で,デバイス間のモデルのアジャイル割り当てを可能にします。
大規模な実験により、我々のインターリービング・分離戦略は、現在のSOTAアプローチと比較して11倍の顕著な改善を達成できることが示された。
その結果、分散RLHFのトレーニングを加速する上で、我々のアプローチの有効性と適応性を強調した。 Recently, ChatGPT or InstructGPT like large language models (LLM) has made a significant impact in the AI world. Many works have attempted to reproduce the complex InstructGPT's training pipeline, namely Reinforcement Learning with Human Feedback (RLHF). However, the mainstream distributed RLHF training methods typically adopt a fixed model placement strategy, referred to as the Flattening strategy. This strategy treats all four interdependent models involved in RLHF as a single entity, distributing them across all devices and applying parallelism techniques designed for a single model, regardless of the different workloads inherent to each model. As a result, this strategy exacerbates the generation bottlenecks in the RLHF training and degrades the overall training efficiency. To address these issues, we propose an adaptive model placement framework that offers two flexible model placement strategies. The Interleaving strategy helps reduce memory redundancy and communication costs of RLHF training by placing models without dependencies on exclusive devices with careful orchestration. On the other hand, the Separation strategy improves the throughput of model training by separating the training and inference runtime of the RLHF pipeline with additional shadow models. Furthermore, our framework provides a simple user interface and allows for the agile allocation of models across devices in a fine-grained manner for various training scenarios, involving models of varying sizes and devices of different scales. Extensive experiments have demonstrated that our Interleaving and Separation strategies can achieve notable improvements up to 11X, compared to the current SOTA approaches. The results highlight the effectiveness and adaptability of our approaches in accelerating the training of distributed RLHF. | 翻訳日:2024-01-26 17:27:28 公開日:2024-01-25 |
# 基礎モデルによる推論に関する調査 A Survey of Reasoning with Foundation Models ( http://arxiv.org/abs/2312.11562v5 ) ライセンス: Link先を確認 | Jiankai Sun, Chuanyang Zheng, Enze Xie, Zhengying Liu, Ruihang Chu, Jianing Qiu, Jiaqi Xu, Mingyu Ding, Hongyang Li, Mengzhe Geng, Yue Wu, Wenhai Wang, Junsong Chen, Zhangyue Yin, Xiaozhe Ren, Jie Fu, Junxian He, Wu Yuan, Qi Liu, Xihui Liu, Yu Li, Hao Dong, Yu Cheng, Ming Zhang, Pheng Ann Heng, Jifeng Dai, Ping Luo, Jingdong Wang, Ji-Rong Wen, Xipeng Qiu, Yike Guo, Hui Xiong, Qun Liu, Zhenguo Li | (参考訳) 複雑な問題解決において重要な能力である推論は、交渉、医療診断、刑事捜査など、現実世界の様々な場面で重要な役割を果たしている。
人工知能(AGI)の分野における基本的な方法論として機能する。
例えば、Large Language Models (LLMs) のような基礎モデルの開発が進行中であるため、推論タスクにおけるそれらの能力を探究することへの関心が高まっている。
本稿では,様々な推論タスク,メソッド,ベンチマークの最新の進歩を浮き彫りにして,推論に適応可能な基礎モデルを提案する。
次に、基礎モデルにおける推論能力の出現の背後にある潜在的な将来方向を掘り下げる。
また,マルチモーダル学習,自律エージェント,スーパーアライメントとの関連性についても論じる。
これらの今後の研究の方向性を議論することで、この分野の探索に研究者を刺激し、基礎モデルによる推論のさらなる進歩を刺激し、agiの開発に貢献することを望んでいる。 Reasoning, a crucial ability for complex problem-solving, plays a pivotal role in various real-world settings such as negotiation, medical diagnosis, and criminal investigation. It serves as a fundamental methodology in the field of Artificial General Intelligence (AGI). With the ongoing development of foundation models, e.g., Large Language Models (LLMs), there is a growing interest in exploring their abilities in reasoning tasks. In this paper, we introduce seminal foundation models proposed or adaptable for reasoning, highlighting the latest advancements in various reasoning tasks, methods, and benchmarks. We then delve into the potential future directions behind the emergence of reasoning abilities within foundation models. We also discuss the relevance of multimodal learning, autonomous agents, and super alignment in the context of reasoning. By discussing these future research directions, we hope to inspire researchers in their exploration of this field, stimulate further advancements in reasoning with foundation models, and contribute to the development of AGI. | 翻訳日:2024-01-26 17:26:58 公開日:2024-01-25 |
# TrojFST:トロイの木馬を数発のプロンプトチューニングに埋め込む TrojFST: Embedding Trojans in Few-shot Prompt Tuning ( http://arxiv.org/abs/2312.10467v2 ) ライセンス: Link先を確認 | Mengxin Zheng, Jiaqi Xue, Xun Chen, YanShan Wang, Qian Lou, and Lei Jiang | (参考訳) プロンプトチューニングは、新しい自然言語処理タスクを限られた入力サンプルで処理するために事前学習言語モデル(plm)を適用するための非常に効果的なアプローチとして登場した。
しかし、プロンプトチューニングの成功は、この手法に対するバックドア攻撃を試みる敵につながった。
これまでのプロンプトベースのバックドア攻撃は、数発のプロンプトチューニングによって実装される場合、フルモデルの微調整か、大規模なトレーニングデータセットが必要になる。
PLMを凍結し、ソフトプロンプトに制限された入力サンプルを調整し、数発のプロンプトチューニングを用いてプロンプトベースのバックドアを構築することの難しさを観察する。
このアプローチは、不均衡な有毒なデータセットを導入し、過度な適合と注意力の欠如を許容する。
これらの課題に対処するため,我々は,少数ショットプロンプトチューニングのフレームワーク内でバックドア攻撃を行うためのtrojfstを導入する。
TrojFSTは、バランスの取れた毒の学習、選択的トークン中毒、トロイの木馬の注意の3つのモジュールから構成される。
これまでのプロンプトベースのバックドア攻撃と比較して、TrojFSTは、ASR $> 9\%$とCDAを、さまざまなPLMとさまざまな下流タスクで4\%$に拡張するなど、大幅な改善を示している。 Prompt-tuning has emerged as a highly effective approach for adapting a pre-trained language model (PLM) to handle new natural language processing tasks with limited input samples. However, the success of prompt-tuning has led to adversaries attempting backdoor attacks against this technique. Previous prompt-based backdoor attacks faced challenges when implemented through few-shot prompt-tuning, requiring either full-model fine-tuning or a large training dataset. We observe the difficulty in constructing a prompt-based backdoor using few-shot prompt-tuning, which involves freezing the PLM and tuning a soft prompt with a restricted set of input samples. This approach introduces an imbalanced poisoned dataset, making it susceptible to overfitting and lacking attention awareness. To address these challenges, we introduce TrojFST for backdoor attacks within the framework of few-shot prompt-tuning. TrojFST comprises three modules: balanced poison learning, selective token poisoning, and trojan-trigger attention. In comparison to previous prompt-based backdoor attacks, TrojFST demonstrates significant improvements, enhancing ASR $> 9\%$ and CDA by $> 4\%$ across various PLMs and a diverse set of downstream tasks. | 翻訳日:2024-01-26 17:26:43 公開日:2024-01-25 |
# 多目的最適化のためのSMS-EMOAの実行時解析 Runtime Analysis of the SMS-EMOA for Many-Objective Optimization ( http://arxiv.org/abs/2312.10290v2 ) ライセンス: Link先を確認 | Weijie Zheng, Benjamin Doerr | (参考訳) 広く使われている多目的最適化器NSGA-IIは、最近多目的最適化においてかなり困難であることが証明された。
これとは対照的に,実験結果からSMS-EMOAの性能は良好であり,第2選択基準として群集距離の代わりに超体積寄与を用いた定常NSGA-IIと見なすことができる。
本稿では,多目的最適化のためのSMS-EMOAの厳密な実行時解析を行う。
そこで本研究では,まず,2目的OJZJベンチマークの m-目的 mOJZJ 問題である多目的 mOJZJ 問題を数学的ランタイム解析に用いた最初の多目的マルチモーダルベンチマークを提案する。
SMS-EMOAは、このベンチマークの全Paretoフロントを$O(M^2 n^k)$イテレーションで計算し、$n$は問題サイズ(ビットストリング表現の長さ)、$kはギャップサイズ(問題の難易度パラメータ)、$M=(2n/m-2k+3)^{m/2}はParetoフロントのサイズである。
この結果と既存のNSGA-IIの負の結果は、原則としてNSGA-IIの一般的なアプローチは多目的最適化に適しているが、タイブレーカとしての群集距離には欠点があることを示している。
SMS-EMOAについてさらに3つの知見を得た。
bi-objective ojzjベンチマークの最近の結果とは異なり、確率的人口更新はmojzjにはあまり役に立たない。
1/\Theta(\min\{Mk^{1/2}/2^{k/2},1\})$スピードアップとなり、$m>k$のような大きな$m$に対して$\Theta(1)$となる。
正の面では、重く尾のついた突然変異がそれでも$k^{0.5+k-\beta}$のスピードアップをもたらすことを証明します。
最後に、二目的のOneMinMaxとLOTZベンチマークでSMS-EMOAの最初のランタイム解析を行い、GSEMOとNSGA-IIに匹敵する性能を示す。 The widely used multiobjective optimizer NSGA-II was recently proven to have considerable difficulties in many-objective optimization. In contrast, experimental results in the literature show a good performance of the SMS-EMOA, which can be seen as a steady-state NSGA-II that uses the hypervolume contribution instead of the crowding distance as the second selection criterion. This paper conducts the first rigorous runtime analysis of the SMS-EMOA for many-objective optimization. To this aim, we first propose a many-objective counterpart, the m-objective mOJZJ problem, of the bi-objective OJZJ benchmark, which is the first many-objective multimodal benchmark used in a mathematical runtime analysis. We prove that SMS-EMOA computes the full Pareto front of this benchmark in an expected number of $O(M^2 n^k)$ iterations, where $n$ denotes the problem size (length of the bit-string representation), $k$ the gap size (a difficulty parameter of the problem), and $M=(2n/m-2k+3)^{m/2}$ the size of the Pareto front. This result together with the existing negative result on the original NSGA-II shows that in principle, the general approach of the NSGA-II is suitable for many-objective optimization, but the crowding distance as tie-breaker has deficiencies. We obtain three additional insights on the SMS-EMOA. Different from a recent result for the bi-objective OJZJ benchmark, the stochastic population update often does not help for mOJZJ. It results in a $1/\Theta(\min\{Mk^{1/2}/2^{k/2},1\})$ speed-up, which is $\Theta(1)$ for large $m$ such as $m>k$. On the positive side, we prove that heavy-tailed mutation still results in a speed-up of order $k^{0.5+k-\beta}$. Finally, we conduct the first runtime analyses of the SMS-EMOA on the bi-objective OneMinMax and LOTZ benchmarks and show that it has a performance comparable to the GSEMO and the NSGA-II. | 翻訳日:2024-01-26 17:26:17 公開日:2024-01-25 |
# 感情分類におけるトピックバイアス Topic Bias in Emotion Classification ( http://arxiv.org/abs/2312.09043v2 ) ライセンス: Link先を確認 | Maximilian Wegge and Roman Klinger | (参考訳) 感情コーパスは通常、キーワード/ハッシュタグ検索や研究参加者にテキストインスタンスの生成を依頼することでサンプル化される。
いずれにしても、これらのコーパスはドメイン全体を表す一様なサンプルではない。
私たちは、このデータ取得のプラクティスが、モデルの一般化可能性に影響を与えるコーパスの過剰なトピック間の非現実的な相関をもたらすと仮定する。
このような話題のバイアスは、"i organized the service for my aunt's funeral"(おばさんの葬儀のサービスを組織した)のような例の誤った予測につながる可能性がある。
本稿では,このトピックのバイアスについて,データとモデリングの観点から検討する。
まず、トピックモデリングを通して感情コーパスを自動的にラベル付けし、実際に感情が特定のトピックと相関していることを示す。
さらに,感情分類器は,そのような話題が組み合わさっている。
最後に,勾配反転による逆補正の確立したデバイアス手法がこの問題を緩和することを示す。
本研究は、既存の感情コーパスの問題と、感情概念をテキストから予測するモデルの公平な評価により多くの代表的リソースが必要であることを指摘する。 Emotion corpora are typically sampled based on keyword/hashtag search or by asking study participants to generate textual instances. In any case, these corpora are not uniform samples representing the entirety of a domain. We hypothesize that this practice of data acquisition leads to unrealistic correlations between overrepresented topics in these corpora that harm the generalizability of models. Such topic bias could lead to wrong predictions for instances like "I organized the service for my aunt's funeral." when funeral events are over-represented for instances labeled with sadness, despite the emotion of pride being more appropriate here. In this paper, we study this topic bias both from the data and the modeling perspective. We first label a set of emotion corpora automatically via topic modeling and show that emotions in fact correlate with specific topics. Further, we see that emotion classifiers are confounded by such topics. Finally, we show that the established debiasing method of adversarial correction via gradient reversal mitigates the issue. Our work points out issues with existing emotion corpora and that more representative resources are required for fair evaluation of models predicting affective concepts from text. | 翻訳日:2024-01-26 17:25:39 公開日:2024-01-25 |
# マルチモーダル大言語モデルのためのHalucination Augmented Contrastive Learning Hallucination Augmented Contrastive Learning for Multimodal Large Language Model ( http://arxiv.org/abs/2312.06968v3 ) ライセンス: Link先を確認 | Chaoya Jiang, Haiyang Xu, Mengfan Dong, Jiaxing Chen, Wei Ye, Ming Yan, Qinghao Ye, Ji Zhang, Fei Huang, Shikun Zhang | (参考訳) マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理する。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
まず,MLLMにおけるテキストトークンと視覚トークンの表現分布を解析し,2つの重要な知見を明らかにした。
1) テキスト表現と視覚表現の間には大きなギャップがあり, 満足のいくクロスモーダル表現の整合性を示す。
2)幻覚を含まないテキストの表現は絡み合っており,区別が困難である。
これらの2つの観察は、幻覚を緩和するためのシンプルで効果的な方法をもたらした。
具体的には,mllmにコントラスト学習を導入し,幻覚付きテキストを難解な例とし,非幻覚性テキストと視覚的サンプルの表現を自然に近づけながら,非幻覚性テキストと幻覚性テキストの表現をプッシュする。
本手法を定量的かつ定性的に評価し,幻覚発生の低減と複数のベンチマークにおける性能向上に有効であることを示す。
MMhal-Benchベンチマークでは,ベースラインのMiniGPT-4/LLaVAよりも34.66%/29.5%改善した。
私たちのコードはhttps://github.com/X-PLUG/mPLUG-HalOwl/tree/main/haclで利用可能です。 Multi-modal large language models (MLLMs) have been shown to efficiently integrate natural language with visual information to handle multi-modal tasks. However, MLLMs still face a fundamental limitation of hallucinations, where they tend to generate erroneous or fabricated information. In this paper, we address hallucinations in MLLMs from a novel perspective of representation learning. We first analyzed the representation distribution of textual and visual tokens in MLLM, revealing two important findings: 1) there is a significant gap between textual and visual representations, indicating unsatisfactory cross-modal representation alignment; 2) representations of texts that contain and do not contain hallucinations are entangled, making it challenging to distinguish them. These two observations inspire us with a simple yet effective method to mitigate hallucinations. Specifically, we introduce contrastive learning into MLLMs and use text with hallucination as hard negative examples, naturally bringing representations of non-hallucinative text and visual samples closer while pushing way representations of non-hallucinating and hallucinative text. We evaluate our method quantitatively and qualitatively, showing its effectiveness in reducing hallucination occurrences and improving performance across multiple benchmarks. On the MMhal-Bench benchmark, our method obtains a 34.66% /29.5% improvement over the baseline MiniGPT-4/LLaVA. Our code is available on https://github.com/X-PLUG/mPLUG-HalOwl/tree/main/hacl. | 翻訳日:2024-01-26 17:25:20 公開日:2024-01-25 |
# 微調整か、それとも検索か?
LLMにおける知識注入の比較 Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs ( http://arxiv.org/abs/2312.05934v2 ) ライセンス: Link先を確認 | Oded Ovadia, Menachem Brief, Moshik Mishaeli, Oren Elisha | (参考訳) 大規模言語モデル(LLM)は、様々な領域にまたがる多様な質問に答える能力によって証明されるように、事前訓練された重みの中に大量の事実情報をカプセル化する。
しかしながら、この知識は本質的に限定的であり、トレーニングデータの特性に大きく依存している。
したがって、新しい情報を組み込んだり、以前見た情報にllmの機能を洗練したりする外部データセットを使用することは、大きな課題となる。
本研究では、教師なし微調整と検索強化生成(RAG)の2つの一般的なアプローチを比較した。
さまざまなトピックにまたがる様々な知識集約的なタスクに対して,両アプローチを評価した。
その結果,教師なしの微調整は改善するが,RAGはトレーニング中に遭遇した既存の知識と全く新しい知識の両方において,常に優れていた。
さらに、llmは教師なしの微調整によって新しい事実情報を学ぶのに苦労し、訓練中に同じ事実の多くのバリエーションを露出させることでこの問題を緩和できることがわかった。 Large language models (LLMs) encapsulate a vast amount of factual information within their pre-trained weights, as evidenced by their ability to answer diverse questions across different domains. However, this knowledge is inherently limited, relying heavily on the characteristics of the training data. Consequently, using external datasets to incorporate new information or refine the capabilities of LLMs on previously seen information poses a significant challenge. In this study, we compare two common approaches: unsupervised fine-tuning and retrieval-augmented generation (RAG). We evaluate both approaches on a variety of knowledge-intensive tasks across different topics. Our findings reveal that while unsupervised fine-tuning offers some improvement, RAG consistently outperforms it, both for existing knowledge encountered during training and entirely new knowledge. Moreover, we find that LLMs struggle to learn new factual information through unsupervised fine-tuning, and that exposing them to numerous variations of the same fact during training could alleviate this problem. | 翻訳日:2024-01-26 17:24:56 公開日:2024-01-25 |
# 有効ハミルトニアンによる格子ゲージ理論 rydberg simulator の臨界挙動 Critical behavior of lattice gauge theory Rydberg simulators from effective Hamiltonians ( http://arxiv.org/abs/2312.04436v2 ) ライセンス: Link先を確認 | Jin Zhang, Shan-Wen Tsai, Yannick Meurice | (参考訳) コンパクトアベリア・ヒッグスモデル(CAHM)の1+1次元での量子シミュレータとして提案されたリドベルグ原子の多脚ラグ(Y. Meurice, Phys. D 104, 094513 (2021))と三角プリズムのようなこれらのシミュレータの修正版)を考える。
アナログシミュレータの物理ハミルトニアンから始め、いくつかの原子が互いに十分に近接しているときに、遮断機構によって生じるシミュレータの高エネルギー状態を統合することで、翻訳不変の有効ハミルトニアンを構築する。
注目すべきことに、すべてのシミュレーターについて、実効ハミルトニアンはCAHM(電場、物質電荷、電流エネルギー)の3種類の項を持つが、電場におけるクォート的な項も持つ。
2本の脚のはしごでは、これらの追加用語は、現在利用可能なデバイスの調整可能なパラメータを微調整することで取り除けない。
正の退化のために、新しい項は高度に退化した真空を生み出し、非常に興味深い位相図を生成する。
数値解法を用いて,物理シミュレータと地盤エネルギーと実時間発展の効果的な記述との間の密接な対応を示す。
可変ラビ周波数とデチューニングを持つ固定幾何の位相図を考察し,有限密度のqcdの文脈において,多種多様な位相が潜在的興味を持って到達できることを示した。
本稿では, ハイブリッドイベントジェネレータの構築の観点から, 望ましい特性を持つシミュレータを設計するための効果的な記述法について述べる。 We consider multileg ladders of Rydberg atoms which have been proposed as quantum simulators for the compact Abelian Higgs model (CAHM) in 1+1 dimensions [Y. Meurice, Phys. Rev. D 104, 094513 (2021)] and modified versions of theses simulators such as triangular prisms. Starting with the physical Hamiltonian for the analog simulator, we construct translation-invariant effective Hamiltonians by integrating over the simulator high-energy states produced by the blockade mechanism when some of the atoms are sufficiently close to each others. Remarkably, for all the simulators considered, the effective Hamiltonians have the three types of terms present for the CAHM (Electric field, matter charge and currents energies) but, in addition, terms quartic in the electric field. For the two leg ladder, these additional terms cannot be removed by fine-tuning the adjustable parameters of currently available devices. For positive detuning, the new terms create highly-degenerate vacua resulting in a very interesting phase diagram. Using numerical methods, we demonstrate the close correspondence between the physical simulator and the effective description for the ground state energy and real-time evolution. We discuss the phase diagram at fixed geometry with variable Rabi frequency and detuning and show that a rich variety of phases can be reached with potential interest in the context of QCD at finite density. We illustrate how the effective description can be used to design simulators with desirable properties from the point of view of constructing hybrid event generators. | 翻訳日:2024-01-26 17:24:38 公開日:2024-01-25 |
# 情報経路計画を用いた未知環境における意味セグメンテーションのための半教師付きアクティブラーニング Semi-Supervised Active Learning for Semantic Segmentation in Unknown Environments Using Informative Path Planning ( http://arxiv.org/abs/2312.04402v2 ) ライセンス: Link先を確認 | Julius R\"uckin, Federico Magistri, Cyrill Stachniss, Marija Popovi\'c | (参考訳) セマンティックセグメンテーション(Semantic segmentation)は、ロボットが幾何学以外の環境を知覚し、推論することを可能にする。
このようなシステムのほとんどは、ディープラーニングのアプローチに基づいている。
自律ロボットは、当初未知の環境で一般的にデプロイされるため、静的データセットの事前トレーニングは、常にさまざまなドメインをキャプチャして、ミッション中のロボットの知覚性能を制限することはできない。
近年,ロボットの視力を向上させるために,自己指導的かつ完全に教師付きな能動学習手法が出現している。
これらのアプローチは、大規模なドメイン内事前トレーニングデータセットに依存している。
本稿では,完全教師付きアプローチと比較して,人間のラベル付け要件を大幅に削減する意味セグメンテーションの半教師付きアクティブラーニング計画法を提案する。
高モデル不確実性が人間のラベル付けのためのトレーニングデータを集めることで、未探索空間のフロンティアに向けて誘導される適応地図ベースのプランナーを活用する。
提案手法の主な特徴は, 環境マップ領域から自動的に抽出される擬似ラベルと, まばらな高品質なラベルを組み合わせることである。
実験の結果, 完全教師ありアプローチに近いセグメンテーション性能に到達し, 自己教師ありアプローチを上回って, 人間のラベル付け労力を大幅に削減した。 Semantic segmentation enables robots to perceive and reason about their environments beyond geometry. Most of such systems build upon deep learning approaches. As autonomous robots are commonly deployed in initially unknown environments, pre-training on static datasets cannot always capture the variety of domains and limits the robot's perception performance during missions. Recently, self-supervised and fully supervised active learning methods emerged to improve a robot's vision. These approaches rely on large in-domain pre-training datasets or require substantial human labelling effort. We propose a planning method for semi-supervised active learning of semantic segmentation that substantially reduces human labelling requirements compared to fully supervised approaches. We leverage an adaptive map-based planner guided towards the frontiers of unexplored space with high model uncertainty collecting training data for human labelling. A key aspect of our approach is to combine the sparse high-quality human labels with pseudo labels automatically extracted from highly certain environment map areas. Experimental results show that our method reaches segmentation performance close to fully supervised approaches with drastically reduced human labelling effort while outperforming self-supervised approaches. | 翻訳日:2024-01-26 17:24:08 公開日:2024-01-25 |
# 住宅の暖房に対する需要応答:物理インフォームドニューラルネットワークに基づく効率的なモンテカルロ木探索制御 Demand response for residential building heating: Effective Monte Carlo Tree Search control based on physics-informed neural networks ( http://arxiv.org/abs/2312.03365v3 ) ライセンス: Link先を確認 | Fabio Pavirani, Gargya Gokhale, Bert Claessens, Chris Develder | (参考訳) 需要応答(DR)による建物内のエネルギー消費の制御は、世界的な二酸化炭素排出量の削減と気候変動の抑制のためにますます重要になっている。
本稿では,利用者の快適さを尊重しつつ,エネルギー消費を最適化するために,住宅の暖房システムの制御に特に焦点をあてる。
この分野の最近の研究は、モデルベース制御(例えば、モデル予測制御(MPC)や、実用的なDRアルゴリズムを実装するためのモデルフリー強化学習(RL)に重点を置いている。
最近、ボードゲーム(ゴー、チェス)のようなドメインで顕著な成功を収めた特定のRLメソッドは、Monte Carlo Tree Search (MCTS)である。
しかし、建物の管理については未調査のままである。
そこで,本研究では,建築需要応答のためのMCTSについて検討する。
その自然な構造は、(例えば従来のRLソリューションとは対照的に)外因性制約を暗黙的に統合する柔軟な最適化を可能にし、MCTSはDR制御問題の候補となる。
従来の純粋データ駆動型Black-Boxアプローチとは対照的に,物理インフォームドニューラルネットワーク(PiNN)モデルを基礎となる熱状態予測に組み込むことで,MCTS制御性能を向上させる方法を示す。
pinnモデルに適合したmcts実装では、得られた報酬の3%増分をルールベースのコントローラと比較して得ることができ、人工価格プロファイルに適用すると10%のコスト削減と35%の温度差の削減が可能となる。
我々はさらに、より最適なノードを通る木探索を導くニューラルネットワークを用いて、モンテカルロ木探索手法にディープラーニング層を実装した。
次に、この追加をVanillaバージョンと比較し、計算コストの改善を示しました。 Controlling energy consumption in buildings through demand response (DR) has become increasingly important to reduce global carbon emissions and limit climate change. In this paper, we specifically focus on controlling the heating system of a residential building to optimize its energy consumption while respecting user's thermal comfort. Recent works in this area have mainly focused on either model-based control, e.g., model predictive control (MPC), or model-free reinforcement learning (RL) to implement practical DR algorithms. A specific RL method that recently has achieved impressive success in domains such as board games (go, chess) is Monte Carlo Tree Search (MCTS). Yet, for building control it has remained largely unexplored. Thus, we study MCTS specifically for building demand response. Its natural structure allows a flexible optimization that implicitly integrate exogenous constraints (as opposed, for example, to conventional RL solutions), making MCTS a promising candidate for DR control problems. We demonstrate how to improve MCTS control performance by incorporating a Physics-informed Neural Network (PiNN) model for its underlying thermal state prediction, as opposed to traditional purely data-driven Black-Box approaches. Our MCTS implementation aligned with a PiNN model is able to obtain a 3% increment of the obtained reward compared to a rule-based controller; leading to a 10% cost reduction and 35% reduction on temperature difference with the desired one when applied to an artificial price profile. We further implemented a Deep Learning layer into the Monte Carlo Tree Search technique using a neural network that leads the tree search through more optimal nodes. We then compared this addition with its Vanilla version, showing the improvement in computational cost required. | 翻訳日:2024-01-26 17:23:52 公開日:2024-01-25 |
# 散逸環境におけるデチューニングがエントロピー不確実性と量子相関に及ぼす影響 The effects of detuning on entropic uncertainty bound and quantum correlations in dissipative environment ( http://arxiv.org/abs/2401.09782v3 ) ライセンス: Link先を確認 | Shahram Mehrmanesh, Maryam Hadipour, Soroush Haseli | (参考訳) 量子情報理論の基本的な議論の1つは不確実性原理である。
この原理に従って、2つの非互換な観測可能量は高い精度で同時に測定することはできない。
本研究では,量子メモリの存在下でのエントロピー不確実性関係を用いる。
散逸環境を考えると、量子メモリの遷移周波数とキャビティの中心周波数との調律がエントリピック不確実性境界と量子メモリと測定粒子との量子相関に与える影響について検討する。
デチューニングを増加させることで、量子相関が維持されることが示されている。
その結果、不確実性境界と量子相関との逆関係により、測定結果はより正確に推測される。 One of the fundamental arguments in quantum information theory is the uncertainty principle. In accordance with this principle, two incompatible observables cannot be measured with high precision at the same time. In this work, we will use the entropic uncertainty relation in the presence of quantum memory. Considering a dissipative environment, the effects of the detuning between the transition frequency of a quantum memory and the center frequency of a cavity on entrpic uncertainty bound and quantum correlation between quantum memory and measured particle will be studied. It is shown that by increasing the detuning, quantum correlation is maintained. As a result, due to the inverse relationship between the uncertainty bound and quantum correlation, the measurement results is guessed more accurately. | 翻訳日:2024-01-26 17:16:25 公開日:2024-01-25 |
# 分散ランダムネットワーク蒸留による探索と反探索 Exploration and Anti-Exploration with Distributional Random Network Distillation ( http://arxiv.org/abs/2401.09750v2 ) ライセンス: Link先を確認 | Kai Yang, Jian Tao, Jiafei Lyu, Xiu Li | (参考訳) エージェントが未知の環境で高いリターンを得るための深層強化学習において、探索は依然として重要な課題である。
探索的ランダムネットワーク蒸留(RND)アルゴリズムは、多くの環境で有効であることが証明されているが、しばしばボーナスアロケーションにおいてより識別力を必要とする。
本稿では,RND における 'bonus inconsistency' 問題に注目し,その限界を指摘する。
この問題に対処するために, RND の派生である Distributional RND (DRND) を導入する。
drndはランダムネットワークの分布を蒸留し、疑似カウントを暗黙的に組み込んでボーナス割り当ての精度を向上させることで探索プロセスを強化する。
この改良により、エージェントはより広範な探査に従事した。
本手法は,計算オーバーヘッドの増大を伴わずに,不整合問題を効果的に軽減する。
理論解析と実験の結果から,本手法が従来の rnd アルゴリズムよりも優れていることが示された。
本手法は,D4RLオフラインタスクにおける探索防止機構として有効である。 Exploration remains a critical issue in deep reinforcement learning for an agent to attain high returns in unknown environments. Although the prevailing exploration Random Network Distillation (RND) algorithm has been demonstrated to be effective in numerous environments, it often needs more discriminative power in bonus allocation. This paper highlights the ``bonus inconsistency'' issue within RND, pinpointing its primary limitation. To address this issue, we introduce the Distributional RND (DRND), a derivative of the RND. DRND enhances the exploration process by distilling a distribution of random networks and implicitly incorporating pseudo counts to improve the precision of bonus allocation. This refinement encourages agents to engage in more extensive exploration. Our method effectively mitigates the inconsistency issue without introducing significant computational overhead. Both theoretical analysis and experimental results demonstrate the superiority of our approach over the original RND algorithm. Our method excels in challenging online exploration scenarios and effectively serves as an anti-exploration mechanism in D4RL offline tasks. | 翻訳日:2024-01-26 17:16:15 公開日:2024-01-25 |
# SymTC : 腰部MRIのインスタンス分割のための共生トランスフォーマー-CNNネット SymTC: A Symbiotic Transformer-CNN Net for Instance Segmentation of Lumbar Spine MRI ( http://arxiv.org/abs/2401.09627v2 ) ライセンス: Link先を確認 | Jiasong Chen, Linchen Qian, Linhai Ma, Timur Urakov, Weiyong Gu, Liang Liang | (参考訳) 椎間板疾患は一般的な疾患であり、しばしば間欠的または持続的な腰痛につながり、この疾患の診断と評価は腰椎mri画像から椎間板と椎間板の正確な測定に依存している。
ディープニューラルネットワーク(DNN)モデルは、腰椎の個々のインスタンス(ディスクと脊椎)のより効率的なイメージセグメンテーションを自動化された方法で臨床医を支援する。
本研究では,トランスフォーマーと畳み込みニューラルネットワーク(CNN)の強みを組み合わせた,革新的な腰椎MR画像分割モデルであるSymTCを提案する。
具体的には、cnn層とtransformer層をマージする並列なデュアルパスアーキテクチャを設計し、トランスのセルフアテンションモジュールに新しい位置埋め込みを組み込むことにより、より正確なセグメンテーションのための位置情報の利用を強化した。
モデル性能をさらに向上させるため,ssmspineと呼ばれる合成的で現実的なmr画像データセットを作成するための新しいデータ拡張技術を導入した。
ssmspineデータセットとプライベートデータセットのsymtcおよび既存の15のイメージセグメンテーションモデルを,dice類似度係数と95%ハウスドルフ距離の2つの指標を用いて評価した。
その結果,SymTCは腰椎MRI画像における椎骨と椎間板のセグメンテーションに最適であることが示唆された。
SymTCコードとSSMSpineデータセットはhttps://github.com/jiasongchen/SymTCで公開されている。 Intervertebral disc disease, a prevalent ailment, frequently leads to intermittent or persistent low back pain, and diagnosing and assessing of this disease rely on accurate measurement of vertebral bone and intervertebral disc geometries from lumbar MR images. Deep neural network (DNN) models may assist clinicians with more efficient image segmentation of individual instances (disks and vertebrae) of the lumbar spine in an automated way, which is termed as instance image segmentation. In this work, we proposed SymTC, an innovative lumbar spine MR image segmentation model that combines the strengths of Transformer and Convolutional Neural Network (CNN). Specifically, we designed a parallel dual-path architecture to merge CNN layers and Transformer layers, and we integrated a novel position embedding into the self-attention module of Transformer, enhancing the utilization of positional information for more accurate segmentation. To further improves model performance, we introduced a new data augmentation technique to create synthetic yet realistic MR image dataset, named SSMSpine, which is made publicly available. We evaluated our SymTC and the other 15 existing image segmentation models on our private in-house dataset and the public SSMSpine dataset, using two metrics, Dice Similarity Coefficient and 95% Hausdorff Distance. The results show that our SymTC has the best performance for segmenting vertebral bones and intervertebral discs in lumbar spine MR images. The SymTC code and SSMSpine dataset are available at https://github.com/jiasongchen/SymTC. | 翻訳日:2024-01-26 17:15:59 公開日:2024-01-25 |
# cedar: 構成可能で最適化された機械学習入力データパイプライン cedar: Composable and Optimized Machine Learning Input Data Pipelines ( http://arxiv.org/abs/2401.08895v2 ) ライセンス: Link先を確認 | Mark Zhao, Emanuel Adamiak, Christos Kozyrakis | (参考訳) 入力データパイプラインは、各機械学習(ML)トレーニングジョブの重要なコンポーネントである。
大量のトレーニングデータを読み込んで、複雑な変換を使ってサンプルのバッチを処理し、低レイテンシと高スループットでトレーニングノードにロードする責務を負う。
パフォーマンスの高い入力データシステムは、データボリュームの急増とスループットのトレーニング要求によって、ますます重要になっています。
残念なことに、現在の入力データシステムは、重要なパフォーマンス最適化を完全に活用できないため、膨大なリソースを必要とする非常に非効率なインフラストラクチャーが、高価なアクセラレーターを過小に活用している。
これらの要求に対処するために、ユーザは入力データパイプラインを簡単に構築、最適化、実行できるプログラミングモデルとフレームワークであるcedarを紹介します。
ユーザーは任意のMLフレームワークとライブラリをサポートする構成可能な演算子を使って入力データパイプラインを定義できる。
一方、シーダーは複雑で拡張可能な最適化技術(例えば、オフロード、キャッシュ、プリフェッチ、フュージョン、再順序付け)を透過的に適用する。
そして、ユーザ入力なしで処理性能と効率を最大化するために、ローカルおよび分散コンピューティングリソースのカスタマイズ可能なセットで処理をオーケストレーションする。
6つの多様な入力データパイプラインで平均して、cedarは、それぞれtf.data、tf.dataサービス、Ray Data、PyTorchのDataLoaderと比較して2.49x、1.87x、2.18x、2.74倍高いパフォーマンスを達成する。 The input data pipeline is an essential component of each machine learning (ML) training job. It is responsible for reading massive amounts of training data, processing batches of samples using complex transformations, and loading them onto training nodes at low latency and high throughput. Performant input data systems are becoming increasingly critical, driven by skyrocketing data volumes and training throughput demands. Unfortunately, current input data systems cannot fully leverage key performance optimizations, resulting in hugely inefficient infrastructures that require significant resources -- or worse -- underutilize expensive accelerators. To address these demands, we present cedar, a programming model and framework that allows users to easily build, optimize, and execute input data pipelines. cedar presents an easy-to-use programming interface, allowing users to define input data pipelines using composable operators that support arbitrary ML frameworks and libraries. Meanwhile, cedar transparently applies a complex and extensible set of optimization techniques (e.g., offloading, caching, prefetching, fusion, and reordering). It then orchestrates processing across a customizable set of local and distributed compute resources in order to maximize processing performance and efficiency, all without user input. On average across six diverse input data pipelines, cedar achieves a 2.49x, 1.87x, 2.18x, and 2.74x higher performance compared to tf.data, tf.data service, Ray Data, and PyTorch's DataLoader, respectively. | 翻訳日:2024-01-26 17:15:29 公開日:2024-01-25 |
# 信頼性テスト時間適応のための分離プロトタイプ学習 Decoupled Prototype Learning for Reliable Test-Time Adaptation ( http://arxiv.org/abs/2401.08703v2 ) ライセンス: Link先を確認 | Guowei Wang, Changxing Ding, Wentao Tan, Mingkui Tan | (参考訳) テスト時間適応(TTA)は、推論中にトレーニング済みのソースモデルをターゲットドメインに継続的に適応させるタスクである。
1つの一般的なアプローチは、推定擬似ラベルによるクロスエントロピー損失を伴う微調整モデルである。
しかし、その性能はうるさい疑似ラベルの影響を受けている。
本研究は, 各試料の分類誤差を最小化することで, クロスエントロピー損失の脆弱性がラベルノイズを引き起こすことを明らかにした。
この問題に対処するために,プロトタイプ中心の損失計算を特徴とする新しいDecoupled Prototype Learning(DPL)手法を提案する。
まず、クラスプロトタイプの最適化を分離する。
各クラスプロトタイプに対して、正のサンプルで距離を減らし、負のサンプルで反対の方法で距離を拡大する。
この戦略は、モデルがオーバーフィットからノイズの多い擬似ラベルを避ける。
第2に,ttaで発生するバッチサイズが小さい場合,dplのロバスト性を高めるためのメモリベース戦略を提案する。
我々は各クラスの擬似特徴を運動量的にメモリから更新し、追加のDPL損失を挿入する。
最後に、信頼できない擬似ラベルを持つサンプルを活用するための整合正則化に基づくアプローチを導入する。
提案手法は,疑似ラベル不確実なサンプルの特徴的スタイルを疑似ラベル不確実なサンプルに伝達する。
したがって、より信頼性の高いTTAサンプルが作成される。
実験により,本手法は領域一般化ベンチマークにおける最先端性能を実現し,画像劣化ベンチマークにおける自己学習手法の性能を確実に向上することを示した。
コードはリリースされます。 Test-time adaptation (TTA) is a task that continually adapts a pre-trained source model to the target domain during inference. One popular approach involves fine-tuning model with cross-entropy loss according to estimated pseudo-labels. However, its performance is significantly affected by noisy pseudo-labels. This study reveals that minimizing the classification error of each sample causes the cross-entropy loss's vulnerability to label noise. To address this issue, we propose a novel Decoupled Prototype Learning (DPL) method that features prototype-centric loss computation. First, we decouple the optimization of class prototypes. For each class prototype, we reduce its distance with positive samples and enlarge its distance with negative samples in a contrastive manner. This strategy prevents the model from overfitting to noisy pseudo-labels. Second, we propose a memory-based strategy to enhance DPL's robustness for the small batch sizes often encountered in TTA. We update each class's pseudo-feature from a memory in a momentum manner and insert an additional DPL loss. Finally, we introduce a consistency regularization-based approach to leverage samples with unconfident pseudo-labels. This approach transfers feature styles of samples with unconfident pseudo-labels to those with confident pseudo-labels. Thus, more reliable samples for TTA are created. The experimental results demonstrate that our methods achieve state-of-the-art performance on domain generalization benchmarks, and reliably improve the performance of self-training-based methods on image corruption benchmarks. The code will be released. | 翻訳日:2024-01-26 17:15:02 公開日:2024-01-25 |
# SAiD:拡散を伴う音声駆動型ブレンドシェープ顔アニメーション SAiD: Speech-driven Blendshape Facial Animation with Diffusion ( http://arxiv.org/abs/2401.08655v2 ) ライセンス: Link先を確認 | Inkyu Park, Jaewoong Cho | (参考訳) 広範な研究にもかかわらず、大規模な視覚音響データセットが不足しているため、音声駆動の3D顔アニメーションは困難である。
ほとんどの先行研究は、最小二乗法を用いて小さなデータセットで回帰モデルを学習することに集中しており、音声から様々な唇の動きを生じさせる困難に遭遇し、生成された出力を精錬するのにかなりの労力を要する。
そこで本研究では,音声と視覚の相互調整バイアスを有する軽量トランスフォーマティブ u-net の拡散モデル (said) を用いた音声駆動型3次元顔アニメーションを提案する。
さらに,ブレンドシェープ顔モデルの音声とパラメータのペアのベンチマークデータセットであるBlendVOCAを導入し,公共資源の不足に対処する。
実験の結果, 提案手法は, ベースラインに対するリップ同期において同等あるいは優れた性能を実現し, より多様な唇の動きを保証し, アニメーション編集プロセスの合理化を図っている。 Speech-driven 3D facial animation is challenging due to the scarcity of large-scale visual-audio datasets despite extensive research. Most prior works, typically focused on learning regression models on a small dataset using the method of least squares, encounter difficulties generating diverse lip movements from speech and require substantial effort in refining the generated outputs. To address these issues, we propose a speech-driven 3D facial animation with a diffusion model (SAiD), a lightweight Transformer-based U-Net with a cross-modality alignment bias between audio and visual to enhance lip synchronization. Moreover, we introduce BlendVOCA, a benchmark dataset of pairs of speech audio and parameters of a blendshape facial model, to address the scarcity of public resources. Our experimental results demonstrate that the proposed approach achieves comparable or superior performance in lip synchronization to baselines, ensures more diverse lip movements, and streamlines the animation editing process. | 翻訳日:2024-01-26 17:14:39 公開日:2024-01-25 |
# cosseggaussians: コンパクトでスウィフトなシーンセグメンテーション 3d gaussians with dual feature fusion CoSSegGaussians: Compact and Swift Scene Segmenting 3D Gaussians with Dual Feature Fusion ( http://arxiv.org/abs/2401.05925v2 ) ライセンス: Link先を確認 | Bin Dou, Tianyu Zhang, Yongjia Ma, Zhaohui Wang, Zejian Yuan | (参考訳) 我々は,RGB画像のみを入力した高速レンダリング速度で,コンパクトな3D一貫性シーンセグメンテーションを実現する手法であるCoSSegGaussiansとSwift Segmenting 3D Gaussiansを提案する。
これまでのNeRFベースのセグメンテーション手法は、時間を要するニューラルシーン最適化に依存していた。
最近の3次元ガウスのスプラッティングの速度は著しく向上したが、既存のガウスベースのセグメンテーション法はコンパクトマスク、特にゼロショットセグメンテーションの生成に苦労している。
この問題の原因は、学習可能なパラメータを各ガウスに簡単に割り当てることであり、クロスビューの不整合な2dマシン生成ラベルに対する堅牢性が欠如することにある。
本手法は,ガウスのセグメンテーション分野としてデュアル・フィーチャー・フュージョン・ネットワークを用いてこの問題に対処することを目的とする。
具体的には、まずRGB監督下で3Dガウスを最適化する。
Gaussian Locatingの後、画像から抽出したDINO特徴を明示的非投影により適用し、より効率的なポイントクラウド処理ネットワークから空間的特徴を付加する。
特徴集約は、コンパクトなセグメンテーション機能のためのグローバル-ローカル戦略でそれらを融合するために利用される。
実験結果から,提案手法は,NeRF法に比べて10倍未満の推論時間を消費する一方で,セマンティックおよび単眼ゼロショットセグメンテーションタスクのベースラインよりも優れていることがわかった。
コードやその他の結果はhttps://David-Dou.github.io/CoSSegGaussians.orgで公開される。 We propose Compact and Swift Segmenting 3D Gaussians(CoSSegGaussians), a method for compact 3D-consistent scene segmentation at fast rendering speed with only RGB images input. Previous NeRF-based segmentation methods have relied on time-consuming neural scene optimization. While recent 3D Gaussian Splatting has notably improved speed, existing Gaussian-based segmentation methods struggle to produce compact masks, especially in zero-shot segmentation. This issue probably stems from their straightforward assignment of learnable parameters to each Gaussian, resulting in a lack of robustness against cross-view inconsistent 2D machine-generated labels. Our method aims to address this problem by employing Dual Feature Fusion Network as Gaussians' segmentation field. Specifically, we first optimize 3D Gaussians under RGB supervision. After Gaussian Locating, DINO features extracted from images are applied through explicit unprojection, which are further incorporated with spatial features from the efficient point cloud processing network. Feature aggregation is utilized to fuse them in a global-to-local strategy for compact segmentation features. Experimental results show that our model outperforms baselines on both semantic and panoptic zero-shot segmentation task, meanwhile consumes less than 10\% inference time compared to NeRF-based methods. Code and more results will be available at https://David-Dou.github.io/CoSSegGaussians. | 翻訳日:2024-01-26 17:14:09 公開日:2024-01-25 |
# trustllm: 大きな言語モデルの信頼性 TrustLLM: Trustworthiness in Large Language Models ( http://arxiv.org/abs/2401.05561v3 ) ライセンス: Link先を確認 | Lichao Sun, Yue Huang, Haoran Wang, Siyuan Wu, Qihui Zhang, Chujie Gao, Yixin Huang, Wenhan Lyu, Yixuan Zhang, Xiner Li, Zhengliang Liu, Yixin Liu, Yijue Wang, Zhikun Zhang, Bhavya Kailkhura, Caiming Xiong, Chaowei Xiao, Chunyuan Li, Eric Xing, Furong Huang, Hao Liu, Heng Ji, Hongyi Wang, Huan Zhang, Huaxiu Yao, Manolis Kellis, Marinka Zitnik, Meng Jiang, Mohit Bansal, James Zou, Jian Pei, Jian Liu, Jianfeng Gao, Jiawei Han, Jieyu Zhao, Jiliang Tang, Jindong Wang, John Mitchell, Kai Shu, Kaidi Xu, Kai-Wei Chang, Lifang He, Lifu Huang, Michael Backes, Neil Zhenqiang Gong, Philip S. Yu, Pin-Yu Chen, Quanquan Gu, Ran Xu, Rex Ying, Shuiwang Ji, Suman Jana, Tianlong Chen, Tianming Liu, Tianyi Zhou, William Wang, Xiang Li, Xiangliang Zhang, Xiao Wang, Xing Xie, Xun Chen, Xuyu Wang, Yan Liu, Yanfang Ye, Yinzhi Cao, Yong Chen, Yue Zhao | (参考訳) ChatGPTによって実証された大規模言語モデル (LLM) は、その優れた自然言語処理能力でかなりの注目を集めている。
しかしながら、これらのLSMは、特に信頼性の領域において、多くの課題を提示している。
したがって、LSMの信頼性を確保することが重要なトピックである。
本稿では, LLMにおける信頼度に関する総合的研究であるTrustLLMを紹介し, 信頼性の異なる側面に対する原則, 確立されたベンチマーク, 信頼性の評価と分析, オープンチャレンジと今後の方向性について議論する。
具体的には,まず,8つの異なる次元にまたがる信頼性の高いLCMの原理を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシー、機械倫理を含む6つの次元にわたるベンチマークを確立する。
次に、30以上のデータセットからなるTrustLLMの16のメインストリームLCMを評価する。
まず,一般に信頼性と実用性(機能的有効性)は肯定的に関連していることを示す。
第2に,プロプライエタリなLDMは信頼性という点で一般的にオープンソースよりも優れており,広くアクセス可能なオープンソースLMの潜在的なリスクに対する懸念が高まっている。
しかし、いくつかのオープンソース LLM はプロプライエタリに非常に近いものである。
第3に、一部のllmは信頼性を示すために過度に調整される可能性があり、不正なプロンプトを有害として扱い、その結果、応答しないことによって、有用性を損なう可能性がある点に注意が必要である。
最後に、モデル自体だけでなく、信頼性を支える技術においても透明性を確保することの重要性を強調します。
採用されている特定の信頼に値する技術を知ることは、その効果を分析する上で重要である。 Large language models (LLMs), exemplified by ChatGPT, have gained considerable attention for their excellent natural language processing capabilities. Nonetheless, these LLMs present many challenges, particularly in the realm of trustworthiness. Therefore, ensuring the trustworthiness of LLMs emerges as an important topic. This paper introduces TrustLLM, a comprehensive study of trustworthiness in LLMs, including principles for different dimensions of trustworthiness, established benchmark, evaluation, and analysis of trustworthiness for mainstream LLMs, and discussion of open challenges and future directions. Specifically, we first propose a set of principles for trustworthy LLMs that span eight different dimensions. Based on these principles, we further establish a benchmark across six dimensions including truthfulness, safety, fairness, robustness, privacy, and machine ethics. We then present a study evaluating 16 mainstream LLMs in TrustLLM, consisting of over 30 datasets. Our findings firstly show that in general trustworthiness and utility (i.e., functional effectiveness) are positively related. Secondly, our observations reveal that proprietary LLMs generally outperform most open-source counterparts in terms of trustworthiness, raising concerns about the potential risks of widely accessible open-source LLMs. However, a few open-source LLMs come very close to proprietary ones. Thirdly, it is important to note that some LLMs may be overly calibrated towards exhibiting trustworthiness, to the extent that they compromise their utility by mistakenly treating benign prompts as harmful and consequently not responding. Finally, we emphasize the importance of ensuring transparency not only in the models themselves but also in the technologies that underpin trustworthiness. Knowing the specific trustworthy technologies that have been employed is crucial for analyzing their effectiveness. | 翻訳日:2024-01-26 17:13:42 公開日:2024-01-25 |
# オンラインプラットフォームにおける確率的フィードバック駆動のユーザへの影響 Can Probabilistic Feedback Drive User Impacts in Online Platforms? ( http://arxiv.org/abs/2401.05304v2 ) ライセンス: Link先を確認 | Jessica Dai, Bailey Flanigan, Nika Haghtalab, Meena Jagadeesan, Chara Podimata | (参考訳) コンテンツレコメンデーションシステムのネガティブなユーザへの影響に関する一般的な説明は、プラットフォームの目的とユーザ福祉の相違である。
本研究は,ユーザに対する意図しない影響の潜在的な原因は,プラットフォームの目的がユーザ福祉と完全に整合している場合でも,プラットフォームの学習アルゴリズムがユーザに対するネガティブなダウンストリームの影響を誘発できることを示す。
これらのユーザへの影響の原因は、異なるコンテンツが異なるレートで観察可能なユーザリアクション(フィードバック情報)を生成する可能性があることである。
フィードバック率の違いは、学習アルゴリズムが異なるコンテンツにどの程度の頻度で関わるかに影響を与える可能性があるため、学習アルゴリズムは必然的にそのような特性を持つコンテンツを促進することができる。
確率的フィードバックを伴うマルチアームバンディットフレームワークを用いて,フィードバック率と学習アルゴリズムの個々のアームへの関与との関係を,異なる非回帰アルゴリズムを用いて検討する。
例えば、armのフィードバック率が向上し、いくつかのno-regretアルゴリズムがarmにもっと関与し、いくつかのno-regretアルゴリズムがarmに関わりにくくなり、他のno-regretアルゴリズムがarmにほぼ同じ回数関わる。
プラットフォーム設計の観点からは,アルゴリズムのパフォーマンスを測る上で,後悔以上のものを見ることの重要性を強調し,学習アルゴリズムのさまざまなタイプのコンテンツへのエンゲージメントと結果の下流への影響を評価する。 A common explanation for negative user impacts of content recommender systems is misalignment between the platform's objective and user welfare. In this work, we show that misalignment in the platform's objective is not the only potential cause of unintended impacts on users: even when the platform's objective is fully aligned with user welfare, the platform's learning algorithm can induce negative downstream impacts on users. The source of these user impacts is that different pieces of content may generate observable user reactions (feedback information) at different rates; these feedback rates may correlate with content properties, such as controversiality or demographic similarity of the creator, that affect the user experience. Since differences in feedback rates can impact how often the learning algorithm engages with different content, the learning algorithm may inadvertently promote content with certain such properties. Using the multi-armed bandit framework with probabilistic feedback, we examine the relationship between feedback rates and a learning algorithm's engagement with individual arms for different no-regret algorithms. We prove that no-regret algorithms can exhibit a wide range of dependencies: if the feedback rate of an arm increases, some no-regret algorithms engage with the arm more, some no-regret algorithms engage with the arm less, and other no-regret algorithms engage with the arm approximately the same number of times. From a platform design perspective, our results highlight the importance of looking beyond regret when measuring an algorithm's performance, and assessing the nature of a learning algorithm's engagement with different types of content as well as their resulting downstream impacts. | 翻訳日:2024-01-26 17:13:12 公開日:2024-01-25 |
# 分割学習に基づくemg人工装具制御のための収束率最大化 Convergence Rate Maximization for Split Learning-based Control of EMG Prosthetic Devices ( http://arxiv.org/abs/2401.03233v2 ) ライセンス: Link先を確認 | Matea Marinova, Daniel Denkovski, Hristijan Gjoreski, Zoran Hadzi-Velkov, Valentin Rakovic | (参考訳) 分割学習(slit learning, sl)は、筋電図に基づく人工装具制御において有望な分散学習手法である。
深層学習やフェデレートラーニング(FL)といった他の学習手法は、補綴装置の処理能力とバッテリー寿命に極めて制限があるため、準最適ソリューションを提供する。
このようなシナリオでSLを実装することは、クライアントがより小さなモデルセグメントを実行するという、その固有のモデルパーティショニングによって引き起こされる。
しかし、不適切なカット層を選択することは、SLシステムのトレーニングプロセスを妨げる。
本稿では,モデル収束率の最大化の観点から,最適カット層選択のためのアルゴリズムを提案する。
性能評価の結果,提案アルゴリズムはEMGパターン認識タスクの収束を著しく加速し,補綴装置制御の改善を図っている。 Split Learning (SL) is a promising Distributed Learning approach in electromyography (EMG) based prosthetic control, due to its applicability within resource-constrained environments. Other learning approaches, such as Deep Learning and Federated Learning (FL), provide suboptimal solutions, since prosthetic devices are extremely limited in terms of processing power and battery life. The viability of implementing SL in such scenarios is caused by its inherent model partitioning, with clients executing the smaller model segment. However, selecting an inadequate cut layer hinders the training process in SL systems. This paper presents an algorithm for optimal cut layer selection in terms of maximizing the convergence rate of the model. The performance evaluation demonstrates that the proposed algorithm substantially accelerates the convergence in an EMG pattern recognition task for improving prosthetic device control. | 翻訳日:2024-01-26 17:12:43 公開日:2024-01-25 |
# AIは人間と同じくらい創造的か? Can AI Be as Creative as Humans? ( http://arxiv.org/abs/2401.01623v4 ) ライセンス: Link先を確認 | Haonan Wang, James Zou, Michael Mozer, Anirudh Goyal, Alex Lamb, Linjun Zhang, Weijie J Su, Zhun Deng, Michael Qizhe Xie, Hannah Brown, Kenji Kawaguchi | (参考訳) 創造性は社会的進歩とイノベーションの基盤となる。
人間の創造性に留まったタスクが可能な高度な生成型aiモデルの台頭に伴い、aiの創造性の研究は、その責任ある開発と応用に不可欠となる。
本稿では,人間が生成したデータに適切に適合できるという条件の下で,AIが人間と同じくらい創造的になれることを理論的に証明する。
したがって、AIの創造性に関する議論は、十分な量のデータに適合する能力の問題に還元される。
この結論に到達するために,本稿では,創造性の定義における複雑さについて,相対的創造性という新しい概念を導入することで論じる。
創造性を普遍的に定義するのではなく、aiが仮想人間の創造能力にマッチするかどうかに焦点を移す。
方法論的なシフトは、統計的に定量化されたAIの創造性、すなわち統計的創造性の評価につながる。
この概念は、AIの創造的能力と特定の人間グループの能力とを統計的に比較し、AIの創造的ポテンシャルの理論的な探索を促進する。
我々の分析は、生成条件を疎外することなく広範な条件データを適合させることで、AIが仮説上の新しい創造者として現れることを明らかにしている。
クリエーターは、訓練された人間のクリエーターと同等のクリエイティブな能力を持っている。
理論的な知見に基づいて,我々は,Large Language Models (LLMs) などの生成AIモデルの創造的能力を評価する実践的な手段として,即時条件付き自己回帰モデルの適用について論じる。
さらに本研究は,実践的モデル学習による創造性の理論的定量化を橋渡しし,実践可能なトレーニングガイドラインを提供する。 Creativity serves as a cornerstone for societal progress and innovation. With the rise of advanced generative AI models capable of tasks once reserved for human creativity, the study of AI's creative potential becomes imperative for its responsible development and application. In this paper, we prove in theory that AI can be as creative as humans under the condition that it can properly fit the data generated by human creators. Therefore, the debate on AI's creativity is reduced into the question of its ability to fit a sufficient amount of data. To arrive at this conclusion, this paper first addresses the complexities in defining creativity by introducing a new concept called Relative Creativity. Rather than attempting to define creativity universally, we shift the focus to whether AI can match the creative abilities of a hypothetical human. The methodological shift leads to a statistically quantifiable assessment of AI's creativity, term Statistical Creativity. This concept, statistically comparing the creative abilities of AI with those of specific human groups, facilitates theoretical exploration of AI's creative potential. Our analysis reveals that by fitting extensive conditional data without marginalizing out the generative conditions, AI can emerge as a hypothetical new creator. The creator possesses the same creative abilities on par with the human creators it was trained on. Building on theoretical findings, we discuss the application in prompt-conditioned autoregressive models, providing a practical means for evaluating creative abilities of generative AI models, such as Large Language Models (LLMs). Additionally, this study provides an actionable training guideline, bridging the theoretical quantification of creativity with practical model training. | 翻訳日:2024-01-26 17:12:29 公開日:2024-01-25 |
# 結晶材料研究における深いハミルトン回帰の共分散と表現性:ハイブリッドカスケード回帰フレームワーク Harmonizing Covariance and Expressiveness for Deep Hamiltonian Regression in Crystalline Material Research: a Hybrid Cascaded Regression Framework ( http://arxiv.org/abs/2401.00744v5 ) ライセンス: Link先を確認 | Shi Yin, Xinyang Pan, Xudong Zhu, Tianyu Gao, Haochong Zhang, Feng Wu, Lixin He | (参考訳) 材料研究における量子システムのハミルトニアン回帰のための深層学習は、共分散則を満たす必要があり、その中でネットワークの表現能力を犠牲にすることなくso(3)等価性を達成することは、理論的等分散の保証に関する非線形写像の制限のため、難解な課題である。
共分散表現性ジレンマを緩和するために,2つの逐次回帰段階を持つハイブリッドフレームワークを提案する。
第一段階、すなわち3次元原子系の対称性特性をモデル化する理論的に保証された共変ニューラルネットワークは、理論的に共変な特徴を抽出したベースラインハミルトニアンを予測する。
一方,第2段階は非線形3次元グラフトランスフォーマーネットワークを用いて,原子系の構造モデリングを提案し,表現性の向上を図ったハミルトンの詳細な予測として,第1段階の出力を洗練する。
理論上は共変だが表現力の低いモデルと高度に表現力のある非線形ネットワークの組み合わせは、座標変換の下で堅牢な共変を維持しつつ、正確で一般化可能な予測を可能にする。
本手法は6つの結晶性材料データベースを用いた実験により,電子構造計算におけるハミルトン予測の最先端性能を実現する。
コードと構成のスクリプトは補足資料で入手できる。 Deep learning for Hamiltonian regression of quantum systems in material research necessitates satisfying the covariance laws, among which achieving SO(3)-equivariance without sacrificing the expressiveness capability of networks remains an elusive challenge due to the restriction to non-linear mappings on guaranteeing theoretical equivariance. To alleviate the covariance-expressiveness dilemma, we propose a hybrid framework with two cascaded regression stages. The first stage, i.e., a theoretically-guaranteed covariant neural network modeling symmetry properties of 3D atom systems, predicts baseline Hamiltonians with theoretically covariant features extracted, assisting the second stage in learning covariance. Meanwhile, the second stage, powered by a non-linear 3D graph Transformer network we propose for structural modeling of atomic systems, refines the first stage's output as a fine-grained prediction of Hamiltonians with better expressiveness capability. The combination of a theoretically covariant yet inevitably less expressive model with a highly expressive non-linear network enables precise, generalizable predictions while maintaining robust covariance under coordinate transformations. Our method achieves state-of-the-art performance in Hamiltonian prediction for electronic structure calculations, confirmed through experiments on six crystalline material databases. The codes and configuration scripts are available in the supplementary material. | 翻訳日:2024-01-26 17:12:01 公開日:2024-01-25 |
# 位相雑音下での二相シフト鍵識別のためのロバストハイブリッド受信機 A robust hybrid receiver for binary phase-shift keying discrimination in the presence of phase noise ( http://arxiv.org/abs/2312.16493v2 ) ライセンス: Link先を確認 | Michele N. Notarnicola and Stefano Olivares | (参考訳) 位相拡散の存在下でのコヒーレント状態の識別の問題に対処する。
我々は,[J. Opt. Am. B 40, 705-714 (2023)]で提案したHybrid near-optimum receiver (HYNORE) の役割について検討した。
我々はHYNOREがロバストな受信機であることを証明し、変位光子数分解(DPNR)受信機よりも優れ、特定のレシエーションにおける標準量子限界を上回ります。
本稿では,可逆位相雑音$\sigma_{\mathrm{max}}$をレシーバのロバスト性を示す指標として導入し,DPNRレシーバに対するHYNOREの値が増加することを示す。 We address the problem of coherent state discrimination in the presence of phase diffusion. We investigate the role of the hybrid near-optimum receiver (HYNORE) we proposed in [J. Opt. Soc. Am. B 40, 705-714 (2023)] in the task of mitigating the noise impact. We prove the HYNORE to be a robust receiver, outperforming the displacement photon-number-resolving (DPNR) receiver and beating the standard quantum limit in particular regimes. We introduce the maximum tolerable phase noise $\sigma_{\mathrm{max}}$ as a figure of merit for the receiver robustness and show that HYNORE increases its value with respect to the DPNR receiver. | 翻訳日:2024-01-26 17:11:37 公開日:2024-01-25 |
# 対向ロバスト性に対する良性過剰フィッティングの驚くべき有害性 The Surprising Harmfulness of Benign Overfitting for Adversarial Robustness ( http://arxiv.org/abs/2401.12236v2 ) ライセンス: Link先を確認 | Yifan Hao, Tong Zhang | (参考訳) 最近の経験的および理論的研究は、大きめの機械学習モデルの一般化能力を確立し、(ほぼ正確には)相応しいノイズデータに適合するように訓練されている。
本研究では,基底的真理自体が敵の例に頑健であり,かつ,良性過剰なモデルが‘標準’の外部リスク目標の観点から良性であるとしても,この良性過剰フィッティングプロセスは,サンプル外データが敵の操作を受ける場合に有害であることを示す。
より具体的には 主な結果には2つの部分があります
i) 過パラメータ化線形モデルにおけるmin-norm推定器は、常に `` Benign overfitting' の設定における逆の脆弱性につながる。
(ii)リッジ回帰推定器の標準リスクと'adversarial''リスクとの漸近的トレードオフを検証し、適切な条件下ではリッジ正規化パラメータの任意の1つの選択によって、これら2つの項目が同時に小さくならないことを示唆する。
さらに,遅延学習環境下では,ディープニューラルネットワークにおける経験的観測と整合する2層ニューラルタンジェント・カーネル(ntk)モデル上で並列結果を示す。
我々の発見は、実際の目標関数(例えば、人間)が平均攻撃に対して頑健であり、まずは過剰に適合したニューラルネットワークが頑健でないモデルにつながるという、実際に観測されるパズリング現象に関する理論的洞察を提供する。 Recent empirical and theoretical studies have established the generalization capabilities of large machine learning models that are trained to (approximately or exactly) fit noisy data. In this work, we prove a surprising result that even if the ground truth itself is robust to adversarial examples, and the benignly overfitted model is benign in terms of the ``standard'' out-of-sample risk objective, this benign overfitting process can be harmful when out-of-sample data are subject to adversarial manipulation. More specifically, our main results contain two parts: (i) the min-norm estimator in overparameterized linear model always leads to adversarial vulnerability in the ``benign overfitting'' setting; (ii) we verify an asymptotic trade-off result between the standard risk and the ``adversarial'' risk of every ridge regression estimator, implying that under suitable conditions these two items cannot both be small at the same time by any single choice of the ridge regularization parameter. Furthermore, under the lazy training regime, we demonstrate parallel results on two-layer neural tangent kernel (NTK) model, which align with empirical observations in deep neural networks. Our finding provides theoretical insights into the puzzling phenomenon observed in practice, where the true target function (e.g., human) is robust against adverasrial attack, while beginly overfitted neural networks lead to models that are not robust. | 翻訳日:2024-01-26 17:01:13 公開日:2024-01-25 |
# 光格子に閉じ込められた準安定ストロンチウムにコードされる微細構造量子ビット Fine-Structure Qubit Encoded in Metastable Strontium Trapped in an Optical Lattice ( http://arxiv.org/abs/2401.11054v2 ) ライセンス: Link先を確認 | S. Pucher, V. Kl\"usener, F. Spriestersbach, J. Geiger, A. Schindewolf, I. Bloch, S. Blatt | (参考訳) 中性ストロンチウム原子における微細構造量子ビットのコヒーレント制御を示す。
この量子ビットは準安定な$^3\mathrm{P}_2$と$^3\mathrm{P}_0$状態に符号化され、ラマン転移によって結合される。
磁気四極子遷移を用いて、このthz量子ビットのコヒーレント状態初期化を示す。
我々は、$\mu$sスケールで60以上のコヒーレントサイクルと1量子回転を持つラビ振動を示す。
私たちの結果は、高速量子情報プロセッサと、2電子原子を持つ高度に調整可能な量子シミュレータへの道を開くものです。 We demonstrate coherent control of the fine-structure qubit in neutral strontium atoms. This qubit is encoded in the metastable $^3\mathrm{P}_2$ and $^3\mathrm{P}_0$ states, coupled by a Raman transition. Using a magnetic quadrupole transition, we demonstrate coherent state-initialization of this THz qubit. We show Rabi oscillations with more than 60 coherent cycles and single-qubit rotations on the $\mu$s scale. With spin-echo, we demonstrate coherence times of tens of ms. Our results pave the way for fast quantum information processors and highly tunable quantum simulators with two-electron atoms. | 翻訳日:2024-01-26 17:00:45 公開日:2024-01-25 |
# 変圧器時代の変質 Transformations in the Time of The Transformer ( http://arxiv.org/abs/2401.10897v2 ) ライセンス: Link先を確認 | Peyman Faratin, Ray Garcia, Jacomo Corbo | (参考訳) 基盤モデルは、既存のシステムとワークフローを新しいaiファーストパースペクティブで再設計する新しい機会を提供する。
しかし、この機会の運用にはいくつかの課題とトレードオフがある。
この記事では、企業がAIファースト組織への転換の旅を始めるとき、合理的な選択を行うための組織的なフレームワークを提供することを目標にしています。
提供される選択は全体的、意図的、情報的であり、注意散らしを避ける。
フィールドは速く動いているように見えるかもしれないが、相対的に遅く動く基本的な要素がある。
我々は、引数の論理を構築するためにこれらの不変因子に焦点を当てる。 Foundation models offer a new opportunity to redesign existing systems and workflows with a new AI first perspective. However, operationalizing this opportunity faces several challenges and tradeoffs. The goal of this article is to offer an organizational framework for making rational choices as enterprises start their transformation journey towards an AI first organization. The choices provided are holistic, intentional and informed while avoiding distractions. The field may appear to be moving fast, but there are core fundamental factors that are relatively more slow moving. We focus on these invariant factors to build the logic of the argument. | 翻訳日:2024-01-26 17:00:17 公開日:2024-01-25 |
# サプライチェーンリスクアセスメントにおけるai--体系的文献レビューと書誌分析 AI in Supply Chain Risk Assessment: A Systematic Literature Review and Bibliometric Analysis ( http://arxiv.org/abs/2401.10895v2 ) ライセンス: Link先を確認 | Md Abrar Jahin, Saleh Akram Naife, Anik Kumar Saha, and M. F. Mridha | (参考訳) サプライチェーンリスクアセスメント(SCRA)は、人工知能(AI)と機械学習(ML)技術を統合し、予測能力とリスク軽減戦略に革命をもたらすことにより、大きな進化を目の当たりにした。
この進化の意義は、現代のサプライチェーンにおける運用上のレジリエンスと継続性の確保において、ロバストなリスク管理戦略の重要な役割に起因している。
これまでのレビューでは、確立された方法論を概説しているが、新たなAI/MLテクニックを見落としており、SCRAにおけるそれらの実践的影響を理解する上で、注目すべき研究ギャップを残している。
本稿では,包括的書誌分析と組み合わせた体系的文献レビューを行う。
我々は2014年から2023年にかけて発行された48の論文の中から1,717の論文を精査し、重要な洞察を得た。
このレビューは、重要な研究課題に対処し、既存のAI/ML技術、方法論、発見、そして将来の軌跡を探究することによって、この研究ギャップを埋める。
我々の研究は、ランダムフォレスト、XGBoost、ハイブリッドといったAI/MLモデルの変換効果を明らかにし、SCRA内の精度を大幅に向上させる。
適応可能なポストコビッド戦略を基本とし、回復力のあるコンティンジェンシープランを提唱し、リスクランドスケープを進化させる。
このレビューは、新たなAI/ML技術とそのSCRA内での実践的意味をアクセント化することによって、これまでの試験を上回ります。
さらに、包括的な書誌分析を通じて貢献を強調し、出版の傾向、影響力のある著者、そして高い引用記事を明らかにする。 Supply chain risk assessment (SCRA) has witnessed a profound evolution through the integration of artificial intelligence (AI) and machine learning (ML) techniques, revolutionizing predictive capabilities and risk mitigation strategies. The significance of this evolution stems from the critical role of robust risk management strategies in ensuring operational resilience and continuity within modern supply chains. Previous reviews have outlined established methodologies but have overlooked emerging AI/ML techniques, leaving a notable research gap in understanding their practical implications within SCRA. This paper conducts a systematic literature review combined with a comprehensive bibliometric analysis. We meticulously examined 1,717 papers and derived key insights from a select group of 48 articles published between 2014 and 2023. The review fills this research gap by addressing pivotal research questions, and exploring existing AI/ML techniques, methodologies, findings, and future trajectories, thereby providing a more encompassing view of the evolving landscape of SCRA. Our study unveils the transformative impact of AI/ML models, such as Random Forest, XGBoost, and hybrids, in substantially enhancing precision within SCRA. It underscores adaptable post-COVID strategies, advocating for resilient contingency plans and aligning with evolving risk landscapes. Significantly, this review surpasses previous examinations by accentuating emerging AI/ML techniques and their practical implications within SCRA. Furthermore, it highlights the contributions through a comprehensive bibliometric analysis, revealing publication trends, influential authors, and highly cited articles. | 翻訳日:2024-01-26 17:00:08 公開日:2024-01-25 |
# Mementos: 画像シーケンスに対するマルチモーダル大規模言語モデル推論のための総合ベンチマーク Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences ( http://arxiv.org/abs/2401.10529v2 ) ライセンス: Link先を確認 | Xiyao Wang, Yuhang Zhou, Xiaoyu Liu, Hongjin Lu, Yuancheng Xu, Feihong He, Jaehong Yoon, Taixi Lu, Gedas Bertasius, Mohit Bansal, Huaxiu Yao, Furong Huang | (参考訳) MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクを扱う能力を示す。
しかし、現在のMLLMベンチマークは、単一の画像に関する静的情報に基づいて推論を評価するために主に設計されており、現代のMLLMが画像列から外挿する能力は、常に変化する世界を理解するのに欠かせないものである。
そこで本稿では,MLLMの逐次的画像推論能力を評価するためのベンチマークであるMementosを紹介する。
Mementosには4,761の多様な画像シーケンスがあり、長さは様々である。
また,GPT-4を用いたMLLM推論性能の評価を行った。
GPT-4V や Gemini を含む最近の9つの Mementos 上でのMLLM の慎重な評価により、与えられた画像列の動的情報を正確に記述することは困難であり、しばしば幻覚/誤表現やそれに対応する行動を引き起こす。
定量的解析とケーススタディにより,mllmsの逐次的画像推論に影響を与える3つの重要な要因,対象と行動の幻覚の相関,共起行動の影響,行動幻覚の複合的影響が同定された。
私たちのデータセットはhttps://github.com/umd-huang-lab/mementosで利用可能です。 Multimodal Large Language Models (MLLMs) have demonstrated proficiency in handling a variety of visual-language tasks. However, current MLLM benchmarks are predominantly designed to evaluate reasoning based on static information about a single image, and the ability of modern MLLMs to extrapolate from image sequences, which is essential for understanding our ever-changing world, has been less investigated. To address this challenge, this paper introduces Mementos, a new benchmark designed to assess MLLMs' sequential image reasoning abilities. Mementos features 4,761 diverse image sequences with varying lengths. We also employ a GPT-4 assisted method to evaluate MLLM reasoning performance. Through a careful evaluation of nine recent MLLMs on Mementos, including GPT-4V and Gemini, we find that they struggle to accurately describe dynamic information about given image sequences, often leading to hallucinations/misrepresentations of objects and their corresponding behaviors. Our quantitative analysis and case studies identify three key factors impacting MLLMs' sequential image reasoning: the correlation between object and behavioral hallucinations, the influence of cooccurring behaviors, and the compounding impact of behavioral hallucinations. Our dataset is available at https://github.com/umd-huang-lab/Mementos. | 翻訳日:2024-01-26 16:59:19 公開日:2024-01-25 |
# cbvs - 実世界のショートビデオ検索シナリオのための大規模中国の画像テキストベンチマーク CBVS: A Large-Scale Chinese Image-Text Benchmark for Real-World Short Video Search Scenarios ( http://arxiv.org/abs/2401.10475v2 ) ライセンス: Link先を確認 | Xiangshuo Qiao, Xianxin Li, Xiaozhe Qu, Jie Zhang, Yang Liu, Yu Luo, Cihang Jin, Jin Ma | (参考訳) 大規模画像テキストデータセットで事前訓練された視覚言語モデルは、画像検索などの下流タスクにおいて優れた性能を示している。
事前学習用の画像のほとんどは、オープンドメインの常識的な視覚要素の形で提示される。
異なるのは、短いビデオ検索シナリオにおけるビデオカバーは、ビデオの重要なビジュアル要約を提供するユーザーによるコンテンツとして提示される。
さらに、ビデオのカバーの一部には、セマンティック補完を提供するカバーテキストが手作業でデザインされている。
ショートビデオのカバーデータにおけるギャップを埋めるため,中国のショートビデオ検索シナリオを対象とした,最初の大規模カバーテキストベンチマークを構築した。
具体的には,ショートビデオカバーを提供するために2つの大規模データセット cbvs-5m/10m と,中国のショートビデオ検索分野におけるイメージテキストベンチマークテストとして機能する実ユーザクエリを提供する手作業用データセット cbvs-20k をリリースする。
モダリティが欠如している場合のカバーテキストの意味論を統合するために、トレーニング中にカバーテキストが指導的役割を果たすUniCLIPを提案するが、推論には依存しない。
CBVS-20Kの大規模評価は,提案手法の優れた性能を示す。
UniCLIPはTencentのオンラインビデオ検索システムに数億回の訪問で展開され、大きな成功を収めている。
データセットとコードはhttps://github.com/QQBrowserVideoSearch/CBVS-UniCLIPで公開されている。 Vision-Language Models pre-trained on large-scale image-text datasets have shown superior performance in downstream tasks such as image retrieval. Most of the images for pre-training are presented in the form of open domain common-sense visual elements. Differently, video covers in short video search scenarios are presented as user-originated contents that provide important visual summaries of videos. In addition, a portion of the video covers come with manually designed cover texts that provide semantic complements. In order to fill in the gaps in short video cover data, we establish the first large-scale cover-text benchmark for Chinese short video search scenarios. Specifically, we release two large-scale datasets CBVS-5M/10M to provide short video covers, and the manual fine-labeling dataset CBVS-20K to provide real user queries, which serves as an image-text benchmark test in the Chinese short video search field. To integrate the semantics of cover text in the case of modality missing, we propose UniCLIP where cover texts play a guiding role during training, however are not relied upon by inference. Extensive evaluation on CBVS-20K demonstrates the excellent performance of our proposal. UniCLIP has been deployed to Tencent's online video search systems with hundreds of millions of visits and achieved significant gains. The dataset and code are available at https://github.com/QQBrowserVideoSearch/CBVS-UniCLIP. | 翻訳日:2024-01-26 16:58:56 公開日:2024-01-25 |
# 中国のデータ処理でトップ - 英語コードモデル Top in Chinese Data Processing: English Code Models ( http://arxiv.org/abs/2401.10286v2 ) ライセンス: Link先を確認 | Linghan Zheng, Hui Liu, Xiaojun Lin, Jiayuan Dong, Yue Sheng, Gang Shi, Zhiwei Liu, Hongwei Chen | (参考訳) タスクとトレーニングコーパスのアラインメントは言語モデルの応用において基本的なコンセンサスですが、コードベースの大規模言語モデル(llm)が、中国の非コーディングタスクのタスクと密接にマッチするデータに基づいてトレーニングされたモデルを大幅に上回っています。
さらに、中国語の幻覚に対する感度が高いタスクでは、中国語の言語的特徴の少ないモデルの方がパフォーマンスが向上する。
実験結果は,ベースモデルをコードベースモデルに置き換えることで,検索型生成(rag)のためのデータ準備など,中国のデータ処理タスクで容易に再現できる。
さらに,本研究は,哲学的「中国室」思考実験について,明確な視点で論じる。 While the alignment between tasks and training corpora is a fundamental consensus in the application of language models, our series of experiments and the metrics we designed reveal that code-based Large Language Models (LLMs) significantly outperform models trained on data that is closely matched to the tasks in non-coding Chinese tasks. Moreover, in tasks high sensitivity to Chinese hallucinations, models exhibiting fewer linguistic features of the Chinese language achieve better performance. Our experimental results can be easily replicated in Chinese data processing tasks, such as preparing data for Retrieval-Augmented Generation (RAG), by simply replacing the base model with a code-based model. Additionally, our research offers a distinct perspective for discussion on the philosophical "Chinese Room" thought experiment. | 翻訳日:2024-01-26 16:58:32 公開日:2024-01-25 |
# 多変量時系列異常検出のためのエッジ条件ノード更新グラフニューラルネットワーク Edge Conditional Node Update Graph Neural Network for Multi-variate Time Series Anomaly Detection ( http://arxiv.org/abs/2401.13872v1 ) ライセンス: Link先を確認 | Hayoung Jo and Seong-Whan Lee | (参考訳) サイバーフィジカルシステムの急速な進歩により、センサーの数の増加はシステム状態の手動監視をかなり複雑にしている。
その結果,センサ間の関係を明示的に表現できるため,グラフに基づく時系列異常検出手法が注目されている。
しかし、これらの方法はしばしば、異なる対象ノード表現を更新しても、接続されたすべてのターゲットノードに統一されたソースノード表現を適用する。
さらに、未知のグラフ構造を推論するために一般的に使用されるグラフアテンション機構は、ソースノード表現の多様性を制限できる。
本稿では,Edge Conditional Node-update Graph Neural Network (ECNU-GNN)を紹介する。
エッジ条件ノード更新モジュールを備えた本モデルは,接続されたエッジに基づいて動的にソースノード表現を変換し,ターゲットノードを適切に表現する。
実世界の3つのデータセット(SWaT, WADI, PSM)の性能を評価する。
本モデルは,f1ベースラインモデルと比較して,それぞれ5.4%,12.4%,6.0%高い性能を示す。 With the rapid advancement in cyber-physical systems, the increasing number of sensors has significantly complicated manual monitoring of system states. Consequently, graph-based time-series anomaly detection methods have gained attention due to their ability to explicitly represent relationships between sensors. However, these methods often apply a uniform source node representation across all connected target nodes, even when updating different target node representations. Moreover, the graph attention mechanism, commonly used to infer unknown graph structures, could constrain the diversity of source node representations. In this paper, we introduce the Edge Conditional Node-update Graph Neural Network (ECNU-GNN). Our model, equipped with an edge conditional node update module, dynamically transforms source node representations based on connected edges to represent target nodes aptly. We validate performance on three real-world datasets: SWaT, WADI, and PSM. Our model demonstrates 5.4%, 12.4%, and 6.0% higher performance, respectively, compared to best F1 baseline models. | 翻訳日:2024-01-26 16:14:38 公開日:2024-01-25 |
# 医療報告生成における大規模言語モデルの未知化と定量化 Unmasking and Quantifying Racial Bias of Large Language Models in Medical Report Generation ( http://arxiv.org/abs/2401.13867v1 ) ライセンス: Link先を確認 | Yifan Yang, Xiaoyu Liu, Qiao Jin, Furong Huang, Zhiyong Lu | (参考訳) GPT-3.5-turboやGPT-4のような大きな言語モデルは、医療専門家に約束するが、トレーニング中にバイアスを必然的に受け継ぎ、医療応用における有用性に影響を与える可能性がある。
過去への試みは少ないが、これらのバイアスの正確な影響と範囲はいまだに不明である。
質的および定量的な分析により、これらのモデルは白人の患者にとって高いコストとより長い入院を予想し、生存率の高い挑戦的な医療シナリオにおいて楽観的な見解を示す傾向があることが分かる。
実際の医療格差を反映したこれらのバイアスは、患者背景の生成、特定の疾患と特定の人種との関連、治療勧告の格差などにおいて明らかである。
我々の研究は、言語モデル、特に重要な医療応用において、全ての患者に対して公平かつ正確な結果を確保するために、バイアスに対処し緩和する将来の研究の必要性を浮き彫りにしている。 Large language models like GPT-3.5-turbo and GPT-4 hold promise for healthcare professionals, but they may inadvertently inherit biases during their training, potentially affecting their utility in medical applications. Despite few attempts in the past, the precise impact and extent of these biases remain uncertain. Through both qualitative and quantitative analyses, we find that these models tend to project higher costs and longer hospitalizations for White populations and exhibit optimistic views in challenging medical scenarios with much higher survival rates. These biases, which mirror real-world healthcare disparities, are evident in the generation of patient backgrounds, the association of specific diseases with certain races, and disparities in treatment recommendations, etc. Our findings underscore the critical need for future research to address and mitigate biases in language models, especially in critical healthcare applications, to ensure fair and accurate outcomes for all patients. | 翻訳日:2024-01-26 16:14:23 公開日:2024-01-25 |
# 確率的主観的逆境学習による視線の出現偏差推定 Appearance Debiased Gaze Estimation via Stochastic Subject-Wise Adversarial Learning ( http://arxiv.org/abs/2401.13865v1 ) ライセンス: Link先を確認 | Suneung Kim, Woo-Jeoung Nam, Seong-Whan Lee | (参考訳) 近年,コンピュータビジョンにおいて外観に基づく視線推定が注目され,様々な深層学習技術を用いて著しく改善されている。
このような進歩にもかかわらず、ほとんどの方法は画像から直接視線ベクトルを推測することを目的としており、これは人物特有の外観因子に過剰適合を引き起こす。
本稿では,これらの課題に対処し,対象の外観を一般化するためのネットワークを訓練する確率的主観的対人gaZE学習(SAZE)という,新しい枠組みを提案する。
顔-gazeエンコーダと顔識別分類器を用いて顔一般化ネットワーク(fgen-net)を設計,提案する。
提案する損失は顔の出現因子を一般化し,同一性分類器が一様確率分布を推定する。
さらにFgen-Netは、トレーニングステップ毎にサブセットを選択してネットワークを最適化する学習メカニズムによってトレーニングされる。
本手法はmpiigazeとeyediapのデータセットで3.89と4.42をそれぞれ達成し,最先端の性能が得られるというロバスト性を検証する。
さらに,生成モデルから生成した異なるスタイルを含む顔画像を用いて,さらに実験を行い,正の一般化効果を示す。 Recently, appearance-based gaze estimation has been attracting attention in computer vision, and remarkable improvements have been achieved using various deep learning techniques. Despite such progress, most methods aim to infer gaze vectors from images directly, which causes overfitting to person-specific appearance factors. In this paper, we address these challenges and propose a novel framework: Stochastic subject-wise Adversarial gaZE learning (SAZE), which trains a network to generalize the appearance of subjects. We design a Face generalization Network (Fgen-Net) using a face-to-gaze encoder and face identity classifier and a proposed adversarial loss. The proposed loss generalizes face appearance factors so that the identity classifier inferences a uniform probability distribution. In addition, the Fgen-Net is trained by a learning mechanism that optimizes the network by reselecting a subset of subjects at every training step to avoid overfitting. Our experimental results verify the robustness of the method in that it yields state-of-the-art performance, achieving 3.89 and 4.42 on the MPIIGaze and EyeDiap datasets, respectively. Furthermore, we demonstrate the positive generalization effect by conducting further experiments using face images involving different styles generated from the generative model. | 翻訳日:2024-01-26 16:14:06 公開日:2024-01-25 |
# 離散分布のためのスペクトルクラスタリング Spectral Clustering for Discrete Distributions ( http://arxiv.org/abs/2401.13913v1 ) ライセンス: Link先を確認 | Zixiao Wang, Dong Qiao, Jicong Fan | (参考訳) 離散分布クラスタリング(d2c)はwasserstein barycenter法によってしばしば解かれた。
これらの方法は、クラスタがbarycentersによってうまく表現できるという共通の仮定の下に置かれている。
本研究では,d2cに対するスペクトルクラスタリングと分布親和性尺度(例えば,最大平均偏差とワッサースタイン距離)に基づく,単純かつ効果的な枠組みを提案する。
拡張性を向上させるため,大規模データセット上での親和性行列を効率的に構築するために線形最適輸送法を提案する。
本稿では,クラスタリング分布における提案手法の成功を理論的に保証する。
合成データおよび実データを用いた実験により,本手法はクラスタリング精度と計算効率の両面で,ベースラインよりも優れていることがわかった。 Discrete distribution clustering (D2C) was often solved by Wasserstein barycenter methods. These methods are under a common assumption that clusters can be well represented by barycenters, which may not hold in many real applications. In this work, we propose a simple yet effective framework based on spectral clustering and distribution affinity measures (e.g., maximum mean discrepancy and Wasserstein distance) for D2C. To improve the scalability, we propose to use linear optimal transport to construct affinity matrices efficiently on large datasets. We provide theoretical guarantees for the success of the proposed methods in clustering distributions. Experiments on synthetic and real data show that our methods outperform the baselines largely in terms of both clustering accuracy and computational efficiency. | 翻訳日:2024-01-26 16:01:05 公開日:2024-01-25 |
# 時系列予測のための深層学習モデルと基礎モデルの検討 A Survey of Deep Learning and Foundation Models for Time Series Forecasting ( http://arxiv.org/abs/2401.13912v1 ) ライセンス: Link先を確認 | John A. Miller, Mohammed Aldosari, Farah Saeed, Nasid Habib Barna, Subas Rana, I. Budak Arpinar, and Ninghao Liu | (参考訳) ディープラーニングは多くのアプリケーションドメインにうまく適用されているが、その利点は時系列予測に現れるのが遅かった。
例えば、有名なMakridakis(M)コンペティションでは、従来の統計学や機械学習のテクニックのハイブリッドが、最近になってトップパフォーマーになった。
近年のディープラーニングのアーキテクチャ上の進歩は、時系列予測(注意深いエンコーダデコーダ、トランスフォーマー、グラフニューラルネットワークなど)に応用され、ディープラーニングは大きなアドバンテージを示し始めている。
それでも、パンデミック予測の領域では、ディープラーニングモデルには、効果的なトレーニング、蓄積された科学的知識の認識、モデルの解釈に十分な時間がないという課題が残っている。
この目的のために、基礎モデル(大規模な事前学習を伴う大規模ディープラーニングモデル)の開発は、広範囲なトレーニングデータが利用可能になる前に、モデルがパターンを理解し、新しい関連する問題に適用可能な知識を得ることを可能にする。
さらに、知識グラフや、科学的なドメイン知識で微調整された大きな言語モデルなど、ディープラーニングモデルが活用可能な知識もたくさんあります。
このような知識を深層学習モデルに活用または注入する方法について研究が進行中である。
本調査では,いくつかの最先端モデリング手法を概説し,今後の課題について提案する。 Deep Learning has been successfully applied to many application domains, yet its advantages have been slow to emerge for time series forecasting. For example, in the well-known Makridakis (M) Competitions, hybrids of traditional statistical or machine learning techniques have only recently become the top performers. With the recent architectural advances in deep learning being applied to time series forecasting (e.g., encoder-decoders with attention, transformers, and graph neural networks), deep learning has begun to show significant advantages. Still, in the area of pandemic prediction, there remain challenges for deep learning models: the time series is not long enough for effective training, unawareness of accumulated scientific knowledge, and interpretability of the model. To this end, the development of foundation models (large deep learning models with extensive pre-training) allows models to understand patterns and acquire knowledge that can be applied to new related problems before extensive training data becomes available. Furthermore, there is a vast amount of knowledge available that deep learning models can tap into, including Knowledge Graphs and Large Language Models fine-tuned with scientific domain knowledge. There is ongoing research examining how to utilize or inject such knowledge into deep learning models. In this survey, several state-of-the-art modeling techniques are reviewed, and suggestions for further work are provided. | 翻訳日:2024-01-26 16:00:52 公開日:2024-01-25 |
# no more distractions: データアーティファクトを減らす適応的なアップサンプリングアルゴリズム No More Distractions: an Adaptive Up-Sampling Algorithm to Reduce Data Artifacts ( http://arxiv.org/abs/2401.13907v1 ) ライセンス: Link先を確認 | Han Chen | (参考訳) 研究者は最近、言語モデルがベンチマークデータセットで高い精度を達成することがあることを発見したが、元のデータセットにわずかな変更を加えるだけではうまく一般化できない。
これは時々データアーティファクトによるもので、モデルはセマンティクスとロジックではなく、トークンとラベルの間の散発的な相関を学習している。
本研究ではSNLIデータを解析し,その相関関係を可視化した。
本研究では,データアーティファクトを簡易かつ効果的に修正し,人間の編集やアノテーションを必要としない適応型アップサンプリングアルゴリズムを提案する。
SNLIデータ中のデータアーチファクトの修正にアルゴリズムを適用した実験を行い、修正データでトレーニングしたモデルは、修正したサブセットだけでなく、生のSNLIデータでトレーニングしたモデルよりも大幅に改善した。 Researchers recently found out that sometimes language models achieve high accuracy on benchmark data set, but they can not generalize very well with even little changes to the original data set. This is sometimes due to data artifacts, model is learning the spurious correlation between tokens and labels, instead of the semantics and logic. In this work, we analyzed SNLI data and visualized such spurious correlations. We proposed an adaptive up-sampling algorithm to correct the data artifacts, which is simple and effective, and does not need human edits or annotation. We did an experiment applying the algorithm to fix the data artifacts in SNLI data and the model trained with corrected data performed significantly better than the model trained with raw SNLI data, overall, as well as on the subset we corrected. | 翻訳日:2024-01-26 16:00:29 公開日:2024-01-25 |
# 動的組込み話題モデルと変化点検出による文学史的仮説の探索 Dynamic embedded topic models and change-point detection for exploring literary-historical hypotheses ( http://arxiv.org/abs/2401.13905v1 ) ライセンス: Link先を確認 | Hale Sirin, Tom Lippincott | (参考訳) 古典ラテン語と初期キリスト教ラテン語における語彙的意味的モダリティの2次変化を探索するために,動的埋め込みトピックモデルと変化点検出の新たな組み合わせを提案する。
結果のパターンを検索し,特徴付けするためのいくつかの手法を実証し,比較文学・古典における従来の奨学金と関連付ける。
意味変化の教師なしモデルに対するこの単純なアプローチは,任意の適切なコーパスに適用可能である。 We present a novel combination of dynamic embedded topic models and change-point detection to explore diachronic change of lexical semantic modality in classical and early Christian Latin. We demonstrate several methods for finding and characterizing patterns in the output, and relating them to traditional scholarship in Comparative Literature and Classics. This simple approach to unsupervised models of semantic change can be applied to any suitable corpus, and we conclude with future directions and refinements aiming to allow noisier, less-curated materials to meet that threshold. | 翻訳日:2024-01-26 16:00:14 公開日:2024-01-25 |
# 化学者のように考える機械をエンパワーする:分子構造と多義性の関係と階層的シンボリック回帰 Empowering Machines to Think Like Chemists: Unveiling Molecular Structure-Polarity Relationships with Hierarchical Symbolic Regression ( http://arxiv.org/abs/2401.13904v1 ) ライセンス: Link先を確認 | Siyu Lou, Chengchun Liu, Yuntian Chen, Fanyang Mo | (参考訳) 薄膜クロマトグラフィー(TLC)は分子極性解析において重要な技術である。
その重要性にもかかわらず、特に人工知能によって駆動されるtlcの予測モデルの解釈は依然として課題である。
現在のアプローチでは、高次元の分子指紋またはドメイン知識駆動型特徴工学のいずれかを利用し、表現性と解釈性の間にジレンマに直面していることが多い。
このギャップを埋めるために、階層型ニューラルネットワークとシンボリックレグレッションを組み合わせた教師なし階層的シンボリック回帰(UHiSR)を導入する。
UHiSRは化学直観的な極性指数を自動的に蒸留し、分子構造とクロマトグラフィーの挙動を結びつける解釈可能な方程式を発見する。 Thin-layer chromatography (TLC) is a crucial technique in molecular polarity analysis. Despite its importance, the interpretability of predictive models for TLC, especially those driven by artificial intelligence, remains a challenge. Current approaches, utilizing either high-dimensional molecular fingerprints or domain-knowledge-driven feature engineering, often face a dilemma between expressiveness and interpretability. To bridge this gap, we introduce Unsupervised Hierarchical Symbolic Regression (UHiSR), combining hierarchical neural networks and symbolic regression. UHiSR automatically distills chemical-intuitive polarity indices, and discovers interpretable equations that link molecular structure to chromatographic behavior. | 翻訳日:2024-01-26 16:00:00 公開日:2024-01-25 |
# 重度欠落モード下におけるクロスモーダルプロトタイプベースマルチモーダルフェデレーション学習 Cross-Modal Prototype based Multimodal Federated Learning under Severely Missing Modality ( http://arxiv.org/abs/2401.13898v1 ) ライセンス: Link先を確認 | Huy Q. Le, Chu Myaet Thwal, Yu Qiao, Ye Lin Tun, Minh N. H. Nguyen and Choong Seon Hong | (参考訳) 分散機械学習パラダイムとしてMFL(Multimodal Federated Learning)が登場し、さまざまなモダリティを持つ複数のクライアントが、プライベートデータを共有することなく、さまざまなデータソースにわたる機械学習モデルのトレーニングに協力することが可能になった。
しかし、データの不均一性や著しく欠落したモダリティといった課題は、MFLの堅牢性に重大な障害をもたらし、グローバルモデルの性能に大きな影響を及ぼす。
モダリティの欠如は、モダリティの欠如したクライアントの場合のゼロフィルによる、局所的なトレーニングフェーズ中に誤用を引き起こす。
その結果、特に不完全なデータを持つクライアントを扱う場合、グローバルモデルにおける堅牢な一般化を達成することが不可欠となる。
本稿では,mfcpl (multimodal federated cross prototype learning) を提案する。このmflの完全プロトタイプは,クロスモーダル正規化とクロスモーダルコントラスト機構を持つモダリティ特化レベルとで,モダリティ共有レベルでの多様なモダリティ知識を提供する。
さらに,本手法では,モダリティに特有な特徴の正規化を実現するために,クロスモーダルアライメントを導入している。
3つのマルチモーダルデータセットに関する広範な実験を通じて、これらの課題を緩和し、全体的な性能を改善するMFCPLの有効性を実証する。 Multimodal federated learning (MFL) has emerged as a decentralized machine learning paradigm, allowing multiple clients with different modalities to collaborate on training a machine learning model across diverse data sources without sharing their private data. However, challenges, such as data heterogeneity and severely missing modalities, pose crucial hindrances to the robustness of MFL, significantly impacting the performance of global model. The absence of a modality introduces misalignment during the local training phase, stemming from zero-filling in the case of clients with missing modalities. Consequently, achieving robust generalization in global model becomes imperative, especially when dealing with clients that have incomplete data. In this paper, we propose Multimodal Federated Cross Prototype Learning (MFCPL), a novel approach for MFL under severely missing modalities by conducting the complete prototypes to provide diverse modality knowledge in modality-shared level with the cross-modal regularization and modality-specific level with cross-modal contrastive mechanism. Additionally, our approach introduces the cross-modal alignment to provide regularization for modality-specific features, thereby enhancing overall performance, particularly in scenarios involving severely missing modalities. Through extensive experiments on three multimodal datasets, we demonstrate the effectiveness of MFCPL in mitigating these challenges and improving the overall performance. | 翻訳日:2024-01-26 15:59:48 公開日:2024-01-25 |
# テキストから音声合成 Text to speech synthesis ( http://arxiv.org/abs/2401.13891v1 ) ライセンス: Link先を確認 | Harini s, Manoj G M | (参考訳) text-to-speech(tts)合成は、テキストを音声に変換し、自然かつアクセス可能なコミュニケーション手段を可能にする技術である。
この抽象概念は、TS合成の重要な側面を探求し、その基礎技術、応用、および様々な分野における意味を包含する。
この技術は高度なアルゴリズムと言語モデルを使用して、テキスト情報を音声のような生活に変換し、アクセシビリティツール、ナビゲーションシステム、バーチャルアシスタントなどの多様なコンテキストにおけるユーザー体験を向上する。
合成音声における自然性、多言語サポート、感情表現の考慮を含む、tts合成の課題と進歩を要約した。 Text-to-speech (TTS) synthesis is a technology that converts written text into spoken words, enabling a natural and accessible means of communication. This abstract explores the key aspects of TTS synthesis, encompassing its underlying technologies, applications, and implications for various sectors. The technology utilizes advanced algorithms and linguistic models to convert textual information into life like speech, allowing for enhanced user experiences in diverse contexts such as accessibility tools, navigation systems, and virtual assistants. The abstract delves into the challenges and advancements in TTS synthesis, including considerations for naturalness, multilingual support, and emotional expression in synthesized speech. | 翻訳日:2024-01-26 15:59:18 公開日:2024-01-25 |
# 量子論は非局所隠れ変数理論によって支えられるか? Can quantum theory be underpinned by a non-local hidden variable theory ? ( http://arxiv.org/abs/2401.13889v1 ) ライセンス: Link先を確認 | Bryan J Dalton | (参考訳) 本稿では,2つの可観測性を持つ2成分量子状態のベル非局所隠れ変数理論による記述について考察する。
我々はコリンズ・ギシンのベル不等式を導出する。
-liden-massar-popescu型は4対のサブシステム観測可能な測定結果の関連結果の確率の組み合わせを含む。
対応する量子論式は、二成分系の最大絡み合い状態の場合のベルの不等式に違反していることが示されている。
これは、量子論が非局所隠れ変数理論に基づかないことを示している。
したがって、局所的な隠れ変数理論は、既に量子理論と矛盾することが示されているため、量子論は(アインシュタインが当初期待していた)隠れ変数理論では理解できない。 In this paper we consider the description by a Bell non-local hidden variable theory of bipartite quantum states with two observables per sub-system. We derive Bell inequalities of the Collins-Gisin.-Liden-Massar-Popescu type which involve combinations of the probabilities of related outcomes for measurements for the four pairs of sub-system observables. It is shown that the corresponding quantum theory expressions violate the Bell inequalities in the case of the maximally entangled state of the bipartitite system. This shows that quantum theory can not be underpinned by a non-local hidden variable theory. So as local hidden variable theory has already been shown to conflict with quantum theory, it follows that quantum theory can not be understood in terms of any hidden variable theory (which Einstein originally had expected). | 翻訳日:2024-01-26 15:59:06 公開日:2024-01-25 |
# バスケットボールのベンチマークとビデオキャプションをサポートする知識グラフ Knowledge Graph Supported Benchmark and Video Captioning for Basketball ( http://arxiv.org/abs/2401.13888v1 ) ライセンス: Link先を確認 | Zeyu Xi and Ge Shi and Lifang Wu and Xuefen Li and Junchi Yan and Liang Wang and Zilin Liu | (参考訳) 最近のビデオキャプションモデルの出現にもかかわらず、特定のエンティティ名と細かなアクションによるテキスト記述の生成方法は解決に至らず、バスケットボールのライブテキスト放送のような素晴らしい応用がある。
本稿では,ビデオキャプションのための新しいマルチモーダル学習支援バスケットボールベンチマークを提案する。
具体的には,MbgKG(Multimodal Basketball Game Knowledge Graph)を構築し,ビデオ以外の知識を提供する。
そして、MbgKGに基づいて、9種類のきめ細かいシューティングイベントと286人のプレイヤーの知識(画像と名前)を含むマルチモーダルバスケットボールゲームビデオキャプチャー(MbgVC)データセットを構築する。
本研究では,バスケットボールのライブテキスト放送のためのエンティティ・アウェア・キャプタ(EAC)という,エンコーダ・デコーダ形式の新しいフレームワークを開発する。
ビデオ中の時間情報は、双方向GRU(Bi-GRU)モジュールを導入して符号化される。
また、マルチヘッド自己保持モジュールを用いてプレイヤー間の関係をモデル化し、キープレーヤーを選択する。
さらに,ゲーム記述スコア(Game Description Score, GDS)と呼ばれる新しい性能評価指標を提案し, 言語的性能だけでなく, 名前予測の精度も測定した。
MbgVCデータセットの大規模な実験により、EACは外部知識を効果的に活用し、高度なビデオキャプションモデルより優れていることが示された。
提案されたベンチマークと対応するコードは近く公開される予定だ。 Despite the recent emergence of video captioning models, how to generate the text description with specific entity names and fine-grained actions is far from being solved, which however has great applications such as basketball live text broadcast. In this paper, a new multimodal knowledge supported basketball benchmark for video captioning is proposed. Specifically, we construct a Multimodal Basketball Game Knowledge Graph (MbgKG) to provide knowledge beyond videos. Then, a Multimodal Basketball Game Video Captioning (MbgVC) dataset that contains 9 types of fine-grained shooting events and 286 players' knowledge (i.e., images and names) is constructed based on MbgKG. We develop a novel framework in the encoder-decoder form named Entity-Aware Captioner (EAC) for basketball live text broadcast. The temporal information in video is encoded by introducing the bi-directional GRU (Bi-GRU) module. And the multi-head self-attention module is utilized to model the relationships among the players and select the key players. Besides, we propose a new performance evaluation metric named Game Description Score (GDS), which measures not only the linguistic performance but also the accuracy of the names prediction. Extensive experiments on MbgVC dataset demonstrate that EAC effectively leverages external knowledge and outperforms advanced video captioning models. The proposed benchmark and corresponding codes will be publicly available soon. | 翻訳日:2024-01-26 15:58:54 公開日:2024-01-25 |
# 乳がん病理分類における大言語モデルを用いたゼロショット推論と教師付きモデリングの比較検討 A comparative study of zero-shot inference with large language models and supervised modeling in breast cancer pathology classification ( http://arxiv.org/abs/2401.13887v1 ) ライセンス: Link先を確認 | Madhumita Sushil, Travis Zack, Divneet Mandair, Zhiwei Zheng, Ahmed Wali, Yan-Ning Yu, Yuwei Quan, Atul J. Butte | (参考訳) 教師付き機械学習は臨床ノートからの情報抽出に人気があるが、大規模な注釈付きデータセットの作成には広範なドメイン専門知識が必要であり、時間を要する。
一方、大きな言語モデル(LLM)は、有望な伝達学習能力を示している。
本研究では,最近のLCMが大規模データアノテーションの必要性を軽減できるかどうかを検討した。
GPT-4モデルとGPT-3.5モデルのゼロショット分類能力とランダムフォレスト分類器(LSTM-Att)とUCSF-BERTモデル(UCSF-BERTモデル)の教師付き分類性能を比較するため,手動で769例の乳癌の病理診断結果のデータセットを作成した。
13のタスク全体にわたって、GPT-4モデルは最高の教師付きモデルであるLSTM-Attモデル(平均マクロF1スコアは0.83対0.75)よりも大幅に向上した。
ラベル間の不均衡が高いタスクでは、違いが顕著だった。
GPT-4エラーの原因として、複数のサンプルからの推測や複雑なタスク設計があった。
大きな注釈付きデータセットを簡単に収集できない複雑なタスクでは、LLMは大規模データラベリングの負担を軽減することができる。
しかし、LLMの使用が禁止されている場合、大きな注釈付きデータセットを持つ単純な教師付きモデルを使用することで、同等の結果が得られる。
LLMは、大きな注釈付きデータセットをキュレートする必要性を減らし、臨床NLP研究の実行を高速化する可能性を実証した。
これは、観察臨床研究におけるNLPに基づく変数の利用と結果の増加をもたらす可能性がある。 Although supervised machine learning is popular for information extraction from clinical notes, creating large annotated datasets requires extensive domain expertise and is time-consuming. Meanwhile, large language models (LLMs) have demonstrated promising transfer learning capability. In this study, we explored whether recent LLMs can reduce the need for large-scale data annotations. We curated a manually-labeled dataset of 769 breast cancer pathology reports, labeled with 13 categories, to compare zero-shot classification capability of the GPT-4 model and the GPT-3.5 model with supervised classification performance of three model architectures: random forests classifier, long short-term memory networks with attention (LSTM-Att), and the UCSF-BERT model. Across all 13 tasks, the GPT-4 model performed either significantly better than or as well as the best supervised model, the LSTM-Att model (average macro F1 score of 0.83 vs. 0.75). On tasks with high imbalance between labels, the differences were more prominent. Frequent sources of GPT-4 errors included inferences from multiple samples and complex task design. On complex tasks where large annotated datasets cannot be easily collected, LLMs can reduce the burden of large-scale data labeling. However, if the use of LLMs is prohibitive, the use of simpler supervised models with large annotated datasets can provide comparable results. LLMs demonstrated the potential to speed up the execution of clinical NLP studies by reducing the need for curating large annotated datasets. This may result in an increase in the utilization of NLP-based variables and outcomes in observational clinical studies. | 翻訳日:2024-01-26 15:58:30 公開日:2024-01-25 |
# 定段階Q-ラーニング:分布収束,バイアス,外挿 Constant Stepsize Q-learning: Distributional Convergence, Bias and Extrapolation ( http://arxiv.org/abs/2401.13884v1 ) ライセンス: Link先を確認 | Yixuan Zhang and Qiaomin Xie | (参考訳) 確率近似(Stochastic Approximation、SA)は、最適化や強化学習(RL)など、様々な分野で広く使われているアルゴリズム手法である。
RLアルゴリズムの中で、Q学習は経験的成功のために特に人気がある。
本稿では,非同期Q-ラーニングを定常的なステップサイズで研究する。
定数ステップ化q-ラーニングを時間均質マルコフ連鎖に結びつけることで,イテレートの分布収束をwasserstein距離で示し,その指数収束速度を確立する。
また,q学習イテレートの中央極限理論を確立し,平均的なイテレートの漸近正規性を示す。
さらに、ステップ化における平均的な反復の漸近バイアスを明示的に拡張する。
具体的には、バイアスは高次項までの段差に比例し、線形係数に対して明示的な表現を与える。
このバイアスの正確な特徴づけは、最適Q関数に確実に近い新しい推定値を構築するためにリチャードソン・ロームバーグ外挿法(RR)の適用を可能にする。
数値計算はRR外挿法の改良に関する理論的知見を裏付けるものである。 Stochastic Approximation (SA) is a widely used algorithmic approach in various fields, including optimization and reinforcement learning (RL). Among RL algorithms, Q-learning is particularly popular due to its empirical success. In this paper, we study asynchronous Q-learning with constant stepsize, which is commonly used in practice for its fast convergence. By connecting the constant stepsize Q-learning to a time-homogeneous Markov chain, we show the distributional convergence of the iterates in Wasserstein distance and establish its exponential convergence rate. We also establish a Central Limit Theory for Q-learning iterates, demonstrating the asymptotic normality of the averaged iterates. Moreover, we provide an explicit expansion of the asymptotic bias of the averaged iterate in stepsize. Specifically, the bias is proportional to the stepsize up to higher-order terms and we provide an explicit expression for the linear coefficient. This precise characterization of the bias allows the application of Richardson-Romberg (RR) extrapolation technique to construct a new estimate that is provably closer to the optimal Q function. Numerical results corroborate our theoretical finding on the improvement of the RR extrapolation method. | 翻訳日:2024-01-26 15:58:01 公開日:2024-01-25 |
# ドメインに依存しない動的プログラミング Domain-Independent Dynamic Programming ( http://arxiv.org/abs/2401.13883v1 ) ライセンス: Link先を確認 | Ryo Kuroiwa, J. Christopher Beck | (参考訳) 組合せ最適化問題において、混合整数プログラミング(mip)や制約プログラミング(cp)のようなモデルベースのパラダイムは、モデリングと問題解決を分離することを目的としている。
本稿では、動的プログラミング(DP)に基づく新しいモデルベースパラダイムであるドメイン独立動的プログラミング(DIDP)を提案する。
DPは新しいものではないが、通常は問題固有の方法として実装されている。
AI計画にインスパイアされた状態遷移システムに基づくDPモデルを定義するフォーマリズムである動的プログラミング記述言語(DyPDL)を導入する。
そこで本研究では,DyPDLモデルの解法としてヒューリスティック検索アルゴリズムを用いて7つのDIDP解法を提案する。
我々は,DDPソルバと商用MIPおよびCPソルバ(それぞれMIPとCPモデルを解いた)を,11の組合せ最適化問題クラスの共通ベンチマークインスタンス上で実験的に比較した。
その結果,DIDPは9つの問題クラス,CPは9つの問題クラス,MIPとCPは7つの問題クラスでMIPを上回っていることがわかった。 For combinatorial optimization problems, model-based paradigms such as mixed-integer programming (MIP) and constraint programming (CP) aim to decouple modeling and solving a problem: the `holy grail' of declarative problem solving. We propose domain-independent dynamic programming (DIDP), a new model-based paradigm based on dynamic programming (DP). While DP is not new, it has typically been implemented as a problem-specific method. We introduce Dynamic Programming Description Language (DyPDL), a formalism to define DP models based on a state transition system, inspired by AI planning. We show that heuristic search algorithms can be used to solve DyPDL models and propose seven DIDP solvers. We experimentally compare our DIDP solvers with commercial MIP and CP solvers (solving MIP and CP models, respectively) on common benchmark instances of eleven combinatorial optimization problem classes. We show that DIDP outperforms MIP in nine problem classes, CP also in nine problem classes, and both MIP and CP in seven. | 翻訳日:2024-01-26 15:57:39 公開日:2024-01-25 |
# 二重周波数変調を用いた空洞磁気系の弱磁場検出 Enhancing Weak magnetic field sensing of cavity-magnon system with dual frequency modulation ( http://arxiv.org/abs/2401.13879v1 ) ライセンス: Link先を確認 | Zheng Liu, Yu-qiang Liu, Zi-yi Mai, Yi-jia Yang, Nan-nan Zhou and Chang-shui Yu | (参考訳) 弱磁場検出の感度を向上させるための重要な制限は、避けられない測定ノイズである。
本稿では,キャビティマグノンシステム内での二重周波数バイアス場変調を用いて,付加雑音に対する高精度な感度ロバストを実現する手法を提案する。
反回転波項は検出された磁場の信号を増幅することができるが、この増幅効果は回転波項と共存しなければならない。
特にバイアスフィールド変調により、キャビティフィールド熱雑音に対するロバスト性が大幅に向上し、量子ノイズとキャビティフィールド熱雑音が大幅に低減され、外部磁場信号が増幅され、弱磁場検出システムの感度が向上する。
従来の方式と比較して,電磁的協調性を高めることにより,超強結合機構や付加雑音の抑制は不要である。
我々の計画では 弱い磁場を感知する 貴重な候補になり得る The crucial limitation of improving the sensitivity of the detection of weak magnetic fields is the unavoidable measurement noise. In this paper, we propose a scheme to achieve precise sensing robust against additional noise by employing a dual-frequency bias field modulation within a cavity magnon system. We find that the anti-rotating wave term can amplify the signal of the detected magnetic field, but this amplification effect must coexist with the rotating wave term. In particular, by the bias field modulation, we find the robustness against cavity field thermal noise is substantially enhanced, quantum noise and cavity field thermal noise is greatly reduced, and the external magnetic field signal is amplified, thereby improving the weak magnetic field sensing system's sensitivity. Compared with the previous scheme, our scheme requires neither an ultra- or deep-strong coupling mechanism nor the suppression of the additional noise by increasing the electromagnetic cooperativity. Our scheme could provide a valuable candidate for weak magnetic field sensing. | 翻訳日:2024-01-26 15:57:21 公開日:2024-01-25 |
# AscDAMs: SLAMに基づくチャネル検出・マッピングシステム AscDAMs: Advanced SLAM-based channel detection and mapping system ( http://arxiv.org/abs/2401.13877v1 ) ライセンス: Link先を確認 | Tengfei Wang, Fucheng Lu, Jintao Qin, Taosheng Huang, Hui Kong, Ping Shen | (参考訳) 高分解能で高精度な流路地形と堆積条件を得ることは, 流路状土石流の研究に先行する課題である。
現在、衛星画像やドローンフォトグラメトリーなどの広範に利用されている地図技術は、山間部、特にウェンチュアン地震地域の水路内環境を正確に観測するのに苦戦している。
SLAMは3Dマッピングの新興技術である。しかし、長期間のグルリの非常に頑丈な環境は、最先端のSLAMにも2つの大きな課題をもたらす:(1)非定型的特徴; (2) センサーの振動と揺らぎ。
これらの問題はSLAM結果に対する大きな偏差と多くのノイズをもたらす。
このような環境でのSLAMマッピングを改善するために、高度SLAMに基づくチャネル検出・マッピングシステム、すなわちAscDAMを提案する。
1)デジタル正光写像支援偏差補正アルゴリズムは系統誤差を大幅に軽減し,(2)ポイント雲平滑化アルゴリズムはノイズを著しく低減し,(3)クロスセクション抽出アルゴリズムはチャネル堆積物とその変化の定量的評価を可能にする。
2023年2月から11月にかけて,中国深川郡中東グリーで2回の野外実験を行い,雨季前後の観測を行った。
AscDAMsのSLAM結果を大幅に改善する能力を示し、特別に困難な環境をマッピングするためのSLAMを促進する。
提案手法は, 詳細な流路形態, 浸食パターン, 堆積特性, 体積推定, 変化検出など, 破片流路内部を検知する既存の技術の不備を補うものである。
本研究は, 大規模土石流機構, 長期地震後進化, 危険度評価の研究の促進に寄与する。 Obtaining high-resolution, accurate channel topography and deposit conditions is the prior challenge for the study of channelized debris flow. Currently, wide-used mapping technologies including satellite imaging and drone photogrammetry struggle to precisely observe channel interior conditions of mountainous long-deep gullies, particularly those in the Wenchuan Earthquake region. SLAM is an emerging tech for 3D mapping; however, extremely rugged environment in long-deep gullies poses two major challenges even for the state-of-art SLAM: (1) Atypical features; (2) Violent swaying and oscillation of sensors. These issues result in large deviation and lots of noise for SLAM results. To improve SLAM mapping in such environments, we propose an advanced SLAM-based channel detection and mapping system, namely AscDAMs. It features three main enhancements to post-process SLAM results: (1) The digital orthophoto map aided deviation correction algorithm greatly eliminates the systematic error; (2) The point cloud smoothing algorithm substantially diminishes noises; (3) The cross section extraction algorithm enables the quantitative assessment of channel deposits and their changes. Two field experiments were conducted in Chutou Gully, Wenchuan County in China in February and November 2023, representing observations before and after the rainy season. We demonstrate the capability of AscDAMs to greatly improve SLAM results, promoting SLAM for mapping the specially challenging environment. The proposed method compensates for the insufficiencies of existing technologies in detecting debris flow channel interiors including detailed channel morphology, erosion patterns, deposit distinction, volume estimation and change detection. It serves to enhance the study of full-scale debris flow mechanisms, long-term post-seismic evolution, and hazard assessment. | 翻訳日:2024-01-26 15:57:04 公開日:2024-01-25 |
# ソフトマックスガウスのエキスパートの温度サンプルは有効か? Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts? ( http://arxiv.org/abs/2401.13875v1 ) ライセンス: Link先を確認 | Huy Nguyen, Pedram Akbarian, Nhat Ho | (参考訳) 専門家の密集した gating mix of experts (moe) は、最近、よく知られた疎moeの効果的な代替品となっている。
後者のモデルのように、潜在的な専門家の調査を制限するような活性化された専門家の数を固定する代わりに、前者は、専門家の専門化を安定させるために訓練中のmoeのソフトマックス重量分布とスパーシティを制御するために温度を利用する。
しかしながら、かつてはスパースMoEを理論的に理解しようとする試みがあったが、密度とスパースを混合するMoEの包括的分析はいまだに解明されていない。
そこで本論文では,密度とスパースゲートがガウスMOEの下での最大推定に与える影響について検討する。
ある偏微分方程式による温度と他のモデルパラメータ間の相互作用により、パラメータ推定の収束速度は任意の多項式速度よりも遅く、$\mathcal{O}(1/\log(n))$と同じくらい遅くなり、$n$はサンプルサイズを表す。
そこで本稿では,リニア層の出力を,softmax関数に配信する前に活性化関数にルーティングする,新しいアクティベーション・デング・ツー・スパースゲートを提案する。
活性化関数とその導関数に線形独立条件を課すことで, パラメータ推定率が多項式率に対して有意に向上することを示す。 Dense-to-sparse gating mixture of experts (MoE) has recently become an effective alternative to a well-known sparse MoE. Rather than fixing the number of activated experts as in the latter model, which could limit the investigation of potential experts, the former model utilizes the temperature to control the softmax weight distribution and the sparsity of the MoE during training in order to stabilize the expert specialization. Nevertheless, while there are previous attempts to theoretically comprehend the sparse MoE, a comprehensive analysis of the dense-to-sparse gating MoE has remained elusive. Therefore, we aim to explore the impacts of the dense-to-sparse gate on the maximum likelihood estimation under the Gaussian MoE in this paper. We demonstrate that due to interactions between the temperature and other model parameters via some partial differential equations, the convergence rates of parameter estimations are slower than any polynomial rates, and could be as slow as $\mathcal{O}(1/\log(n))$, where $n$ denotes the sample size. To address this issue, we propose using a novel activation dense-to-sparse gate, which routes the output of a linear layer to an activation function before delivering them to the softmax function. By imposing linearly independence conditions on the activation function and its derivatives, we show that the parameter estimation rates are significantly improved to polynomial rates. | 翻訳日:2024-01-26 15:56:27 公開日:2024-01-25 |
# AM-SORT:複数物体追跡のための履歴軌道埋め込み型適応運動予測器 AM-SORT: Adaptable Motion Predictor with Historical Trajectory Embedding for Multi-Object Tracking ( http://arxiv.org/abs/2401.13950v1 ) ライセンス: Link先を確認 | Vitaliy Kim, Gunho Jung, and Seong-Whan Lee | (参考訳) 多くのマルチオブジェクト追跡(MOT)アプローチは、カルマンフィルタを運動予測器として用い、一定の速度とガウス分布のフィルタノイズを仮定する。
これらの仮定により、カルマンフィルタに基づくトラッカーは線形運動シナリオに有効である。
しかし、これらの線形仮定は、非線形運動とオクルージョンを含むシナリオにおける将来の対象位置の推定において重要な制限となる。
この問題に対処するため,AM-SORTと呼ばれる動き予測器を用いた動きに基づくMOT手法を提案し,非線形不確かさを推定する。
am-sortは、カルマンフィルタを動作予測器としてトランスフォーマーアーキテクチャで置き換える、ソートシリーズトラッカーの新しい拡張である。
トランスフォーマーが境界ボックス列から時空間的特徴を抽出することを可能にする,歴史的な軌道埋め込みを導入する。
AM-SORTはDanceTrackの最先端トラッカーに比べて56.3 IDF1と55.6 HOTAの競争力がある。
閉塞下での非線形運動予測において,本手法の有効性を実証するための広範な実験を行った。 Many multi-object tracking (MOT) approaches, which employ the Kalman Filter as a motion predictor, assume constant velocity and Gaussian-distributed filtering noises. These assumptions render the Kalman Filter-based trackers effective in linear motion scenarios. However, these linear assumptions serve as a key limitation when estimating future object locations within scenarios involving non-linear motion and occlusions. To address this issue, we propose a motion-based MOT approach with an adaptable motion predictor, called AM-SORT, which adapts to estimate non-linear uncertainties. AM-SORT is a novel extension of the SORT-series trackers that supersedes the Kalman Filter with the transformer architecture as a motion predictor. We introduce a historical trajectory embedding that empowers the transformer to extract spatio-temporal features from a sequence of bounding boxes. AM-SORT achieves competitive performance compared to state-of-the-art trackers on DanceTrack, with 56.3 IDF1 and 55.6 HOTA. We conduct extensive experiments to demonstrate the effectiveness of our method in predicting non-linear movement under occlusions. | 翻訳日:2024-01-26 15:50:05 公開日:2024-01-25 |
# ピアツーピアエネルギー取引のためのネットワーク型マルチエージェント強化学習 Networked Multiagent Reinforcement Learning for Peer-to-Peer Energy Trading ( http://arxiv.org/abs/2401.13947v1 ) ライセンス: Link先を確認 | Chen Feng and Andrew L. Liu | (参考訳) ピアツーピア(P2P)エネルギートレーディングによる地域流通ネットワークにおける分散再生可能およびエネルギー貯蔵資源の利用は、エネルギーシステムのレジリエンスと持続可能性を改善するソリューションとして長年評価されてきた。
しかし、消費者やプロシューマー(エネルギー資源を持っている人々)はp2p取引を繰り返し行う専門知識を持っておらず、再生可能エネルギーのゼロマージコストは公正な市場価格を決定する上での課題となっている。
これらの問題に対処するために,我々は,供給需要比を利用したp2pクリアリング機構の下で,消費者のソーラー太陽光発電とエネルギー貯蔵資源の入札と管理を自動化するマルチエージェント強化学習(marl)フレームワークを提案する。
さらに、MARLフレームワークが物理的なネットワーク制約を統合して電圧制御を実現し、P2Pエネルギトレーディングの物理的実現性を確保し、実際の実装を実現する方法を示す。 Utilizing distributed renewable and energy storage resources in local distribution networks via peer-to-peer (P2P) energy trading has long been touted as a solution to improve energy systems' resilience and sustainability. Consumers and prosumers (those who have energy generation resources), however, do not have the expertise to engage in repeated P2P trading, and the zero-marginal costs of renewables present challenges in determining fair market prices. To address these issues, we propose multi-agent reinforcement learning (MARL) frameworks to help automate consumers' bidding and management of their solar PV and energy storage resources, under a specific P2P clearing mechanism that utilizes the so-called supply-demand ratio. In addition, we show how the MARL frameworks can integrate physical network constraints to realize voltage control, hence ensuring physical feasibility of the P2P energy trading and paving way for real-world implementations. | 翻訳日:2024-01-26 15:49:43 公開日:2024-01-25 |
# 古典的に硬いハミルトニアンのクラスにおける基底状態を解く多項式時間量子アルゴリズム A polynomial-time quantum algorithm for solving the ground states of a class of classically hard Hamiltonians ( http://arxiv.org/abs/2401.13946v1 ) ライセンス: Link先を確認 | Zhong-Xia Shang and Zi-Han Chen and Ming-Cheng Chen and Chao-Yang Lu and Jian-Wei Pan | (参考訳) 本研究では,古典的堅いハミルトニアンのクラスにおける基底状態を解く多項式時間量子アルゴリズムを提案する。
我々のアルゴリズムに現れた指数的スピードアップのメカニズムは、既存の全ての量子アルゴリズムとは異なる。
そのアイデアは、純粋な状態を表現するために密度行列を使用するために、マッピング $f:\text{ }\rho\rightarrow |\rho\rangle$を導入することである。
この写像は、$|\rho\rangle$の測定値から$|\rho\rangle$の情報を得る効率的な方法を与えることで意味を成す。
この写像の下で、リンドブラッドのマスター方程式(LME)は、自然な想像時間進化を含む非エルミート・ハミルトニアンを持つシュリンガー方程式となる。
したがって、 LME の定常状態は LME のリウヴィリア作用素の基底状態 $L^\dag L$ と $L$ に対応する。
lme のランタイムは $\mathcal{o}(log(\zeta^{-1}))$ scaling with $\zeta$ 他のアルゴリズムでの$\mathcal{o}(poly(\zeta^{-1})$ scaling と比較して初期状態と基底状態の間の重なりを示す。
ハミルトンの$L^\dag L$は、LMEのシミュレーションが難しいと信じている場合、古典的なコンピュータでは難しいことが保証される。
さらに、既知の基底エネルギー $e_0$ を持つ任意の局所ハミルトン $h$ に対して、l$ が存在して $h-e_0=l^\dag l$ となるかどうかを判定し解く多項式時間古典手順を与える。
その後,アルゴリズムに現れる非線形力学を含む,アルゴリズムのいくつかの重要な側面を論じ,解析する。 In this work, we present a polynomial-time quantum algorithm for solving the ground states of a class of classically hard Hamiltonians. The mechanism of the exponential speedup that appeared in our algorithm is different from all existing quantum algorithms. The idea is to introduce a mapping $f:\text{ }\rho\rightarrow |\rho\rangle$ to use density matrices to represent pure states. We show that this mapping makes sense by giving an efficient method to obtain the information of $|\rho\rangle$ from measurements on $\rho$. Under this mapping, the Lindblad master equation (LME) becomes a Schr\"odinger equation with non-Hermitian Hamiltonian which contains natural imaginary time evolution. The steady state of the LME, therefore, corresponds to the ground state of $L^\dag L$ with $L$ the Liouvillian operator of the LME. We show the runtime of the LME has the $\mathcal{O}(log(\zeta^{-1}))$ scaling with $\zeta$ the overlap between the initial state and the ground state compared with the $\mathcal{O}(poly(\zeta^{-1}))$ scaling in other algorithms. The Hamiltonians $L^\dag L$ are guaranteed to be difficult for classical computers if we believe the simulation of LME is difficult. Further, for any given local Hamiltonian $H$ with known ground energy $E_0$, we give a polynomial-time classical procedure to judge and solve whether there exists $L$ such that $H-E_0=L^\dag L$. Later, We discuss and analyze several important aspects of the algorithm including the non-linear dynamics that appeared in the algorithm. | 翻訳日:2024-01-26 15:49:26 公開日:2024-01-25 |
# 社会問題に対する一般解の自動生成 General Automatic Solution Generation of Social Problems ( http://arxiv.org/abs/2401.13945v1 ) ライセンス: Link先を確認 | Tong Niu, Haoyu Huang, Yu Du, Weihao Zhang, Luping Shi, Rong Zhao | (参考訳) 現代社会システムの複雑化と多面的な性質を考えると、関連する社会問題に対処するための手作業による解決は、非常に難しい課題となっている。
この課題に対して、人工知能の急速な発展は、解の自動生成を目的とした計算手法の探求を加速させた。
しかし、現在のソリューションの自動生成手法は、主に特定のシナリオに関連する地域社会規制に焦点を当てている。
本稿では,エージェントベースモデルに基づく一般社会ソリューション生成のための自動社会オペレーティングシステム (asos) について報告する。
ASOSは、社会力学の包括的かつ構造化された表現のために拡張可能な社会意味論を備えたハイパーグラフを採用する。
また、標準化されたハイパーグラフ操作のための一般化されたプロトコルや、解釈可能なソリューションを提供するシンボリックハイブリッドフレームワークも組み込まれており、規制効果と機能生存性のバランスを保っている。
ASOSの有効性を実証するために、国際石油先物市場における極端な出来事を回避する領域に適用する。
新たなメカニズムで補足された新たなトレーディングの役割を生み出すことにより、ASOSは不気味な市場条件を十分に把握し、非営利目的の事前介入を行うことができる。
本研究は,asosが社会を強化するためのソリューションを創り出すための効率的かつ体系的なアプローチを提供することを実証する。 Given the escalating intricacy and multifaceted nature of contemporary social systems, manually generating solutions to address pertinent social issues has become a formidable task. In response to this challenge, the rapid development of artificial intelligence has spurred the exploration of computational methodologies aimed at automatically generating solutions. However, current methods for auto-generation of solutions mainly concentrate on local social regulations that pertain to specific scenarios. Here, we report an automatic social operating system (ASOS) designed for general social solution generation, which is built upon agent-based models, enabling both global and local analyses and regulations of social problems across spatial and temporal dimensions. ASOS adopts a hypergraph with extensible social semantics for a comprehensive and structured representation of social dynamics. It also incorporates a generalized protocol for standardized hypergraph operations and a symbolic hybrid framework that delivers interpretable solutions, yielding a balance between regulatory efficacy and function viability. To demonstrate the effectiveness of ASOS, we apply it to the domain of averting extreme events within international oil futures markets. By generating a new trading role supplemented by new mechanisms, ASOS can adeptly discern precarious market conditions and make front-running interventions for non-profit purposes. This study demonstrates that ASOS provides an efficient and systematic approach for generating solutions for enhancing our society. | 翻訳日:2024-01-26 15:48:57 公開日:2024-01-25 |
# スタイルインジェクション:テキスト・画像拡散モデルのパラメータ調整 StyleInject: Parameter Efficient Tuning of Text-to-Image Diffusion Models ( http://arxiv.org/abs/2401.13942v1 ) ライセンス: Link先を確認 | Yalong Bai, Mohan Zhou, Qing Yang | (参考訳) テキスト・ツー・イメージ生成タスクのための生成モデルを微調整する能力は、特にテキスト入力の正確な解釈と視覚化に関わる複雑さに直面している。
LoRAは言語モデルの適応に効率的であるが、多種多様なスタイルやニュアンスを収容するといった画像生成の複雑な要求のために、テキストから画像へのタスクでは不足することが多い。
このギャップを埋めるために、テキスト・ツー・イメージ・モデルに適した、特殊な微調整アプローチであるStyleInjectを導入する。
StyleInjectは複数の並列な低ランクパラメータ行列で構成され、視覚的特徴の多様性を維持している。
入力信号の特性に基づいて視覚特徴のばらつきを調整することにより、動的に様々なスタイルに適応する。
このアプローチは、転送学習における様々なスタイルに順応しながら、元のモデルのテキストイメージアライメント能力への影響を著しく最小化する。
StyleInjectは、コミュニティがカスタマイズした高度な生成モデルから学習し、拡張するのに特に有効である。
筆者らは,小型・大規模データマイニングとベースモデル蒸留を含む総合的な実験を行い,StyleInjectはテキスト画像のセマンティック一貫性と人間の嗜好評価の両方において従来のLoRAを上回り,パラメータ効率の向上を図っている。 The ability to fine-tune generative models for text-to-image generation tasks is crucial, particularly facing the complexity involved in accurately interpreting and visualizing textual inputs. While LoRA is efficient for language model adaptation, it often falls short in text-to-image tasks due to the intricate demands of image generation, such as accommodating a broad spectrum of styles and nuances. To bridge this gap, we introduce StyleInject, a specialized fine-tuning approach tailored for text-to-image models. StyleInject comprises multiple parallel low-rank parameter matrices, maintaining the diversity of visual features. It dynamically adapts to varying styles by adjusting the variance of visual features based on the characteristics of the input signal. This approach significantly minimizes the impact on the original model's text-image alignment capabilities while adeptly adapting to various styles in transfer learning. StyleInject proves particularly effective in learning from and enhancing a range of advanced, community-fine-tuned generative models. Our comprehensive experiments, including both small-sample and large-scale data fine-tuning as well as base model distillation, show that StyleInject surpasses traditional LoRA in both text-image semantic consistency and human preference evaluation, all while ensuring greater parameter efficiency. | 翻訳日:2024-01-26 15:48:36 公開日:2024-01-25 |
# 有料とボランティアのオープンソース開発者はどのように違うのか?
Rustプロジェクトについての一考察 How Are Paid and Volunteer Open Source Developers Different? A Study of the Rust Project ( http://arxiv.org/abs/2401.13940v1 ) ライセンス: Link先を確認 | Yuxia Zhang, Mian Qin, Klaas-Jan Stol, Minghui Zhou, and Hui Liu | (参考訳) 現在、組織は開発者が特定のオープンソースソフトウェア(OSS)プロジェクトに取り組むことでビジネス目標を追求することが一般的になっている。
このような有料開発者は自発的なコントリビュータと一緒に作業するが、これら2つの開発者の異なる動機から、プロジェクトの持続可能性に対する脅威となる対立が発生する可能性がある。
本稿では,オープンソースのプログラミング言語プロジェクトであるrustにおける有給開発者とボランティアの実証研究について述べる。
Rustは企業参加に関する懸念から,特に興味深いケースです。
ボランティアと有料開発者の比較は,貢献特性と長期参加,有料開発者に対するボランティアの認識の促進を通じて行う。
中心となる有料開発者はより頻繁に貢献する傾向にあり、一度限りの有料開発者によって提供されたコミットはサイズが大きくなり、周辺的な有料開発者はより多くの機能を実装する。
また、ボランティアが有償開発者に対して偏見を持っていることもわかりました。
本研究は,有給開発者とボランティア開発者の二分的視点が単純すぎること,さらにサブグループを同定できることを示唆する。
企業は、OSSコミュニティとの関わり方にもっと敏感になるべきだ、とこの研究は示唆している。 It is now commonplace for organizations to pay developers to work on specific open source software (OSS) projects to pursue their business goals. Such paid developers work alongside voluntary contributors, but given the different motivations of these two groups of developers, conflict may arise, which may pose a threat to a project's sustainability. This paper presents an empirical study of paid developers and volunteers in Rust, a popular open source programming language project. Rust is a particularly interesting case given considerable concerns about corporate participation. We compare volunteers and paid developers through contribution characteristics and long-term participation, and solicit volunteers' perceptions on paid developers. We find that core paid developers tend to contribute more frequently; commits contributed by one-time paid developers have bigger sizes; peripheral paid developers implement more features; and being paid plays a positive role in becoming a long-term contributor. We also find that volunteers do have some prejudices against paid developers. This study suggests that the dichotomous view of paid vs. volunteer developers is too simplistic and that further subgroups can be identified. Companies should become more sensitive to how they engage with OSS communities, in certain ways as suggested by this study. | 翻訳日:2024-01-26 15:48:14 公開日:2024-01-25 |
# 蒸留学習による変形注意の自己教師付き映像オブジェクトセグメンテーション Self-supervised Video Object Segmentation with Distillation Learning of Deformable Attention ( http://arxiv.org/abs/2401.13937v1 ) ライセンス: Link先を確認 | Quang-Trung Truong, Duc Thanh Nguyen, Binh-Son Hua, Sai-Kit Yeung | (参考訳) ビデオオブジェクトセグメンテーションはコンピュータビジョンの基本的な研究課題である。
近年,映像列からの物体表現学習に注意機構が応用されている。
しかし、映像データの時間的変化により、注意マップは映像フレーム全体の関心対象とよく一致せず、長期の映像処理において累積誤差が生じる可能性がある。
さらに、既存の技術は複雑なアーキテクチャを利用し、高い計算量を必要とするため、低出力デバイスにビデオオブジェクトのセグメンテーションを統合する能力が制限されている。
そこで本研究では, 脱形注意の蒸留学習に基づく自己教師付き映像オブジェクトセグメンテーション手法を提案する。
具体的には,時間変化に効果的に対応するビデオオブジェクトセグメンテーションのための軽量アーキテクチャを考案する。
これは変形可能なアテンション機構によって実現され、アテンションモジュール内のビデオシーケンスのメモリをキャプチャするキーと値がフレーム間で柔軟に更新される。
したがって、学習対象表現は空間次元と時間次元の両方に適応する。
提案手法は, 変形性アテンションマップを蒸留損失に統合した新しい知識蒸留パラダイムを用いて, 自己指導型アーキテクチャを訓練する。
DAVIS 2016/2017 や YouTube-VOS 2018/2019 などのベンチマークデータセット上で,本手法を質的に定量的に評価し,既存の手法と比較した。
実験により,本手法が達成した最先端性能と最適メモリ使用量による優位性を検証した。 Video object segmentation is a fundamental research problem in computer vision. Recent techniques have often applied attention mechanism to object representation learning from video sequences. However, due to temporal changes in the video data, attention maps may not well align with the objects of interest across video frames, causing accumulated errors in long-term video processing. In addition, existing techniques have utilised complex architectures, requiring highly computational complexity and hence limiting the ability to integrate video object segmentation into low-powered devices. To address these issues, we propose a new method for self-supervised video object segmentation based on distillation learning of deformable attention. Specifically, we devise a lightweight architecture for video object segmentation that is effectively adapted to temporal changes. This is enabled by deformable attention mechanism, where the keys and values capturing the memory of a video sequence in the attention module have flexible locations updated across frames. The learnt object representations are thus adaptive to both the spatial and temporal dimensions. We train the proposed architecture in a self-supervised fashion through a new knowledge distillation paradigm where deformable attention maps are integrated into the distillation loss. We qualitatively and quantitatively evaluate our method and compare it with existing methods on benchmark datasets including DAVIS 2016/2017 and YouTube-VOS 2018/2019. Experimental results verify the superiority of our method via its achieved state-of-the-art performance and optimal memory usage. | 翻訳日:2024-01-26 15:47:50 公開日:2024-01-25 |
# フェアネスとリコースにおける反事実推論の新しいパラダイム A New Paradigm for Counterfactual Reasoning in Fairness and Recourse ( http://arxiv.org/abs/2401.13935v1 ) ライセンス: Link先を確認 | Lucius E.J. Bynum, Joshua R. Loftus, Julia Stoyanovich | (参考訳) 反事実と反事実推論は、人工知能(ai)システムの監査と理解のための多くの技術を支える。
この文献における反事実推論の伝統的なパラダイムは、仮説的介入を想像しシミュレーションする介入的反事実である。
そのため、AIにおける法的保護と人口統計データに関する因果推論の出発点は、民族、人種、性別、障害、年齢など、法的に保護された特徴への介入である。
例えば、もしあなたのレースが違っていたら、何が起こっただろうか?
このパラダイムの本質的な制限は、人種の介入のような一部の人口統計学的介入は、介入反事実の形式主義に変換されないことである。
本研究は,法的に保護された特性に対する仮説的介入を想像する代わりに,これらの特性を固定しつつ,異なる初期条件を想定する,バックトラック対策に基づく新たなパラダイムを探求する。
代わりに、あなたが実際にあるか、あるいは可能なように、反現実的な結果を説明するものは何か、と尋ねる。
この代替フレームワークによって、同じ社会的関心事の多くに対処できますが、人口統計学的介入に依存しない、基本的に異なる質問をすることができるのです。 Counterfactuals and counterfactual reasoning underpin numerous techniques for auditing and understanding artificial intelligence (AI) systems. The traditional paradigm for counterfactual reasoning in this literature is the interventional counterfactual, where hypothetical interventions are imagined and simulated. For this reason, the starting point for causal reasoning about legal protections and demographic data in AI is an imagined intervention on a legally-protected characteristic, such as ethnicity, race, gender, disability, age, etc. We ask, for example, what would have happened had your race been different? An inherent limitation of this paradigm is that some demographic interventions -- like interventions on race -- may not translate into the formalisms of interventional counterfactuals. In this work, we explore a new paradigm based instead on the backtracking counterfactual, where rather than imagine hypothetical interventions on legally-protected characteristics, we imagine alternate initial conditions while holding these characteristics fixed. We ask instead, what would explain a counterfactual outcome for you as you actually are or could be? This alternate framework allows us to address many of the same social concerns, but to do so while asking fundamentally different questions that do not rely on demographic interventions. | 翻訳日:2024-01-26 15:47:29 公開日:2024-01-25 |
# MambaMorph:変形性MR-CTレジストレーションのためのコントラスト特徴学習機能付きマンバベースバックボーン MambaMorph: a Mamba-based Backbone with Contrastive Feature Learning for Deformable MR-CT Registration ( http://arxiv.org/abs/2401.13934v1 ) ライセンス: Link先を確認 | Tao Guo and Yinuo Wang and Cai Meng | (参考訳) 本稿では,磁気共鳴(MR)およびCT(CT)画像アライメントのために設計された,革新的な多モード変形型登録ネットワークであるMambaMorphを紹介する。
mambamorphは、mambaベースの登録モジュールと、マルチモダリティ登録の一般的な課題に対処する、対照的な機能学習アプローチで際立っている。
このネットワークは、効率のよい長距離モデリングと高次元データ処理にMambaブロックを活用するとともに、詳細な特徴を学習して登録精度を向上させる特徴抽出器を備えている。
MambaMorphのMR-CT登録法よりも優れた成績を示し,臨床応用の可能性を明らかにした。
本研究は,マルチモダリティ登録における特徴学習の重要性を浮き彫りにして,MambaMorphをこの分野におけるパスブレージングソリューションとして位置づける。
MambaMorphのコードは、https://github.com/Guo-Stone/MambaMorphで入手できる。 Deformable image registration is an essential approach for medical image analysis.This paper introduces MambaMorph, an innovative multi-modality deformable registration network, specifically designed for Magnetic Resonance (MR) and Computed Tomography (CT) image alignment. MambaMorph stands out with its Mamba-based registration module and a contrastive feature learning approach, addressing the prevalent challenges in multi-modality registration. The network leverages Mamba blocks for efficient long-range modeling and high-dimensional data processing, coupled with a feature extractor that learns fine-grained features for enhanced registration accuracy. Experimental results showcase MambaMorph's superior performance over existing methods in MR-CT registration, underlining its potential in clinical applications. This work underscores the significance of feature learning in multi-modality registration and positions MambaMorph as a trailblazing solution in this field. The code for MambaMorph is available at: https://github.com/Guo-Stone/MambaMorph. | 翻訳日:2024-01-26 15:47:09 公開日:2024-01-25 |
# 隠れマルコフモデルによる意思決定ダイナミクス発見のための強化学習 Reinforcement Learning with Hidden Markov Models for Discovering Decision-Making Dynamics ( http://arxiv.org/abs/2401.13929v1 ) ライセンス: Link先を確認 | Xingche Guo, Donglin Zeng, Yuanjia Wang | (参考訳) MDD(Major depressive disorder)は、その複雑で異質な性質から、診断と治療の課題を呈する疾患である。
新たな証拠は、報酬処理異常がMDDの行動マーカーとなる可能性があることを示している。
報酬処理を測定するために、患者は選択や異なる結果に関連する刺激に反応するコンピュータベースの行動タスクを実行する。
強化学習(rl)モデルは、報酬処理のさまざまな側面を測定するパラメータを抽出し、患者が行動タスクでどのように意思決定するかを特徴付ける。
近年の知見は、単一のrlモデルのみに基づいて報酬学習を特徴付けることができないことを示唆している;代わりに、複数の戦略の間で意思決定プロセスが切り替わる可能性がある。
重要な科学的疑問は、意思決定における学習戦略のダイナミクスがMDDを持つ個人の報酬学習能力にどのように影響するかである。
EMBARC研究の確率的報酬タスク(PRT)に動機付けられ,報酬に基づく意思決定を解析するための新しいRL-HMMフレームワークを提案する。
我々のモデルは,隠れマルコフモデル(HMM)の下での2つの異なるアプローチ間の学習戦略の切り替えに対応している。
我々は連続RL状態空間を説明し、HMMにおける時間変化遷移確率を許容する。
パラメータ推定のための計算効率の良いEMアルゴリズムを導入し、推論に非パラメトリックブートストラップを用いる。
本研究はEMBARC研究に応用し,MDD患者は健常者に比べてRLへの関与が低く,情緒的コンフリクト作業中に負の影響回路における関与が脳活動と関連していることを示した。 Major depressive disorder (MDD) presents challenges in diagnosis and treatment due to its complex and heterogeneous nature. Emerging evidence indicates that reward processing abnormalities may serve as a behavioral marker for MDD. To measure reward processing, patients perform computer-based behavioral tasks that involve making choices or responding to stimulants that are associated with different outcomes. Reinforcement learning (RL) models are fitted to extract parameters that measure various aspects of reward processing to characterize how patients make decisions in behavioral tasks. Recent findings suggest the inadequacy of characterizing reward learning solely based on a single RL model; instead, there may be a switching of decision-making processes between multiple strategies. An important scientific question is how the dynamics of learning strategies in decision-making affect the reward learning ability of individuals with MDD. Motivated by the probabilistic reward task (PRT) within the EMBARC study, we propose a novel RL-HMM framework for analyzing reward-based decision-making. Our model accommodates learning strategy switching between two distinct approaches under a hidden Markov model (HMM): subjects making decisions based on the RL model or opting for random choices. We account for continuous RL state space and allow time-varying transition probabilities in the HMM. We introduce a computationally efficient EM algorithm for parameter estimation and employ a nonparametric bootstrap for inference. We apply our approach to the EMBARC study to show that MDD patients are less engaged in RL compared to the healthy controls, and engagement is associated with brain activities in the negative affect circuitry during an emotional conflict task. | 翻訳日:2024-01-26 15:46:50 公開日:2024-01-25 |
# 大規模言語モデルのための適応型テキスト透かし Adaptive Text Watermark for Large Language Models ( http://arxiv.org/abs/2401.13927v1 ) ライセンス: Link先を確認 | Yepeng Liu, Yuheng Bu | (参考訳) 大規模言語モデル(LLM)の進歩により、AI生成テキストの誤用に対する懸念が高まり、LLM生成テキストの透かしが潜在的な解決策として浮上した。
しかし,プロンプトやモデルの事前知識を必要とせず,高いセキュリティ,堅牢性,透かし検出能力を維持しつつ,高品質な透かしテキストを生成することは困難である。
本稿では,この問題に対処するための適応的透かし戦略を提案する。
テキストの品質を改善し,ロバスト性を維持するため,補助モデルを用いて測定した高エントロピーのトークン分布に透かしを適応的に付加し,低エントロピートークン分布を無傷で保持する。
セキュリティのために、また、ランダム秘密鍵から生成される固定緑/赤リストの代わりに、テキスト品質に対する透かしの影響をさらに最小化するために、よく設計されたセマンティックマッピングモデルを用いて、予め生成されたテキストのセマンティック埋め込みに基づいて、復号化と偽造に弱い出力ロジットを適応的にスケールアップする。
各種LLMを用いた実験により,既存の透かし法に匹敵するロバスト性性能が得られた。
さらに,本手法が生成するテキストは,各種攻撃においてもセキュリティを維持しつつ,\emph{un-watermarked} llmと同等のパープレキシティを有する。 The advancement of Large Language Models (LLMs) has led to increasing concerns about the misuse of AI-generated text, and watermarking for LLM-generated text has emerged as a potential solution. However, it is challenging to generate high-quality watermarked text while maintaining strong security, robustness, and the ability to detect watermarks without prior knowledge of the prompt or model. This paper proposes an adaptive watermarking strategy to address this problem. To improve the text quality and maintain robustness, we adaptively add watermarking to token distributions with high entropy measured using an auxiliary model and keep the low entropy token distributions untouched. For the sake of security and to further minimize the watermark's impact on text quality, instead of using a fixed green/red list generated from a random secret key, which can be vulnerable to decryption and forgery, we adaptively scale up the output logits in proportion based on the semantic embedding of previously generated text using a well designed semantic mapping model. Our experiments involving various LLMs demonstrate that our approach achieves comparable robustness performance to existing watermark methods. Additionally, the text generated by our method has perplexity comparable to that of \emph{un-watermarked} LLMs while maintaining security even under various attacks. | 翻訳日:2024-01-26 15:46:22 公開日:2024-01-25 |
# ブラックボックステストにおけるチャットGPTとヒューマンシナジー : 比較分析 ChatGPT and Human Synergy in Black-Box Testing: A Comparative Analysis ( http://arxiv.org/abs/2401.13924v1 ) ライセンス: Link先を確認 | Hiroyuki Kirinuki, Haruto Tanno | (参考訳) 近年、チャットgptのような大規模言語モデル(llm)は、自然言語処理やソフトウェア工学を含む様々な人工知能アプリケーションの発展に重要な役割を果たしている。
有望だが未調査の領域は、ソフトウェアテスト、特にブラックボックステストでLLMを利用することである。
本稿では、ChatGPTが考案したテストケースを、ヒトの参加者によるテストケースと比較した。
本研究では,チャットgpt (gpt-4) と4名の参加者が,著者の仕様に基づく3つのアプリケーションのブラックボックステストケースを作成した。
目標は、提案するテストケースの実際の適用可能性を評価し、潜在的な欠点を特定し、chatgptが人間のテスト戦略をどのように強化できるかを理解することである。
ChatGPTは、テスト視点のカバレッジの観点から、一般的に人間の参加者が作成したケースと一致するか、少し上回るテストケースを生成することができる。
さらに、ChatGPTが人間と協力すると、それぞれが単独で達成できるテスト視点よりもはるかに多くのテスト視点をカバーでき、人間とChatGPTの協調が人間との共同作業よりも効果的である可能性が示唆された。
それでも、ChatGPTが生成したテストケースには、使用前に対処する必要のある問題があることに気づきました。 In recent years, large language models (LLMs), such as ChatGPT, have been pivotal in advancing various artificial intelligence applications, including natural language processing and software engineering. A promising yet underexplored area is utilizing LLMs in software testing, particularly in black-box testing. This paper explores the test cases devised by ChatGPT in comparison to those created by human participants. In this study, ChatGPT (GPT-4) and four participants each created black-box test cases for three applications based on specifications written by the authors. The goal was to evaluate the real-world applicability of the proposed test cases, identify potential shortcomings, and comprehend how ChatGPT could enhance human testing strategies. ChatGPT can generate test cases that generally match or slightly surpass those created by human participants in terms of test viewpoint coverage. Additionally, our experiments demonstrated that when ChatGPT cooperates with humans, it can cover considerably more test viewpoints than each can achieve alone, suggesting that collaboration between humans and ChatGPT may be more effective than human pairs working together. Nevertheless, we noticed that the test cases generated by ChatGPT have certain issues that require addressing before use. | 翻訳日:2024-01-26 15:45:57 公開日:2024-01-25 |
# 言語モデルにおける3次元分子テキスト解釈に向けて Towards 3D Molecule-Text Interpretation in Language Models ( http://arxiv.org/abs/2401.13923v1 ) ライセンス: Link先を確認 | Sihang Li, Zhiyuan Liu, Yanchen Luo, Xiang Wang, Xiangnan He, Kenji Kawaguchi, Tat-Seng Chua, Qi Tian | (参考訳) 言語モデル(LM)は多様なドメインに大きな影響を与えている。
しかし、3D分子構造を解釈する際の固有の制限は、生体分子領域におけるそのポテンシャルを著しく制限している。
このギャップを埋めるため,我々は3d分子テキスト解釈に着目し,3d-molm:3d分子言語モデリングを提案する。
具体的には、3D-MoLMは、LMに3D分子エンコーダを装着することにより、3D分子の解釈と解析を可能にする。
この統合は3d分子テキストプロジェクタによって実現され、3d分子エンコーダの表現空間とlmの入力空間を橋渡しする。
さらに, 3D-MoLMの分子間理解とその後の指示能力を高めるために, 3D分子中心の命令チューニングデータセット -- 3D-MoITを精巧にキュレートした。
3D分子テキストアライメントと3D分子中心の命令チューニングを通じて、3D-MoLMは3D分子エンコーダとLMの統合を確立する。
これは、分子文検索、分子キャプション、そしてより困難なオープンテキスト分子QAタスク、特に3D依存性に焦点を当てた、下流タスクの既存のベースラインを大幅に上回っている。 Language Models (LMs) have greatly influenced diverse domains. However, their inherent limitation in comprehending 3D molecular structures has considerably constrained their potential in the biomolecular domain. To bridge this gap, we focus on 3D molecule-text interpretation, and propose 3D-MoLM: 3D-Molecular Language Modeling. Specifically, 3D-MoLM enables an LM to interpret and analyze 3D molecules by equipping the LM with a 3D molecular encoder. This integration is achieved by a 3D molecule-text projector, bridging the 3D molecular encoder's representation space and the LM's input space. Moreover, to enhance 3D-MoLM's ability of cross-modal molecular understanding and instruction following, we meticulously curated a 3D molecule-centric instruction tuning dataset -- 3D-MoIT. Through 3D molecule-text alignment and 3D molecule-centric instruction tuning, 3D-MoLM establishes an integration of 3D molecular encoder and LM. It significantly surpasses existing baselines on downstream tasks, including molecule-text retrieval, molecule captioning, and more challenging open-text molecular QA tasks, especially focusing on 3D-dependent properties. | 翻訳日:2024-01-26 15:45:36 公開日:2024-01-25 |
# LocMoE: 大規模言語モデルトレーニングのための低オーバーヘッドMoE LocMoE: A Low-overhead MoE for Large Language Model Training ( http://arxiv.org/abs/2401.13920v1 ) ライセンス: Link先を確認 | Jing Li, Zhijie Sun, Xuan He, Li Zeng, Yi Lin, Entong Li, Binfan Zheng, Rongqian Zhao, Xin Chen | (参考訳) mixs-of-experts(moe)モデルは大規模言語モデル(llm)のための広く普及した分散統合学習手法である。
しかし、MoEの性能は、負荷不均衡とAll-to-All通信の高レイテンシ、および専門家の容量が大きいため比較的冗長な計算によって制限される。
負荷の不均衡は、特定の専門家を一貫して選択する既存のルーティングポリシーに起因する可能性がある。
All-To-Allプロシージャにおけるノード間通信は、トレーニング時間を大幅に延長する。
そこで本研究では,ノード間通信をノード内通信に変換することにより,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。
特に、専門家のゲーティングウェイトと割り当てられたトークンとの間の最大角偏差を計算し、専門家の能力に最低限の閾値があることを解明する。
我々はこれらの修正を、マルチレベルルーティングとAscendクラスタ上での実験を行うMindSporeフレームワークに基づくPanGu-Sigmaモデルに移植する。
実験の結果,locmoeは,モデル精度に影響を与えることなく,従来のルータであるハッシュルータやスイッチルータと比較して,1エポック当たりのトレーニング時間を12.68%から22.24%削減できることが示されている。 The Mixtures-of-Experts (MoE) model is a widespread distributed and integrated learning method for large language models (LLM), which is favored due to its ability to sparsify and expand models efficiently. However, the performance of MoE is limited by load imbalance and high latency of All-To-All communication, along with relatively redundant computation owing to large expert capacity. Load imbalance may result from existing routing policies that consistently tend to select certain experts. The frequent inter-node communication in the All-To-All procedure also significantly prolongs the training time. To alleviate the above performance problems, we propose a novel routing strategy that combines load balance and locality by converting partial inter-node communication to that of intra-node. Notably, we elucidate that there is a minimum threshold for expert capacity, calculated through the maximal angular deviation between the gating weights of the experts and the assigned tokens. We port these modifications on the PanGu-Sigma model based on the MindSpore framework with multi-level routing and conduct experiments on Ascend clusters. The experiment results demonstrate that the proposed LocMoE reduces training time per epoch by 12.68% to 22.24% compared to classical routers, such as hash router and switch router, without impacting the model accuracy. | 翻訳日:2024-01-26 15:45:12 公開日:2024-01-25 |
# WebVoyager: 大規模マルチモーダルモデルによるエンドツーエンドWebエージェントの構築 WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models ( http://arxiv.org/abs/2401.13919v1 ) ライセンス: Link先を確認 | Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, Dong Yu | (参考訳) 大規模言語モデル(LLMs)の進歩は、現実の世界における自律的アプリケーションの開発によって特徴付けられる新しい時代へと繋がる。
既存のWebエージェントは通常、1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
このギャップを埋めるために、WebVoyagerを紹介します。これは、LMM(Large Multimodal Model)を利用したWebエージェントで、現実世界のWebサイトと対話することで、エンド・ツー・エンドの指示を完了します。
さらに,GPT-4Vの頑健なマルチモーダル理解機能を活用し,オープンエンドWebエージェントタスクの自動評価の課題に対処する,Webエージェントのための新しい評価プロトコルを提案する。
我々は、広く使われている15のウェブサイトから現実世界のタスクを収集し、エージェントを評価することで、新しいベンチマークを作成する。
GPT-4(All Tools)とWebVoyager(text-only)の両方の性能をはるかに上回る55.7%のタスク成功率を実現し、実用アプリケーションにおけるWebVoyagerの異常な能力を強調した。
提案した自動評価は,人間の判断と85.3%の一致を達成し,実世界におけるWebエージェントのさらなる発展の道を開いた。 The advancement of large language models (LLMs) leads to a new era marked by the development of autonomous applications in the real world, which drives innovation in the creation of advanced web-based agents. Existing web agents typically only handle one input modality and are evaluated only in simplified web simulators or static web snapshots, greatly limiting their applicability in real-world scenarios. To bridge this gap, we introduce WebVoyager, an innovative Large Multimodal Model (LMM) powered web agent that can complete user instructions end-to-end by interacting with real-world websites. Moreover, we propose a new evaluation protocol for web agents to address the challenges of automatic evaluation of open-ended web agent tasks, leveraging the robust multimodal comprehension capabilities of GPT-4V. We create a new benchmark by gathering real-world tasks from 15 widely used websites to evaluate our agents. We show that WebVoyager achieves a 55.7% task success rate, significantly surpassing the performance of both GPT-4 (All Tools) and the WebVoyager (text-only) setups, underscoring the exceptional capability of WebVoyager in practical applications. We found that our proposed automatic evaluation achieves 85.3% agreement with human judgment, paving the way for further development of web agents in a real-world setting. | 翻訳日:2024-01-26 15:44:29 公開日:2024-01-25 |
# 不確実性認識言語エージェントに向けて Towards Uncertainty-Aware Language Agent ( http://arxiv.org/abs/2401.14016v1 ) ライセンス: Link先を確認 | Jiuzhou Han and Wray Buntine and Ehsan Shareghi | (参考訳) 言語エージェントは、外界と動的に相互作用するより汎用的な設計の中核に大規模言語モデルを置くことで、有望な成功を収めてきたが、既存のアプローチはこれらの相互作用の間に不確実性の概念を無視している。
不確実性認識言語エージェント(Uncertainty-Aware Language Agent, UALA)は、不確実性定量化を用いてエージェントと外部世界の相互作用を編成するフレームワークである。
ReActのような他のよく知られたものと比較して、我々の3つの代表的なタスク(HotpotQA、StrategyQA、MMLU)と様々なLLMサイズにわたる広範な実験は、UALAがパフォーマンスを大幅に改善する一方で、外部世界(ツールコールやトークンの削減など)への依存が著しく低いことを示している。
本分析は, エージェント微調整と比較して, UALA の大きな可能性や, 不確実性の指標として, LLM の信頼性に欠ける信頼感を裏付ける様々な知見を提供する。 While Language Agents have achieved promising success by placing Large Language Models at the core of a more versatile design that dynamically interacts with the external world, the existing approaches neglect the notion of uncertainty during these interactions. We present the Uncertainty-Aware Language Agent (UALA), a framework that orchestrates the interaction between the agent and the external world using uncertainty quantification. Compared with other well-known counterparts like ReAct, our extensive experiments across 3 representative tasks (HotpotQA, StrategyQA, MMLU) and various LLM sizes demonstrates that UALA brings a significant improvement of performance, while having a substantially lower reliance on the external world (i.e., reduced number of tool calls and tokens). Our analyses provide various insights including the great potential of UALA compared with agent fine-tuning, and underscoring the unreliably of verbalised confidence of LLMs as a proxy for uncertainty. | 翻訳日:2024-01-26 15:36:03 公開日:2024-01-25 |
# アダプティブトランスフォーマーネットワークによるクロスドメイン・マイノショット学習 Cross-Domain Few-Shot Learning via Adaptive Transformer Networks ( http://arxiv.org/abs/2401.13987v1 ) ライセンス: Link先を確認 | Naeem Paeedeh, Mahardhika Pratama, Muhammad Anwar Ma'sum, Wolfgang Mayer, Zehong Cao, Ryszard Kowlczyk | (参考訳) ほとんど数ショットの学習作業は、ベースとターゲットタスクの間の同じドメイン仮定に依存しており、実践的な応用を妨げる。
本稿では,ベースタスクと対象タスクの間に大きな領域シフトが存在するクロスドメイン・少数ショット学習のための,単純かつ効果的なソリューションであるadaptive transformer network (adapter)を提案する。
ADAPTERは2つのドメイン間で伝達可能な特徴を学習するために双方向の相互注意という概念に基づいている。
提案されたアーキテクチャはdinoでトレーニングされ、監督崩壊問題を避けるために多様でバイアスの少ない特徴を生み出す。
さらに, 埋込空間における密接なサンプルのラベルの予測も考慮し, 予測の一貫性と信頼性を向上させるため, ラベル平滑化手法を提案する。
アダプタの性能はbscd-fslベンチマークで厳密に評価され、かなりのマージンで先行技術を上回る。 Most few-shot learning works rely on the same domain assumption between the base and the target tasks, hindering their practical applications. This paper proposes an adaptive transformer network (ADAPTER), a simple but effective solution for cross-domain few-shot learning where there exist large domain shifts between the base task and the target task. ADAPTER is built upon the idea of bidirectional cross-attention to learn transferable features between the two domains. The proposed architecture is trained with DINO to produce diverse, and less biased features to avoid the supervision collapse problem. Furthermore, the label smoothing approach is proposed to improve the consistency and reliability of the predictions by also considering the predicted labels of the close samples in the embedding space. The performance of ADAPTER is rigorously evaluated in the BSCD-FSL benchmarks in which it outperforms prior arts with significant margins. | 翻訳日:2024-01-26 15:35:43 公開日:2024-01-25 |
# 説明-一貫性ファインタニングによる一貫した自然言語説明に向けて Towards Consistent Natural-Language Explanations via Explanation-Consistency Finetuning ( http://arxiv.org/abs/2401.13986v1 ) ライセンス: Link先を確認 | Yanda Chen, Chandan Singh, Xiaodong Liu, Simiao Zuo, Bin Yu, He He, Jianfeng Gao | (参考訳) 大規模言語モデル(llm)はしばしば説得力に富んだ説明を生み出します。
しかし、人間とは違って、異なる入力に関する矛盾した説明をしばしば生み出す。
例えば、LLM は "Can sparrows fly?" という質問に答えるときに "All birds can fly" という説明を生成するが、"Can penguins fly?" という質問には "No" と答える。
説明は、人間が複数の例でLLMの決定過程をシミュレートできるように、関連する例間で一貫性を持たなければならない。
本稿では,LLMを適応させて,より一貫性のある自然言語説明を生成する手法であるEC-finetuningを提案する。
ECファインタニングは、一貫した説明を含むように慎重に構築された合成データにLCMを微調整する。
様々なドメインの様々な質問応答データセットで、ec-finetuningは4つのファインチューニングデータセットで10.0%の相対的説明一貫性の改善をもたらし、ファインチューニング中に見られない7つのアウトオブディストリビューションデータセット(+4.5%相対)に一般化する。
コードはhttps://github.com/yandachen/explanation-consistency-finetuningで入手できる。 Large language models (LLMs) often generate convincing, fluent explanations. However, different from humans, they often generate inconsistent explanations on different inputs. For example, an LLM may generate the explanation "all birds can fly" when answering the question "Can sparrows fly?" but meanwhile answer "no" to the related question "Can penguins fly?". Explanations should be consistent across related examples so that they allow a human to simulate the LLM's decision process on multiple examples. We propose explanation-consistency finetuning (EC-finetuning), a method that adapts LLMs to generate more consistent natural-language explanations on related examples. EC-finetuning involves finetuning LLMs on synthetic data that is carefully constructed to contain consistent explanations. Across a variety of question-answering datasets in various domains, EC-finetuning yields a 10.0% relative explanation consistency improvement on four finetuning datasets, and generalizes to seven out-of-distribution datasets not seen during finetuning (+4.5% relative). Code is available at https://github.com/yandachen/explanation-consistency-finetuning . | 翻訳日:2024-01-26 15:35:29 公開日:2024-01-25 |
# Leeroo Orchestrator:モデル統合によるLLMのパフォーマンス向上 Leeroo Orchestrator: Elevating LLMs Performance Through Model Integration ( http://arxiv.org/abs/2401.13979v1 ) ライセンス: Link先を確認 | Alireza Mohammadshahi, Ali Shaikh, Majid Yazdani | (参考訳) 本稿では,複数のLLMの集合的知識を活用して新しい最先端技術を構築するアーキテクチャを提案する。
このフレームワークのコアはllmベースのオーケストレータで、最適なタスク実行のために適切なllm専門家を選ぶのに適しています。
強化学習における自己再生に触発されて、オーケストレータのトレーニングデータを生成するために、クエリ生成、オーケストレーション、評価のループを作成しました。
評価はmmluベンチマークに着目し,ハグ面に7b,13b,34bパラメータのモデルを用いた。
私たちのleerooオーケストレータは、コストの3分の2しか必要とせず、mixtralモデルと同等のパフォーマンスを実現しています。
さらに、許容コストの増大は、同じコストレベルでのmixtralの精度を5%以上上回り、75.9%の精度に達した。
GPT4をモデルプールに組み込む際にさらなる拡張が観察された。
LeerooオーケストレータはGPT4のパフォーマンスを半分のコストでほぼ一致し、GPT4の結果を25%のコスト削減で上回っている。
これらの結果は,複数のLLM間の相乗効果を最適化し,優れた性能を実現することにより,最先端かつコスト効率の高いLLMを構築する上でのアーキテクチャの可能性を示している。 In this paper, we propose an architecture to harness the collective knowledge of multiple trained LLMs to create a new state-of-the-art. At the core of this framework is a LLM-based orchestrator that is adept at picking the right underlying LLM experts for optimal task execution. Inspired by self-play in reinforcement learning, we created a loop of query generation, orchestration, and evaluation to generate training data for the orchestrator. Our evaluation focused on the MMLU benchmark, employing models with 7B, 13B, and 34B parameters available on Hugging Face. The results demonstrate new state-of-the-art open-source models: Our Leeroo orchestrator achieves performance on par with the Mixtral model while incurring only two-thirds of its cost. Moreover, increasing the allowed cost surpasses Mixtral's accuracy by over 5% at the same cost level, reaching an accuracy of 75.9%. Further enhancements were observed when integrating GPT4 into the underlying model pool. The Leeroo orchestrator nearly matches GPT4's performance at half the cost and even exceeds GPT4's results with a 25% cost reduction. These findings illustrate the potential of our architecture in creating state-of-the-art and cost-effective LLMs by optimizing the synergy between multiple LLMs to achieve superior performance outcomes. | 翻訳日:2024-01-26 15:35:05 公開日:2024-01-25 |
# ベンガルのインドの都市における統計的・機械学習技術を用いたモード選択の決定要因の評価 Evaluating the Determinants of Mode Choice Using Statistical and Machine Learning Techniques in the Indian Megacity of Bengaluru ( http://arxiv.org/abs/2401.13977v1 ) ライセンス: Link先を確認 | Tanmay Ghosh and Nithin Nagaraj | (参考訳) 交通計画にはモード選択の背後にある意思決定が不可欠である。
離散選択モデルのような統計的学習手法は伝統的に用いられてきたが、機械学習(ml)モデルは高い予測性能のために近年輸送計画家の間で注目を集めている。
しかし、MLモデルのブラックボックスの性質は重要な解釈可能性の問題を引き起こし、意思決定や政策決定における実践的応用を制限している。
本研究は,ベンガルル市の低中所得層に属する1350ドル世帯のデータセットを用いて,多項ロジットモデルと決定木,ランダム林,極勾配ブースティング,サポートベクターマシンなどのml分類器を用いたモード選択意思決定行動を調査した。
正確性という点では、ランダムフォレストモデルは、他の全てのモデルと比較して、最高(トレーニングデータに0.788ドル、テストデータに0.605ドル)を達成した。
本研究は、MLモデルを用いた意思決定行動を説明するために、特徴重要度や個別条件予測プロットのような現代的な解釈可能性技術を採用した。
旅行費が高くなると、他のモードと比較して予測されるバス利用の確率が大幅に減少する(ランダム森林とxgboostモデルを用いた0.66\%$と0.34\%$$で旅行費が10\%上昇する)。
しかし、移動時間を10\%$に短縮すると、メトロの好みが向上する(ランダム森林では0.16\%$、xgboostでは0.142%)。
この研究は、機械学習技術を用いたモード選択分析に関する現在進行中の研究を強化し、正確性と解釈可能性の両方の観点から、これらのモデルのパフォーマンスの理解を改善するのに役立つ。 The decision making involved behind the mode choice is critical for transportation planning. While statistical learning techniques like discrete choice models have been used traditionally, machine learning (ML) models have gained traction recently among the transportation planners due to their higher predictive performance. However, the black box nature of ML models pose significant interpretability challenges, limiting their practical application in decision and policy making. This study utilised a dataset of $1350$ households belonging to low and low-middle income bracket in the city of Bengaluru to investigate mode choice decision making behaviour using Multinomial logit model and ML classifiers like decision trees, random forests, extreme gradient boosting and support vector machines. In terms of accuracy, random forest model performed the best ($0.788$ on training data and $0.605$ on testing data) compared to all the other models. This research has adopted modern interpretability techniques like feature importance and individual conditional expectation plots to explain the decision making behaviour using ML models. A higher travel costs significantly reduce the predicted probability of bus usage compared to other modes (a $0.66\%$ and $0.34\%$ reduction using Random Forests and XGBoost model for $10\%$ increase in travel cost). However, reducing travel time by $10\%$ increases the preference for the metro ($0.16\%$ in Random Forests and 0.42% in XGBoost). This research augments the ongoing research on mode choice analysis using machine learning techniques, which would help in improving the understanding of the performance of these models with real-world data in terms of both accuracy and interpretability. | 翻訳日:2024-01-26 15:34:40 公開日:2024-01-25 |
# 芸術的イメージを操作するための学習 Learning to Manipulate Artistic Images ( http://arxiv.org/abs/2401.13976v1 ) ライセンス: Link先を確認 | Wei Guo, Yuqi Zhang, De Ma, Qian Zheng | (参考訳) コンピュータビジョンの最近の進歩は、芸術的創造の障壁を著しく減らした。
従来の画像翻訳手法は、柔軟性と制御性から注目されている。
しかし,これらの手法は意味論や意味情報を入力として必要としているが,正確な意味論は芸術的イメージでは容易には得られない。
さらに、これらの手法は、事前のトレーニングデータによるクロスドメインアーティファクトに悩まされ、空間領域の特徴圧縮による不正確な構造を生成する。
本稿では,意味のない情報をガイダンスとして活用する任意のスタイルイメージマニピュレーションネットワーク(SIM-Net)と,画像生成のための自己教師型手法による地域交通戦略を提案する。
本手法は計算効率と高分解能をある程度バランスさせる。
さらに,ゼロショットスタイルの画像操作を容易にする。
定性的かつ定量的な実験では、最先端のメソッドよりも優れた方法が示されています。 Recent advancement in computer vision has significantly lowered the barriers to artistic creation. Exemplar-based image translation methods have attracted much attention due to flexibility and controllability. However, these methods hold assumptions regarding semantics or require semantic information as the input, while accurate semantics is not easy to obtain in artistic images. Besides, these methods suffer from cross-domain artifacts due to training data prior and generate imprecise structure due to feature compression in the spatial domain. In this paper, we propose an arbitrary Style Image Manipulation Network (SIM-Net), which leverages semantic-free information as guidance and a region transportation strategy in a self-supervised manner for image generation. Our method balances computational efficiency and high resolution to a certain extent. Moreover, our method facilitates zero-shot style image manipulation. Both qualitative and quantitative experiments demonstrate the superiority of our method over state-of-the-art methods.Code is available at https://github.com/SnailForce/SIM-Net. | 翻訳日:2024-01-26 15:34:08 公開日:2024-01-25 |
# BootPIG:事前訓練拡散モデルにおけるゼロショットパーソナライズド画像生成機能 BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models ( http://arxiv.org/abs/2401.13974v1 ) ライセンス: Link先を確認 | Senthil Purushwalkam, Akash Gokul, Shafiq Joty, Nikhil Naik | (参考訳) 最近のテキストから画像への生成モデルは、入力プロンプトを忠実にフォローする画像を生成することに驚くほど成功した。
しかし、望ましい概念を記述するために単語を使う必要は、生成された概念の出現を限定的に制御できる。
本研究では,既存のテキスト・画像拡散モデルにおけるパーソナライズ機能を実現するアプローチを提案する。
生成された画像における概念の出現を導くために,ユーザが物体の参照画像を提供することを可能にする新しいアーキテクチャ(bootpig)を提案する。
提案したBootPIGアーキテクチャは、事前訓練されたテキスト-画像拡散モデルに最小限の変更を施し、異なるUNetモデルを使用して、世代を望ましい外観に向けて操る。
我々は,事前学習されたテキスト・ツー・イメージモデル,llmチャットエージェント,画像セグメンテーションモデルから生成されたデータを用いて,bootpigアーキテクチャでパーソナライズ機能をブートストラップできるトレーニング手順を導入する。
数日間の事前トレーニングを必要とする既存の方法とは対照的に、BootPIGアーキテクチャはおよそ1時間でトレーニングできる。
DreamBoothデータセットの実験では、BootPIGが既存のゼロショットメソッドよりも優れており、テスト時の微調整アプローチに匹敵する。
ユーザ調査により,参照対象の外観に対する忠実性を維持し,テキスト的プロンプトと整合させることで,既存の手法よりもブートピグ生成の好みを検証した。 Recent text-to-image generation models have demonstrated incredible success in generating images that faithfully follow input prompts. However, the requirement of using words to describe a desired concept provides limited control over the appearance of the generated concepts. In this work, we address this shortcoming by proposing an approach to enable personalization capabilities in existing text-to-image diffusion models. We propose a novel architecture (BootPIG) that allows a user to provide reference images of an object in order to guide the appearance of a concept in the generated images. The proposed BootPIG architecture makes minimal modifications to a pretrained text-to-image diffusion model and utilizes a separate UNet model to steer the generations toward the desired appearance. We introduce a training procedure that allows us to bootstrap personalization capabilities in the BootPIG architecture using data generated from pretrained text-to-image models, LLM chat agents, and image segmentation models. In contrast to existing methods that require several days of pretraining, the BootPIG architecture can be trained in approximately 1 hour. Experiments on the DreamBooth dataset demonstrate that BootPIG outperforms existing zero-shot methods while being comparable with test-time finetuning approaches. Through a user study, we validate the preference for BootPIG generations over existing methods both in maintaining fidelity to the reference object's appearance and aligning with textual prompts. | 翻訳日:2024-01-26 15:33:53 公開日:2024-01-25 |
# リプシッツ連続性を超える確率的弱凸最適化 Stochastic Weakly Convex Optimization Beyond Lipschitz Continuity ( http://arxiv.org/abs/2401.13971v1 ) ライセンス: Link先を確認 | Wenzhi Gao, Qi Deng | (参考訳) 本稿では,標準リプシッツ連続性仮定を伴わない確率的弱凸最適化を考える。
新たな適応正則化(ステップサイズ)戦略に基づき,確率的下次法を含む確率的アルゴリズムが,一定の故障率で$\mathcal{O} ( 1 / \sqrt{K})$収束率を保持することを示す。
リプシッツパラメータは、$\|x\|$の一般的な成長関数によって境界づけられるか、あるいは独立なランダムサンプルを通して局所的に推定される。 This paper considers stochastic weakly convex optimization without the standard Lipschitz continuity assumption. Based on new adaptive regularization (stepsize) strategies, we show that a wide class of stochastic algorithms, including the stochastic subgradient method, preserve the $\mathcal{O} ( 1 / \sqrt{K})$ convergence rate with constant failure rate. Our analyses rest on rather weak assumptions: the Lipschitz parameter can be either bounded by a general growth function of $\|x\|$ or locally estimated through independent random samples. | 翻訳日:2024-01-26 15:33:27 公開日:2024-01-25 |
# メタトランスネットワークを用いた動的時系列予測 Dynamic Long-Term Time-Series Forecasting via Meta Transformer Networks ( http://arxiv.org/abs/2401.13968v1 ) ライセンス: Link先を確認 | Muhammad Anwar Ma'sum, MD Rasel Sarkar, Mahardhika Pratama, Savitha Ramasamy, Sreenatha Anavatti, Lin Liu, Habibullah, Ryszard Kowalczyk | (参考訳) 信頼性の高い長期時系列予測は、実際には非常に要求されるが、計算量やメモリフットプリントの低下や、動的学習環境に対する堅牢性など、多くの課題に遭遇する。
本稿では,動的時系列予測タスクを扱うためのメタトランスフォーマネットワーク (mantra) を提案する。
MANTRAは、高速で遅い学習者の概念に依存しており、高速学習者の集合は、変化に迅速に適応しながら、データ分散の異なる側面を学習する。
遅い学習者は、速い学習者に適切な表現を仕立てる。
動的環境への高速適応は、少数のパラメータでタスク適応表現を生成するユニバーサル表現変換層を用いて達成される。
予測長の異なる4つのデータセットを用いて実験したところ、多変量および単変量設定のベースラインアルゴリズムよりも少なくとも$3\%の利点が得られた。
MANTRAのソースコードは \url{https://github.com/anwarmaxsum/MANTRA} で公開されている。 A reliable long-term time-series forecaster is highly demanded in practice but comes across many challenges such as low computational and memory footprints as well as robustness against dynamic learning environments. This paper proposes Meta-Transformer Networks (MANTRA) to deal with the dynamic long-term time-series forecasting tasks. MANTRA relies on the concept of fast and slow learners where a collection of fast learners learns different aspects of data distributions while adapting quickly to changes. A slow learner tailors suitable representations to fast learners. Fast adaptations to dynamic environments are achieved using the universal representation transformer layers producing task-adapted representations with a small number of parameters. Our experiments using four datasets with different prediction lengths demonstrate the advantage of our approach with at least $3\%$ improvements over the baseline algorithms for both multivariate and univariate settings. Source codes of MANTRA are publicly available in \url{https://github.com/anwarmaxsum/MANTRA}. | 翻訳日:2024-01-26 15:33:17 公開日:2024-01-25 |
# 半監督領域一般化のための擬似ラベリングの改善とロバスト性向上 Improving Pseudo-labelling and Enhancing Robustness for Semi-Supervised Domain Generalization ( http://arxiv.org/abs/2401.13965v1 ) ライセンス: Link先を確認 | Adnan Khan, Mai A. Shaaban, Muhammad Haris Khan | (参考訳) ドメイン一般化(dg)の達成以外にも,限定ラベルを活用することで,学習時のデータ効率も向上するはずだ。
医療自動化のような現実のアプリケーションに不可欠な半スーパービジョンドメイン一般化(SSDG)の問題について検討する。
SSDGは、与えられたトレーニングデータが部分的にラベル付けされているだけで、クロスドメインの一般化可能なモデルを学ぶ必要がある。
実証的な調査により、DG法はSSDGの設定において性能が劣る傾向にあることが明らかになった。
semi-supervised learning (ssl) は、完全教師付き学習に比べて改善が見られたが、それでも劣る結果を示した。
SSLベースのSSDGメソッドが直面している重要な課題は、複数のドメインシフトの下で正確な擬似ラベルを選択し、限られたラベルの下でのソースドメインへのオーバーフィットを減らすことである。
本研究では,モデル平均化(UPLM)を用いた新しい不確実性誘導擬似ラベリングを用いたSSDG手法を提案する。
我々の不確実性誘導擬似ラベリング(UPL)は、モデル不確実性を利用して擬似ラベリング選択を改善する。
新しいモデル平均化(MA)戦略によって強化されたUPL技術は、限られたラベルを持つソースドメインへの過度な適合を緩和する。
代表的なdgデータセットに関する広範囲な実験から,本手法が既存手法の有効性を示すことが示唆された。
私たちのコードとラベル付きデータシードはGitHubで入手可能です。 Beyond attaining domain generalization (DG), visual recognition models should also be data-efficient during learning by leveraging limited labels. We study the problem of Semi-Supervised Domain Generalization (SSDG) which is crucial for real-world applications like automated healthcare. SSDG requires learning a cross-domain generalizable model when the given training data is only partially labelled. Empirical investigations reveal that the DG methods tend to underperform in SSDG settings, likely because they are unable to exploit the unlabelled data. Semi-supervised learning (SSL) shows improved but still inferior results compared to fully-supervised learning. A key challenge, faced by the best-performing SSL-based SSDG methods, is selecting accurate pseudo-labels under multiple domain shifts and reducing overfitting to source domains under limited labels. In this work, we propose new SSDG approach, which utilizes a novel uncertainty-guided pseudo-labelling with model averaging (UPLM). Our uncertainty-guided pseudo-labelling (UPL) uses model uncertainty to improve pseudo-labelling selection, addressing poor model calibration under multi-source unlabelled data. The UPL technique, enhanced by our novel model averaging (MA) strategy, mitigates overfitting to source domains with limited labels. Extensive experiments on key representative DG datasets suggest that our method demonstrates effectiveness against existing methods. Our code and chosen labelled data seeds are available on GitHub: https://github.com/Adnan-Khan7/UPLM | 翻訳日:2024-01-26 15:33:02 公開日:2024-01-25 |
# オープンな異種協調知覚のための拡張可能なフレームワーク An Extensible Framework for Open Heterogeneous Collaborative Perception ( http://arxiv.org/abs/2401.13964v1 ) ライセンス: Link先を確認 | Yifan Lu, Yue Hu, Yiqi Zhong, Dequan Wang, Siheng Chen, Yanfeng Wang | (参考訳) コラボレーティブ知覚は、複数のエージェント間のデータ交換を容易にすることによって、オクルージョンのような単一エージェント知覚の制限を緩和することを目的としている。
しかし、現在のほとんどの作品では、すべてのエージェントが識別センサーと知覚モデルを使用する均質なシナリオが検討されている。
実際、ヘテロジニアスエージェントタイプは、既存のエージェントとコラボするときにドメインのギャップに絶えず遭遇し、必然的に直面することがある。
本稿では,新たなオープンな異種問題として,新しい異種エージェントを協調認識に適応させると同時に,高い認識性能と低統合コストを確保する方法を提案する。
この問題に対処するために,新たに拡張可能な協調認識フレームワークであるHEAL(Heterogeneous ALliance)を提案する。
HEALは最初、新しいマルチスケールフォアグラウンド対応ピラミッドフュージョンネットワークを通じて初期エージェントと統合された特徴空間を確立する。
不均一な新しいエージェントが以前にも見られないモダリティやモデルで現れると、確立された統一空間に、革新的な後方アライメントで整列する。
このステップは、新しいエージェントタイプの個別のトレーニングのみを含み、非常に低いトレーニングコストと高い拡張性を示す。
トレーニングはエージェント所有者がローカルに行うことができるため、新たなエージェントのモデル詳細を開示から保護する。
エージェントのデータ不均一性を豊かにするために、より多様なセンサータイプを持つ新しい大規模データセットであるPV2V-Hを導入する。
OPV2V-HとDAIR-V2Xデータセットの大規模な実験は、HEALがSOTAメソッドを上回り、トレーニングパラメータを3つの新しいエージェントタイプを統合すると91.5%削減することを示している。
コードとデータはhttps://github.com/yifanlu0227/heal。 Collaborative perception aims to mitigate the limitations of single-agent perception, such as occlusions, by facilitating data exchange among multiple agents. However, most current works consider a homogeneous scenario where all agents use identity sensors and perception models. In reality, heterogeneous agent types may continually emerge and inevitably face a domain gap when collaborating with existing agents. In this paper, we introduce a new open heterogeneous problem: how to accommodate continually emerging new heterogeneous agent types into collaborative perception, while ensuring high perception performance and low integration cost? To address this problem, we propose HEterogeneous ALliance (HEAL), a novel extensible collaborative perception framework. HEAL first establishes a unified feature space with initial agents via a novel multi-scale foreground-aware Pyramid Fusion network. When heterogeneous new agents emerge with previously unseen modalities or models, we align them to the established unified space with an innovative backward alignment. This step only involves individual training on the new agent type, thus presenting extremely low training costs and high extensibility. It also protects new agents' model details from disclosure since the training can be conducted by the agent owner locally. To enrich agents' data heterogeneity, we bring OPV2V-H, a new large-scale dataset with more diverse sensor types. Extensive experiments on OPV2V-H and DAIR-V2X datasets show that HEAL surpasses SOTA methods in performance while reducing the training parameters by 91.5% when integrating 3 new agent types. Code and data are available at: https://github.com/yifanlu0227/HEAL. | 翻訳日:2024-01-26 15:32:39 公開日:2024-01-25 |
# スピンチェーン上のホーキングページ遷移 Hawking-Page transition on a spin chain ( http://arxiv.org/abs/2401.13963v1 ) ライセンス: Link先を確認 | David P\'erez-Garc\'ia and Leonardo Santilli and Miguel Tierz | (参考訳) 1dハイゼンベルクスピン鎖を介してAdS$_5$におけるホーキング・ページ転移のアクセシビリティが示される。
スピンチェーンの集合に対してロスシュミットエコーのランダム行列定式化を行い、強磁性スピン相互作用をランダム化する。
平均すると、熱ロスシュミットエコーはホーキング-ページ遷移におけるエントロピーの予測値の増加を検出する。
これは、1dスピンチェーンが4+1次元のブラックホール物理学の特性を示すことを示唆している。
この手法は一般分散関係を持つ自由フェルミオン系にも等しく適用可能であることを示す。 The accessibility of the Hawking-Page transition in AdS$_5$ through a 1d Heisenberg spin chain is demonstrated. We use the random matrix formulation of the Loschmidt echo for a set of spin chains, and randomize the ferromagnetic spin interaction. It is shown that the thermal Loschmidt echo, when averaged, detects the predicted increase in entropy across the Hawking-Page transition. This suggests that a 1d spin chain exhibits characteristics of black hole physics in 4+1 dimensions. We show that this approach is equally applicable to free fermion systems with a general dispersion relation. | 翻訳日:2024-01-26 15:32:09 公開日:2024-01-25 |
# TriSAM: VEM画像におけるゼロショット皮質血管セグメンテーションのためのTri-Plane SAM TriSAM: Tri-Plane SAM for zero-shot cortical blood vessel segmentation in VEM images ( http://arxiv.org/abs/2401.13961v1 ) ライセンス: Link先を確認 | Jia Wan, Wanhua Li, Atmadeep Banerjee, Jason Ken Adhinarta, Evelina Sjostedt, Jingpeng Wu, Jeff Lichtman, Hanspeter Pfister, Donglai Wei | (参考訳) 本稿では,大脳皮質血管分節(vem)像に特化して設計された,最新の公開ベンチマークであるbvemを導入することで,神経画像の分野における大きなギャップを解消する。
脳血管と神経機能の複雑な関係は、脳の健康を理解する上で血管分析の重要な役割を担っている。
マクロとメソスケールでのイメージング技術は注目とリソースを集めているが、マイクロスケールのvemイメージングは複雑な血管の詳細を明らかにすることができるが、必要なベンチマークインフラが不足している。
私たちのBvEMベンチマークは、脳血管のマイクロスケールの複雑さを深く研究する中で、神経血管結合の謎と脳機能と病理への影響を解明するための重要なステップを示しています。
BvEMデータセットは、成体マウス、マカク、ヒトの3種の哺乳類のVEM画像量に基づいている。
半自動,手動,品質管理のプロセスを通じて,高画質の3Dセグメンテーションを保証し,高精細度,高精細度,高精細度の血管造影を行った。
さらに,TriSAMと呼ばれる,強力なセグメンテーションモデルSAMを3次元セグメンテーションに用いるゼロショット皮質血管セグメンテーション法を開発した。
SAMを2Dセグメンテーションから3Dボリュームセグメンテーションに上げるために、TriSAMは多種追跡フレームワークを使用して、ある画像平面の信頼性を活用しながら、他の画像を用いて潜在的回転点を識別する。
このアプローチはTri-Plane選択、SAMベースの追跡、再帰的リダイレクトから成り、モデルトレーニングや微調整なしに長期の3D血管セグメンテーションを実現する。
実験の結果,TriSAMは3種のBvEMベンチマークにおいて優れた性能を示した。 In this paper, we address a significant gap in the field of neuroimaging by introducing the largest-to-date public benchmark, BvEM, designed specifically for cortical blood vessel segmentation in Volume Electron Microscopy (VEM) images. The intricate relationship between cerebral blood vessels and neural function underscores the vital role of vascular analysis in understanding brain health. While imaging techniques at macro and mesoscales have garnered substantial attention and resources, the microscale VEM imaging, capable of revealing intricate vascular details, has lacked the necessary benchmarking infrastructure. As researchers delve deeper into the microscale intricacies of cerebral vasculature, our BvEM benchmark represents a critical step toward unraveling the mysteries of neurovascular coupling and its impact on brain function and pathology. The BvEM dataset is based on VEM image volumes from three mammal species: adult mouse, macaque, and human. We standardized the resolution, addressed imaging variations, and meticulously annotated blood vessels through semi-automatic, manual, and quality control processes, ensuring high-quality 3D segmentation. Furthermore, we developed a zero-shot cortical blood vessel segmentation method named TriSAM, which leverages the powerful segmentation model SAM for 3D segmentation. To lift SAM from 2D segmentation to 3D volume segmentation, TriSAM employs a multi-seed tracking framework, leveraging the reliability of certain image planes for tracking while using others to identify potential turning points. This approach, consisting of Tri-Plane selection, SAM-based tracking, and recursive redirection, effectively achieves long-term 3D blood vessel segmentation without model training or fine-tuning. Experimental results show that TriSAM achieved superior performances on the BvEM benchmark across three species. | 翻訳日:2024-01-26 15:32:01 公開日:2024-01-25 |
# 時空間超解像を用いた条件付きニューラルビデオ符号化 Conditional Neural Video Coding with Spatial-Temporal Super-Resolution ( http://arxiv.org/abs/2401.13959v1 ) ライセンス: Link先を確認 | Henan Wang, Xiaohan Pan, Runsen Feng, Zongyu Guo, Zhibo Chen | (参考訳) この文書は、元々2024 Data Compression Conferenceで発表された1ページの要約の拡張版である。
本稿では,2024年の学習画像圧縮(CLIC)における課題のビデオトラックについて述べる。
我々の手法は、いくつかの新しい手法で典型的なハイブリッドコーディングフレームワークに従う。
まず,spynet networkを用いて,動き推定のための正確な動きベクトルを生成する。
次に,条件付きフレーム符号化を用いたコンテキストマイニング方式を導入し,空間時間情報を完全に活用する。
CLICが与える低目標ビットレートについては,空間時空間超解像モジュールを統合してレート歪み性能を向上する。
チーム名はIMCLVC。 This document is an expanded version of a one-page abstract originally presented at the 2024 Data Compression Conference. It describes our proposed method for the video track of the Challenge on Learned Image Compression (CLIC) 2024. Our scheme follows the typical hybrid coding framework with some novel techniques. Firstly, we adopt Spynet network to produce accurate motion vectors for motion estimation. Secondly, we introduce the context mining scheme with conditional frame coding to fully exploit the spatial-temporal information. As for the low target bitrates given by CLIC, we integrate spatial-temporal super-resolution modules to improve rate-distortion performance. Our team name is IMCLVC. | 翻訳日:2024-01-26 15:31:26 公開日:2024-01-25 |
# 複数の産業プロセスのための新しい画像品質データベース A New Image Quality Database for Multiple Industrial Processes ( http://arxiv.org/abs/2401.13956v1 ) ライセンス: Link先を確認 | Xuanchao Ma, Zehan Wu, Hongyan Liu, Chengxu Zhou, Ke Gu | (参考訳) 近年、スモーク検出、セキュリティ監視、ワークピース検査など、複数の産業プロセスにおける画像処理技術の幅広い応用が目撃されている。
画像の取得、圧縮、送信、記憶、表示の過程において、様々な種類の歪みタイプとレベルが画像に導入され、画像の品質が大幅に低下し、最終的な表示効果と明快さが強く低下する可能性がある。
既存の画像品質評価手法の信頼性を検証するため,50のソース画像毎に異なるレベルの歪み型を適用して生成した3000の歪み画像を含む,新たな産業プロセス画像データベース(IPID)を構築した。
上記3000枚の画像に対して主観的検査を行い,良好な実験環境において主観的品質評価を収集した。
最後に、目的画像品質評価アルゴリズムの性能を検討するために、IPIDデータベース上で比較実験を行う。
実験の結果,画像品質評価手法では,複数の歪み型を含む画像の品質予測が困難であった。 Recent years have witnessed a broader range of applications of image processing technologies in multiple industrial processes, such as smoke detection, security monitoring, and workpiece inspection. Different kinds of distortion types and levels must be introduced into an image during the processes of acquisition, compression, transmission, storage, and display, which might heavily degrade the image quality and thus strongly reduce the final display effect and clarity. To verify the reliability of existing image quality assessment methods, we establish a new industrial process image database (IPID), which contains 3000 distorted images generated by applying different levels of distortion types to each of the 50 source images. We conduct the subjective test on the aforementioned 3000 images to collect their subjective quality ratings in a well-suited laboratory environment. Finally, we perform comparison experiments on IPID database to investigate the performance of some objective image quality assessment algorithms. The experimental results show that the state-of-the-art image quality assessment methods have difficulty in predicting the quality of images that contain multiple distortion types. | 翻訳日:2024-01-26 15:31:17 公開日:2024-01-25 |
# ファインチューニング機能とアウト・オブ・ディストリビューションロバスト性を損なうフェデレーション学習のリスク The Risk of Federated Learning to Skew Fine-Tuning Features and Underperform Out-of-Distribution Robustness ( http://arxiv.org/abs/2401.14027v1 ) ライセンス: Link先を確認 | Mengyao Du, Miao Zhang, Yuwen Pu, Kai Xu, Shouling Ji, Quanjun Yin | (参考訳) ドメイン固有のデータセットに関連する不足とプライバシの問題に対処するため、ファインチューニングと組み合わせたフェデレーション学習の統合が現実的なソリューションとして現れている。
しかし, フェデレーション学習は, 微調整機能を歪め, モデルの分散的頑健性を損なうリスクがあることが明らかとなった。
3つのロバスト性指標を導入し、多様なロバストなデータセットに対して実験を行うことで、モデル特徴空間内の多様性、伝達可能性、偏差を精査することでこれらの現象を解明する。
モデルロバスト性に対するフェデレーション学習の負の影響を緩和するため,ターゲット分布における精度の劣化を確実に抑えるために,GNP, \underline{G}eneral \underline{N}oisy \underline{P}rojection-based robust algorithmを導入する。
具体的には、モデルロバスト性を高めるための重要な戦略は、事前訓練されたモデルから微調整されたモデルへのロバスト性の移動と、モデルの代表能力を高めるために少量のガウスノイズを加えることである。
総合的な実験結果から,本手法は多種多様なシナリオにまたがるロバスト性を顕著に向上し,パラメータ効率のよい微調整手法を包含し,異なるレベルのデータヘテロジニティに直面することを示した。 To tackle the scarcity and privacy issues associated with domain-specific datasets, the integration of federated learning in conjunction with fine-tuning has emerged as a practical solution. However, our findings reveal that federated learning has the risk of skewing fine-tuning features and compromising the out-of-distribution robustness of the model. By introducing three robustness indicators and conducting experiments across diverse robust datasets, we elucidate these phenomena by scrutinizing the diversity, transferability, and deviation within the model feature space. To mitigate the negative impact of federated learning on model robustness, we introduce GNP, a \underline{G}eneral \underline{N}oisy \underline{P}rojection-based robust algorithm, ensuring no deterioration of accuracy on the target distribution. Specifically, the key strategy for enhancing model robustness entails the transfer of robustness from the pre-trained model to the fine-tuned model, coupled with adding a small amount of Gaussian noise to augment the representative capacity of the model. Comprehensive experimental results demonstrate that our approach markedly enhances the robustness across diverse scenarios, encompassing various parameter-efficient fine-tuning methods and confronting different levels of data heterogeneity. | 翻訳日:2024-01-26 15:24:23 公開日:2024-01-25 |
# 圧縮機を用いたDNA配列分類 DNA Sequence Classification with Compressors ( http://arxiv.org/abs/2401.14025v1 ) ライセンス: Link先を確認 | \c{S}\"ukr\"u Ozan | (参考訳) DNA配列分類の最近の研究は高度な機械学習技術を活用し、複雑なゲノムデータの分類において顕著な精度を実現している。
このうち、k-merカウント法のような手法はチンパンジー、犬、人間といった様々な種の配列を識別するのに有効であることが証明されており、現代のゲノム研究の基盤となっている。
しかしながら、これらのアプローチはしばしば広範な計算資源を必要とし、スケーラビリティと効率の面での課題を提起する。
そこで本研究では,jiangらによるコンプレッサーを用いたパラメータフリー分類法を,dna配列解析に応用した新しい適応法を提案する。
この革新的なアプローチは、gzip、brotli、lzmaなどの様々な圧縮アルゴリズムを使用して、ゲノム配列を効率的に処理し分類する。
この手法は、精度の観点から現在の最先端と整合するだけでなく、従来の機械学習手法よりもリソース効率の良い代替手段を提供する。
本手法は,複数種のDNA配列を正確に分類する上で有効であることを示す。
本稿では,各アルゴリズムの性能を詳細に分析し,様々なゲノム状況下でのアプローチの強みと限界を明らかにする。
さらに,本研究のバイオインフォマティクス,特にゲノムデータ処理および解析における幅広い意義について考察する。
本研究の結果は、より効率的でスケーラブルなDNA配列分類法を開拓し、ゲノム研究と応用の進歩に有意義な可能性を秘めている。 Recent studies in DNA sequence classification have leveraged sophisticated machine learning techniques, achieving notable accuracy in categorizing complex genomic data. Among these, methods such as k-mer counting have proven effective in distinguishing sequences from varied species like chimpanzees, dogs, and humans, becoming a staple in contemporary genomic research. However, these approaches often demand extensive computational resources, posing a challenge in terms of scalability and efficiency. Addressing this issue, our study introduces a novel adaptation of Jiang et al.'s compressor-based, parameter-free classification method, specifically tailored for DNA sequence analysis. This innovative approach utilizes a variety of compression algorithms, such as Gzip, Brotli, and LZMA, to efficiently process and classify genomic sequences. Not only does this method align with the current state-of-the-art in terms of accuracy, but it also offers a more resource-efficient alternative to traditional machine learning methods. Our comprehensive evaluation demonstrates the proposed method's effectiveness in accurately classifying DNA sequences from multiple species. We present a detailed analysis of the performance of each algorithm used, highlighting the strengths and limitations of our approach in various genomic contexts. Furthermore, we discuss the broader implications of our findings for bioinformatics, particularly in genomic data processing and analysis. The results of our study pave the way for more efficient and scalable DNA sequence classification methods, offering significant potential for advancements in genomic research and applications. | 翻訳日:2024-01-26 15:23:57 公開日:2024-01-25 |
# PLCNet:高精細地図における自動線補正のためのパッチワイズ線補正ネットワーク PLCNet: Patch-wise Lane Correction Network for Automatic Lane Correction in High-definition Maps ( http://arxiv.org/abs/2401.14024v1 ) ライセンス: Link先を確認 | Haiyang Peng, Yi Zhan, Benkang Wang, Hongtao Zhang | (参考訳) high-definition(hd)マップでは、車線要素がコンポーネントの大部分を占め、安全な車両のナビゲーションを確保するために要求の厳しいローカライズ要件を満たしている。
LiDAR位置割当を用いた視覚車線検出は,HDマップの初期車線取得の一般的な方法である。
しかし、誤った視界検出と粗いカメラ-LiDARキャリブレーションにより、初期車線は真の位置から不確実な範囲で逸脱する可能性がある。
手動レーン補正の必要性を軽減するために,ポイントクラウドから変換されたローカルライダー画像における初期レーンポイントの位置を自動的に補正するパッチワイズレーン補正ネットワーク(plcnet)を提案する。
PLCNetはまず,各初期車線点を中心とするマルチスケール画像特徴と作物パッチ(ROI)特徴を抽出する。
ROIAlignを適用することで、固定サイズのROI機能は1D機能にフラット化される。
次に、適応重み付きインスタンスレベルレーン特徴を計算するために、1次元レーン注意モジュールを考案する。
最後に、レーン補正オフセットを多層パーセプトロンにより推定し、初期レーン位置の補正に用いる。
実用的な用途を考えると,本手法では局所補正車線をグローバル補正車線に統合する。
自己構築データセットの広範な実験を通じて,PLCNetが高速かつ効果的な初期車線補正を実現することを示す。 In High-definition (HD) maps, lane elements constitute the majority of components and demand stringent localization requirements to ensure safe vehicle navigation. Vision lane detection with LiDAR position assignment is a prevalent method to acquire initial lanes for HD maps. However, due to incorrect vision detection and coarse camera-LiDAR calibration, initial lanes may deviate from their true positions within an uncertain range. To mitigate the need for manual lane correction, we propose a patch-wise lane correction network (PLCNet) to automatically correct the positions of initial lane points in local LiDAR images that are transformed from point clouds. PLCNet first extracts multi-scale image features and crops patch (ROI) features centered at each initial lane point. By applying ROIAlign, the fix-sized ROI features are flattened into 1D features. Then, a 1D lane attention module is devised to compute instance-level lane features with adaptive weights. Finally, lane correction offsets are inferred by a multi-layer perceptron and used to correct the initial lane positions. Considering practical applications, our automatic method supports merging local corrected lanes into global corrected lanes. Through extensive experiments on a self-built dataset, we demonstrate that PLCNet achieves fast and effective initial lane correction. | 翻訳日:2024-01-26 15:23:31 公開日:2024-01-25 |
# 推測に基づく検索言語モデルの高速化 Accelerating Retrieval-Augmented Language Model Serving with Speculation ( http://arxiv.org/abs/2401.14021v1 ) ライセンス: Link先を確認 | Zhihao Zhang, Alan Zhu, Lijie Yang, Yihua Xu, Lanting Li, Phitchaya Mangpo Phothilimthana, Zhihao Jia | (参考訳) Retrieval-augmented Language Model (RaLM)は、非パラメトリック知識ベースとパラメトリック言語モデルを組み合わせることで、知識集約自然言語処理(NLP)タスクを解く可能性を実証している。
完全なパラメトリックモデルを微調整する代わりに、ralmは、最新のデータへの低コストな適応とより良いソース帰属メカニズムに優れている。
様々なRaLMアプローチの中で、反復RaLMは、レトリバーと言語モデルとのより頻繁な相互作用のために、より優れた生成品質を提供する。
この利点にもかかわらず、反復的なRaLMは通常、頻繁な検索ステップのために高いオーバーヘッドに直面する。
そこで我々はRaLMSpecを提案する。RaLMSpecは投機的検索とバッチ検証によって同じモデル出力を保ちながら反復的RaLMを高速化する投機的フレームワークである。
さらに、プリフェッチ、最適投機ストライドスケジューラ、非同期検証を組み込むことで、ralmspecは自動的に加速ポテンシャルを最大限に活用することができる。
4つの下流QAデータセット上での3つの言語モデルに対する広範な評価は、検索者が厳密な検索者である場合、RaLMSpecは1.75-2.39x、1.04-1.39x、および1.31-1.77xのスピードアップ比をベースラインと比較できることを示している。
KNN-LMサービスの場合、RLMSpecはベースラインと比較して、レトリバーが密密検索器であり、近似密検索器である場合、最大7.59xと2.45xのスピードアップ比が得られる。 Retrieval-augmented language models (RaLM) have demonstrated the potential to solve knowledge-intensive natural language processing (NLP) tasks by combining a non-parametric knowledge base with a parametric language model. Instead of fine-tuning a fully parametric model, RaLM excels at its low-cost adaptation to the latest data and better source attribution mechanisms. Among various RaLM approaches, iterative RaLM delivers a better generation quality due to a more frequent interaction between the retriever and the language model. Despite the benefits, iterative RaLM usually encounters high overheads due to the frequent retrieval step. To this end, we propose RaLMSpec, a speculation-inspired framework that provides generic speed-up over iterative RaLM while preserving the same model outputs through speculative retrieval and batched verification. By further incorporating prefetching, optimal speculation stride scheduler, and asynchronous verification, RaLMSpec can automatically exploit the acceleration potential to the fullest. For naive iterative RaLM serving, extensive evaluations over three language models on four downstream QA datasets demonstrate that RaLMSpec can achieve a speed-up ratio of 1.75-2.39x, 1.04-1.39x, and 1.31-1.77x when the retriever is an exact dense retriever, approximate dense retriever, and sparse retriever respectively compared with the baseline. For KNN-LM serving, RaLMSpec can achieve a speed-up ratio up to 7.59x and 2.45x when the retriever is an exact dense retriever and approximate dense retriever, respectively, compared with the baseline. | 翻訳日:2024-01-26 15:23:09 公開日:2024-01-25 |
# Unitxt: フレキシブルで共有可能で再利用可能なデータ準備と生成AIの評価 Unitxt: Flexible, Shareable and Reusable Data Preparation and Evaluation for Generative AI ( http://arxiv.org/abs/2401.14019v1 ) ライセンス: Link先を確認 | Elron Bandel, Yotam Perlitz, Elad Venezian, Roni Friedman-Melamed, Ofir Arviv, Matan Orbach, Shachar Don-Yehyia, Dafna Sheinwald, Ariel Gera, Leshem Choshen, Michal Shmueli-Scheuer, Yoav Katz | (参考訳) 生成型nlpのダイナミックなランドスケープでは、従来のテキスト処理パイプラインは、特定のデータセット、タスク、モデルの組み合わせに合わせて、研究の柔軟性と再現性を制限する。
システムプロンプト、モデル固有のフォーマット、命令などを含む複雑さの増大は、構造化され、モジュール化され、カスタマイズ可能なソリューションへの移行を要求する。
このニーズに対処し,生成言語モデルに合わせたテキストデータ作成と評価をカスタマイズ可能な,革新的なライブラリであるunitxtを提案する。
unitxtはhughingfaceやlm-eval-harnessといった一般的なライブラリとネイティブに統合され、処理フローをモジュール化されたコンポーネントに分解する。
これらのコンポーネントは、モデル固有のフォーマット、タスクプロンプト、その他多くの包括的なデータセット処理定義を包含する。
Unitxt-Catalogはこれらのコンポーネントを集中化し、現代のテキストデータワークフローにおけるコラボレーションと探索を促進する。
Unitxtは、ツール以外にも、コミュニティ主導のプラットフォームで、ユーザがパイプラインを共同で構築、共有、前進することを可能にする。
Unitxtコミュニティにはhttps://github.com/IBM/unitxt! In the dynamic landscape of generative NLP, traditional text processing pipelines limit research flexibility and reproducibility, as they are tailored to specific dataset, task, and model combinations. The escalating complexity, involving system prompts, model-specific formats, instructions, and more, calls for a shift to a structured, modular, and customizable solution. Addressing this need, we present Unitxt, an innovative library for customizable textual data preparation and evaluation tailored to generative language models. Unitxt natively integrates with common libraries like HuggingFace and LM-eval-harness and deconstructs processing flows into modular components, enabling easy customization and sharing between practitioners. These components encompass model-specific formats, task prompts, and many other comprehensive dataset processing definitions. The Unitxt-Catalog centralizes these components, fostering collaboration and exploration in modern textual data workflows. Beyond being a tool, Unitxt is a community-driven platform, empowering users to build, share, and advance their pipelines collaboratively. Join the Unitxt community at https://github.com/IBM/unitxt! | 翻訳日:2024-01-26 15:22:37 公開日:2024-01-25 |
# 比較に基づく探索における明示的平均化と新規符号平均化の理論解析 Theoretical Analysis of Explicit Averaging and Novel Sign Averaging in Comparison-Based Search ( http://arxiv.org/abs/2401.14014v1 ) ライセンス: Link先を確認 | Daiki Morinaga, Youhei Akimoto | (参考訳) ブラックボックス最適化では、目的関数のノイズは避けられない。
ノイズは、比較に基づく最適化において候補ソリューションのランキングを混乱させ、おそらく、ノイズのないシナリオと比較して検索性能を低下させる。
明示的な平均化はノイズの多い対象関数のサンプル平均値をとり、単純で汎用的なノイズハンドリング技術として広く使われている。
様々な応用に適しているが、平均が有限でない場合には効果がない。
安定分布雑音を有限平均で仮定した場合, 露光平均化が地中信頼度推定に負の効果があることを理論的に明らかにする。
あるいは、手話平均化は単純だが頑健なノイズ処理手法として提案される。
理論上、平均的な符号は、サンプル数の増加に伴って、任意の高い確率で一対の点のノイズの客観的関数値の中央値の順序を推定する。
明示的な平均化やロバスト性に対するその利点は数値実験によって確認される。 In black-box optimization, noise in the objective function is inevitable. Noise disrupts the ranking of candidate solutions in comparison-based optimization, possibly deteriorating the search performance compared with a noiseless scenario. Explicit averaging takes the sample average of noisy objective function values and is widely used as a simple and versatile noise-handling technique. Although it is suitable for various applications, it is ineffective if the mean is not finite. We theoretically reveal that explicit averaging has a negative effect on the estimation of ground-truth rankings when assuming stably distributed noise without a finite mean. Alternatively, sign averaging is proposed as a simple but robust noise-handling technique. We theoretically prove that the sign averaging estimates the order of the medians of the noisy objective function values of a pair of points with arbitrarily high probability as the number of samples increases. Its advantages over explicit averaging and its robustness are also confirmed through numerical experiments. | 翻訳日:2024-01-26 15:22:18 公開日:2024-01-25 |
# CMMU:中国のマルチモーダル質問理解と推論のためのベンチマーク CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning ( http://arxiv.org/abs/2401.14011v1 ) ライセンス: Link先を確認 | Zheqi He, Xinya Wu, Pengfei Zhou, Richeng Xuan, Guang Liu, Xi Yang, Qiannan Zhu, Hua Huang | (参考訳) マルチモーダルな大規模言語モデル (MLLM) は目覚ましい進歩を遂げ、強力な知識理解と推論能力を示した。
しかしながら、mllmの知性を評価する上で不可欠なドメイン固有知識の習得は依然として課題である。
ドメイン固有の知識に対する現在のマルチモーダルベンチマークは、複数の選択の問題に集中しており、主に英語で利用可能であり、評価の包括性に制限を課している。
この目的のために、中国語における多モーダルおよび多型質問理解と推論のための新しいベンチマークであるCMMUを紹介する。
CMMUは7科目で3,603質問で構成され、小学校から高校までの知識をカバーしている。
質問は、マルチチョイス、マルチレスポンス、フィル・イン・ザ・ブランクの3つのタイプに分類でき、mllmにより大きな課題をもたらす。
さらに,複数質問に対する評価を行うShiftCheckという厳密な評価戦略を提案する。
この戦略は位置バイアスを低減し、ランダム性の影響を最小限に抑え、位置バイアスを定量的に分析することを目的としている。
GPT4-V, Gemini-Pro, Qwen-VL-Plusの7つのオープンソースMLLMを評価した。
その結果,近年のMLLMではCMMUが大きな課題となっていることがわかった。 Multi-modal large language models(MLLMs) have achieved remarkable progress and demonstrated powerful knowledge comprehension and reasoning abilities. However, the mastery of domain-specific knowledge, which is essential for evaluating the intelligence of MLLMs, continues to be a challenge. Current multi-modal benchmarks for domain-specific knowledge concentrate on multiple-choice questions and are predominantly available in English, which imposes limitations on the comprehensiveness of the evaluation. To this end, we introduce CMMU, a novel benchmark for multi-modal and multi-type question understanding and reasoning in Chinese. CMMU consists of 3,603 questions in 7 subjects, covering knowledge from primary to high school. The questions can be categorized into 3 types: multiple-choice, multiple-response, and fill-in-the-blank, bringing greater challenges to MLLMs. In addition, we propose a rigorous evaluation strategy called ShiftCheck for assessing multiple-choice questions. The strategy aims to reduce position bias, minimize the influence of randomness on correctness, and perform a quantitative analysis of position bias. We evaluate seven open-source MLLMs along with GPT4-V, Gemini-Pro, and Qwen-VL-Plus. The results demonstrate that CMMU poses a significant challenge to the recent MLLMs. | 翻訳日:2024-01-26 15:22:05 公開日:2024-01-25 |
# 高忠実性ニューラル画像圧縮のための意味的アンサンブル損失と潜時再構成 Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression ( http://arxiv.org/abs/2401.14007v1 ) ライセンス: Link先を確認 | Daxin Li, Yuanchao Bai, Kai Wang, Junjun Jiang, Xianming Liu | (参考訳) ニューラル圧縮の最近の進歩は、PSNRおよびMS-SSIM測定において従来のコーデックを上回っている。
しかし、低ビットレートでは、ぼかし、色ずれ、テクスチャ損失などの視覚的に不快なアーティファクトを導入し、画像の品質を損なうことができる。
この問題に対処するため,本研究では,視覚の忠実度を最適なものにするための拡張型ニューラル圧縮法を提案する。
画像再構成の知覚的品質を向上させるために,charbonnier損失,知覚的損失,スタイル損失,非バイナリ的敵対的損失を統合し,高度な意味的アンサンブル損失でモデルを訓練した。
さらに,コンテンツ認識可能な潜在コードを生成するために,潜在改良プロセスを実装した。
これらの符号はビットレートの制約に準拠し、歪みと忠実度の間のトレードオフをバランスさせ、より重要な領域にビット割り当てを優先する。
実験結果から,このアプローチは,神経画像圧縮の統計的忠実性を大幅に向上させることが示された。
CLIC2024 の検証セットでは,FID による MS-ILLM と比較して 62% のビットレート削減を実現している。 Recent advancements in neural compression have surpassed traditional codecs in PSNR and MS-SSIM measurements. However, at low bit-rates, these methods can introduce visually displeasing artifacts, such as blurring, color shifting, and texture loss, thereby compromising perceptual quality of images. To address these issues, this study presents an enhanced neural compression method designed for optimal visual fidelity. We have trained our model with a sophisticated semantic ensemble loss, integrating Charbonnier loss, perceptual loss, style loss, and a non-binary adversarial loss, to enhance the perceptual quality of image reconstructions. Additionally, we have implemented a latent refinement process to generate content-aware latent codes. These codes adhere to bit-rate constraints, balance the trade-off between distortion and fidelity, and prioritize bit allocation to regions of greater importance. Our empirical findings demonstrate that this approach significantly improves the statistical fidelity of neural image compression. On CLIC2024 validation set, our approach achieves a 62% bitrate saving compared to MS-ILLM under FID metric. | 翻訳日:2024-01-26 15:21:44 公開日:2024-01-25 |
# 閉じ込められた超低温ボソンに対する多体量子幾何効果 Many-Body Quantum Geometric Effects on Trapped Ultracold Bosons ( http://arxiv.org/abs/2401.14004v1 ) ライセンス: Link先を確認 | Yeyang Zhang | (参考訳) 非相関系の量子幾何学効果はベリー曲率と量子計量によって特徴づけられる。
さらに,相関粒子間の局所的相互作用に対する量子幾何効果を記述するゲージ非依存テンソルを3つ提案する。
光学格子中の超低温粒子に対する有効流体力学理論を導出する。
高対称格子に対して等方性調和トラップの基底状態と超流動の集合モードを解く。
動的過程において、励起呼吸モードの振幅と位相シフトはブロッホ波動関数の幾何学的性質によって決定される。
また、非自明な量子幾何効果を持つ二成分正方格子の密結合モデルを与える。
我々の発見は、現代のバンド理論と量子多体物理学のつながりを前進させる。 Quantum geometric effects in uncorrelated systems are characterized by the Berry curvature and quantum metric. Beyond those, we propose three gauge-independent tensors describing quantum geometric effects on local interaction between correlated particles. We derive an effective hydrodynamic theory for ultracold bosons in optical lattices. Ground states and collective modes of superfluids in isotropic harmonic traps are solved for highly symmetric lattices. In a dynamic process, the amplitude and phase shift of an excited breathing mode are determined by the geometric properties of Bloch wavefunctions. We also give a tight-binding model of a bipartite square lattice with nontrivial quantum geometric effects. Our discovery advances the connections between the modern band theory and quantum many-body physics. | 翻訳日:2024-01-26 15:21:23 公開日:2024-01-25 |
# ConstraintChecker:Commonsenseの知識ベースに基づく大規模言語モデルのためのプラグイン ConstraintChecker: A Plugin for Large Language Models to Reason on Commonsense Knowledge Bases ( http://arxiv.org/abs/2401.14003v1 ) ライセンス: Link先を確認 | Quyet V. Do, Tianqing Fang, Shizhe Diao, Zhaowei Wang, Yangqiu Song | (参考訳) コモンセンス知識ベース(CSKB)に対する推論(CSKB推論)は、CSKBの参照知識と外部の事前知識に基づいて新しいコモンセンス知識を取得する方法として研究されている。
LLM(Large Language Models)の進歩と様々な推論タスクにおける工学的テクニックの促進にもかかわらず、彼らはCSKB推論を扱うのに苦労している。
問題の1つは、シンボリック推論能力の欠如 (Bengio et al., 2021) により、CSKBの明示的な関係制約を文脈内のみから取得することが難しいことである。
この目的のために、私たちは**constraintchecker**という、明示的な制約を提供し、チェックするためのテクニックを推奨するプラグインを提案しました。
新しい知識インスタンスを考える場合、ConstraintCheckerは制約のリストを生成するためにルールベースのモジュールを使用し、ゼロショット学習モジュールを使用して、この知識インスタンスがすべての制約を満たすかどうかをチェックする。
そして、取得した制約チェック結果をメインプロンプト手法の出力に集約して最終的な出力を生成する。
CSKB推論ベンチマークの実験結果から,全てのプロンプト法に対して一貫した改善を行うことにより,本手法の有効性を示す。
コードとデータは \url{https://github.com/hkust-knowcomp/constraintchecker} で入手できる。 Reasoning over Commonsense Knowledge Bases (CSKB), i.e. CSKB reasoning, has been explored as a way to acquire new commonsense knowledge based on reference knowledge in the original CSKBs and external prior knowledge. Despite the advancement of Large Language Models (LLM) and prompt engineering techniques in various reasoning tasks, they still struggle to deal with CSKB reasoning. One of the problems is that it is hard for them to acquire explicit relational constraints in CSKBs from only in-context exemplars, due to a lack of symbolic reasoning capabilities (Bengio et al., 2021). To this end, we proposed **ConstraintChecker**, a plugin over prompting techniques to provide and check explicit constraints. When considering a new knowledge instance, ConstraintChecker employs a rule-based module to produce a list of constraints, then it uses a zero-shot learning module to check whether this knowledge instance satisfies all constraints. The acquired constraint-checking result is then aggregated with the output of the main prompting technique to produce the final output. Experimental results on CSKB Reasoning benchmarks demonstrate the effectiveness of our method by bringing consistent improvements over all prompting methods. Codes and data are available at \url{https://github.com/HKUST-KnowComp/ConstraintChecker}. | 翻訳日:2024-01-26 15:21:15 公開日:2024-01-25 |
# wal-net:頸動脈プラーク分類のための補助タスク学習ネットワーク WAL-Net: Weakly supervised auxiliary task learning network for carotid plaques classification ( http://arxiv.org/abs/2401.13998v1 ) ライセンス: Link先を確認 | Haitao Gan, Lingchao Fu, Ran Zhou, Weiyan Gan, Furong Wang, Xiaoyan Wu, Zhi Yang and Zhongwei Huang | (参考訳) 頸動脈超音波画像の分類は頸動脈プラークの診断に重要な手段であり,脳卒中リスクの予測に重要な臨床的意義を持っている。
近年の研究では,分類の補助タスクとしてプラークセグメンテーションを利用することで,セグメンテーションと分類タスクの相関を利用した性能の向上が期待されている。
しかし、このアプローチは相当量のチャレンジ・トゥ・ア・ア・セグメンテーションアノテーションを取得することに依存している。
本稿では, 頸動脈プラーク分類とセグメンテーションタスクの相互依存性を検討するために, 弱教師付きタスク学習ネットワークモデル(WAL-Net)を提案する。
プラーク分類タスクはプライマリタスクであり、プラーク分割タスクは補助タスクとして機能し、プライマリタスクのパフォーマンスを向上させるための貴重な情報を提供する。
セグメンテーションアノテーションへの依存を完全に遮断するために、補助タスクにおいて弱教師付き学習が採用される。
武漢大学成南病院の頸動脈プラーク超音波画像1270例を対象に実験および評価を行った。
その結果,提案手法は,ベースラインネットワークと比較して頸動脈プラーク分類精度が約1.3%向上した。
具体的には,混合音声プラーク分類の精度が約3.3%向上し,アプローチの有効性が示された。 The classification of carotid artery ultrasound images is a crucial means for diagnosing carotid plaques, holding significant clinical relevance for predicting the risk of stroke. Recent research suggests that utilizing plaque segmentation as an auxiliary task for classification can enhance performance by leveraging the correlation between segmentation and classification tasks. However, this approach relies on obtaining a substantial amount of challenging-to-acquire segmentation annotations. This paper proposes a novel weakly supervised auxiliary task learning network model (WAL-Net) to explore the interdependence between carotid plaque classification and segmentation tasks. The plaque classification task is primary task, while the plaque segmentation task serves as an auxiliary task, providing valuable information to enhance the performance of the primary task. Weakly supervised learning is adopted in the auxiliary task to completely break away from the dependence on segmentation annotations. Experiments and evaluations are conducted on a dataset comprising 1270 carotid plaque ultrasound images from Wuhan University Zhongnan Hospital. Results indicate that the proposed method achieved an approximately 1.3% improvement in carotid plaque classification accuracy compared to the baseline network. Specifically, the accuracy of mixed-echoic plaques classification increased by approximately 3.3%, demonstrating the effectiveness of our approach. | 翻訳日:2024-01-26 15:20:52 公開日:2024-01-25 |
# Investigate-Consolidate-Exploit: タスク間エージェントの自己進化のための一般的な戦略 Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent Self-Evolution ( http://arxiv.org/abs/2401.13996v1 ) ライセンス: Link先を確認 | Cheng Qian, Shihao Liang, Yujia Qin, Yining Ye, Xin Cong, Yankai Lin, Yesai Wu, Zhiyuan Liu, Maosong Sun | (参考訳) 本稿では、タスク間の自己進化を通じてAIエージェントの適応性と柔軟性を高めるための新しい戦略であるInvestigate-Consolidate-Exploit(ICE)を紹介する。
タスク内学習に焦点を当てた既存の方法とは異なり、ICEは人間の経験学習と同様、真の自己進化のためのタスク間の知識の伝達を促進する。
この戦略は計画と実行の軌跡を動的に調査し、それらを単純化されたワークフローとパイプラインに統合し、タスク実行の改善に活用する。
XAgentフレームワークに関する我々の実験は、ICEの有効性を示し、API呼び出しを最大80%削減し、モデルの能力に対する需要を大幅に減らした。
具体的には、GPT-3.5と組み合わせると、ICEのパフォーマンスは様々なエージェントタスクで生のGPT-4と一致する。
この自己進化的アプローチはエージェント設計のパラダイムシフトを表し、より堅牢なAIコミュニティとエコシステムに貢献し、完全な自律性に一歩近づいた、と私たちは主張しています。 This paper introduces Investigate-Consolidate-Exploit (ICE), a novel strategy for enhancing the adaptability and flexibility of AI agents through inter-task self-evolution. Unlike existing methods focused on intra-task learning, ICE promotes the transfer of knowledge between tasks for genuine self-evolution, similar to human experience learning. The strategy dynamically investigates planning and execution trajectories, consolidates them into simplified workflows and pipelines, and exploits them for improved task execution. Our experiments on the XAgent framework demonstrate ICE's effectiveness, reducing API calls by as much as 80% and significantly decreasing the demand for the model's capability. Specifically, when combined with GPT-3.5, ICE's performance matches that of raw GPT-4 across various agent tasks. We argue that this self-evolution approach represents a paradigm shift in agent design, contributing to a more robust AI community and ecosystem, and moving a step closer to full autonomy. | 翻訳日:2024-01-26 15:20:32 公開日:2024-01-25 |
# 拡散に基づくオブジェクトカウント問題に対するデータ拡張 Diffusion-based Data Augmentation for Object Counting Problems ( http://arxiv.org/abs/2401.13992v1 ) ライセンス: Link先を確認 | Zhen Wang, Yuelei Li, Jia Wan, Nuno Vasconcelos | (参考訳) クラウドカウントは、画像理解に幅広い応用があるため、コンピュータビジョンにおいて重要な問題である。
現在、この問題は通常、畳み込みニューラルネットワーク(cnns)やトランスフォーマーといったディープラーニングアプローチで解決されている。
しかし、ディープネットワークはデータ駆動であり、特にラベル付きデータセットが制限されている場合、オーバーフィットしがちである。
この制限を克服するために,拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを設計した。
我々は、拡散モデルを用いて、位置ドットマップ(人間の頭の位置を特定するバイナリドットマップ)に条件付けされた画像を初めて生成する。
私たちはまた、これらの多様な合成データを使って、群衆のカウントモデルを強化しました。
提案する制御ネットの平滑化密度マップ入力は,正しい場所での群集生成における制御ネットの性能を大幅に向上させる。
また,拡散モデルに対するカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
さらに,提案手法の革新的ガイダンスは,生成した群集画像が位置ドットマップと最も正確に一致している領域への拡散過程をさらに誘導する。
集合的に、位置ドットマップから特定のオブジェクトを生成するControlNetの機能を強化しました。
さらに,我々のフレームワークは汎用性があり,あらゆる種類の計数問題に容易に適用できる。
大規模な実験により,上海技術,NWPU-Crowd,UCF-QNRF,TRANCOSデータセットのカウント性能が向上し,その有効性が示された。 Crowd counting is an important problem in computer vision due to its wide range of applications in image understanding. Currently, this problem is typically addressed using deep learning approaches, such as Convolutional Neural Networks (CNNs) and Transformers. However, deep networks are data-driven and are prone to overfitting, especially when the available labeled crowd dataset is limited. To overcome this limitation, we have designed a pipeline that utilizes a diffusion model to generate extensive training data. We are the first to generate images conditioned on a location dot map (a binary dot map that specifies the location of human heads) with a diffusion model. We are also the first to use these diverse synthetic data to augment the crowd counting models. Our proposed smoothed density map input for ControlNet significantly improves ControlNet's performance in generating crowds in the correct locations. Also, Our proposed counting loss for the diffusion model effectively minimizes the discrepancies between the location dot map and the crowd images generated. Additionally, our innovative guidance sampling further directs the diffusion process toward regions where the generated crowd images align most accurately with the location dot map. Collectively, we have enhanced ControlNet's ability to generate specified objects from a location dot map, which can be used for data augmentation in various counting problems. Moreover, our framework is versatile and can be easily adapted to all kinds of counting problems. Extensive experiments demonstrate that our framework improves the counting performance on the ShanghaiTech, NWPU-Crowd, UCF-QNRF, and TRANCOS datasets, showcasing its effectiveness. | 翻訳日:2024-01-26 15:20:14 公開日:2024-01-25 |
# 糖尿病網膜症診断における深層学習の革新 : 伝達学習の可能性とDiaCNNモデル Deep Learning Innovations in Diagnosing Diabetic Retinopathy: The Potential of Transfer Learning and the DiaCNN Model ( http://arxiv.org/abs/2401.13990v1 ) ライセンス: Link先を確認 | Mohamed R. Shoaib, Heba M. Emara, Jun Zhao, Walid El-Shafai, Naglaa F. Soliman, Ahmed S. Mubarak, Osama A. Omer, Fathi E. Abd El-Samie, Hamada Esmaiel | (参考訳) 糖尿病網膜症(DR)は視覚障害の重要な原因であり、早期発見の要点と視覚の劣化を避けるための時間的介入を強調している。
drの診断は本質的に複雑であり、経験豊富な専門家による複雑な網膜画像の精査が必要となる。
これにより、DRの早期診断は、効果的な治療と最終的な盲目予防に不可欠である。
従来の診断法は、これらの医療画像の人間の解釈に依存し、精度と効率の点で課題に直面している。
本研究では,これらの従来の手法と比較して,高度な深層学習技術を用いて,dr診断の精度を向上させる新しい手法を提案する。
このアプローチの中心は、転校学習の概念である。
特にInceptionResNetv2とInceptionv3は、特定の診断タスクのユニークな要件を満たすために、機能と微調整された選択層を抽出する。
同時に、眼疾患の分類に適した、新たに考案されたDiaCNNモデルも提示する。
提案手法の有効性を検証するために,眼疾患の8つのカテゴリからなる眼疾患知的認識(ODIR)データセットを利用した。
結果は有望だった。
inceptionresnetv2モデルは、転送学習を組み込んだもので、トレーニングとテストの両方において97.5%の精度で登録された。
インセプションv3モデルは、訓練中に99.7%、試験中に97.5%の精度を達成した。
驚くべきことに、diacnnモデルは並列精度を示し、トレーニングで100%、テストで98.3\%を達成した。 Diabetic retinopathy (DR) is a significant cause of vision impairment, emphasizing the critical need for early detection and timely intervention to avert visual deterioration. Diagnosing DR is inherently complex, as it necessitates the meticulous examination of intricate retinal images by experienced specialists. This makes the early diagnosis of DR essential for effective treatment and the prevention of eventual blindness. Traditional diagnostic methods, relying on human interpretation of these medical images, face challenges in terms of accuracy and efficiency. In the present research, we introduce a novel method that offers superior precision in DR diagnosis, compared to these traditional methods, by employing advanced deep learning techniques. Central to this approach is the concept of transfer learning. This entails using pre-existing, well-established models, specifically InceptionResNetv2 and Inceptionv3, to extract features and fine-tune select layers to cater to the unique requirements of this specific diagnostic task. Concurrently, we also present a newly devised model, DiaCNN, which is tailored for the classification of eye diseases. To validate the efficacy of the proposed methodology, we leveraged the Ocular Disease Intelligent Recognition (ODIR) dataset, which comprises eight different eye disease categories. The results were promising. The InceptionResNetv2 model, incorporating transfer learning, registered an impressive 97.5% accuracy in both the training and testing phases. Its counterpart, the Inceptionv3 model, achieved an even more commendable 99.7% accuracy during training, and 97.5% during testing. Remarkably, the DiaCNN model showcased unparalleled precision, achieving 100% accuracy in training and 98.3\% in testing. | 翻訳日:2024-01-26 15:19:50 公開日:2024-01-25 |
# McUDI: 失敗予測AIOpsソリューションのためのモデル中心の教師なし劣化指標 McUDI: Model-Centric Unsupervised Degradation Indicator for Failure Prediction AIOps Solutions ( http://arxiv.org/abs/2401.14093v1 ) ライセンス: Link先を確認 | Lorena Poenaru-Olaru, Luis Cruz, Jan Rellermeyer, Arie van Deursen | (参考訳) 運用データの継続的な変化のため、aiopsソリューションは時間とともにパフォーマンスが低下する。
周期的リトレーニングは、失敗予測AIOpsモデルのパフォーマンスを経時的に保持する最先端技術であるが、このテクニックは、リトレーニングに大量のラベル付きデータを必要とする。
AIOpsでは、ラベルデータを取得するには、ドメインの専門家が集中的にアノテートする必要があるため、コストがかかる。
本稿では,aiopsモデルの正確なモーメントを検出するためのモデル中心の非教師なし分解指標であるmcudiを提案する。
さらに,aiopsソリューションのメンテナンスパイプラインでmcudiを使用することで,ジョブ障害予測に30k,ディスク障害予測に260kのアノテーションを必要とするサンプル数を削減できると同時に,周期的なリトレーニングで同様のパフォーマンスを達成できることを示す。 Due to the continuous change in operational data, AIOps solutions suffer from performance degradation over time. Although periodic retraining is the state-of-the-art technique to preserve the failure prediction AIOps models' performance over time, this technique requires a considerable amount of labeled data to retrain. In AIOps obtaining label data is expensive since it requires the availability of domain experts to intensively annotate it. In this paper, we present McUDI, a model-centric unsupervised degradation indicator that is capable of detecting the exact moment the AIOps model requires retraining as a result of changes in data. We further show how employing McUDI in the maintenance pipeline of AIOps solutions can reduce the number of samples that require annotations with 30k for job failure prediction and 260k for disk failure prediction while achieving similar performance with periodic retraining. | 翻訳日:2024-01-26 15:11:30 公開日:2024-01-25 |
# CreativeSynth:多モード拡散に基づく視覚芸術の創造的ブレンディングと合成 CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimodal Diffusion ( http://arxiv.org/abs/2401.14066v1 ) ライセンス: Link先を確認 | Nisha Huang, Weiming Dong, Yuxin Zhang, Fan Tang, Ronghui Li, Chongyang Ma, Xiu Li, Changsheng Xu | (参考訳) 大規模なテキストから画像への生成モデルは印象的な進歩を遂げ、高品質画像の膨大な配列を合成する能力を示している。
しかし、これらのモデルを芸術的な画像編集に適応させることには、2つの大きな課題がある。
まず、ユーザーは入力画像の視覚的要素を微妙に詳細化するテキストプロンプトを作成するのに苦労する。
第二に、一般的なモデルは、特定の領域で修正を施すとき、しばしば全体的な芸術様式を乱し、結束的で美学的に統一された芸術作品の達成を複雑にする。
これらの障害を克服するために,芸術的画像生成の分野におけるマルチモーダル入力とマルチタスクの協調が可能な拡散モデルに基づく,革新的な統一フレームワークcreativesynthを構築した。
カスタマイズされたアテンションメカニズムを備えたマルチモーダル機能を統合することで、CreativeSynthは、インバージョンとリアルタイムスタイルの転送を通じて、実世界のセマンティックコンテンツをアートドメインにインポートすることを容易にする。
これにより、元のモデルパラメータの整合性を保ちながら、画像スタイルと内容の正確な操作が可能になる。
厳密な質的、定量的な評価は、クリエイティブシントが芸術的イメージの忠実さを増進し、自然の美的本質を保っていることを強調している。
生成モデルと芸術的な微妙さのギャップを埋めることで、CreativeSynthはカスタムデジタルパレットになる。 Large-scale text-to-image generative models have made impressive strides, showcasing their ability to synthesize a vast array of high-quality images. However, adapting these models for artistic image editing presents two significant challenges. Firstly, users struggle to craft textual prompts that meticulously detail visual elements of the input image. Secondly, prevalent models, when effecting modifications in specific zones, frequently disrupt the overall artistic style, complicating the attainment of cohesive and aesthetically unified artworks. To surmount these obstacles, we build the innovative unified framework CreativeSynth, which is based on a diffusion model with the ability to coordinate multimodal inputs and multitask in the field of artistic image generation. By integrating multimodal features with customized attention mechanisms, CreativeSynth facilitates the importation of real-world semantic content into the domain of art through inversion and real-time style transfer. This allows for the precise manipulation of image style and content while maintaining the integrity of the original model parameters. Rigorous qualitative and quantitative evaluations underscore that CreativeSynth excels in enhancing artistic images' fidelity and preserves their innate aesthetic essence. By bridging the gap between generative models and artistic finesse, CreativeSynth becomes a custom digital palette. | 翻訳日:2024-01-26 15:11:14 公開日:2024-01-25 |
# インドにおける風力資源評価のための風速予測のためのカスケード人工ニューラルネットワークにおけるReliefアルゴリズムの新しい応用 Novel application of Relief Algorithm in cascaded artificial neural network to predict wind speed for wind power resource assessment in India ( http://arxiv.org/abs/2401.14065v1 ) ライセンス: Link先を確認 | Hasmat Malik, Amit Kumar Yadav, Fausto Pedro Garc\'ia M\'arquez, Jes\'us Mar\'ia Pinar-P\'erez | (参考訳) 風によって発生する風力は、気象変動の確率的性質によって非スケジュールの性質を持つ。
したがって、エネルギー事業と風力発電の制御には、数秒から異なる時間ステップまでの風速(ws)の予測が必要である。
予測の欠点に対処するために、様々なWS予測方法が使われてきた。
予測データマイニングは、人工知能ニューラルネットワーク(ANN)が信頼性が高く正確な方法の1つであるWS予測のための様々な方法を提供する。
本研究の結果から, annは従来のモデルよりも精度が良いことがわかった。
WS予測モデルの精度は、入力パラメータとアーキテクチャタイプのアルゴリズムに依存することが判明した。
したがって、最も関連する入力パラメータの選択は、ws 予測分野における重要な研究領域です。
本論文の目的は2つある: 風力発電のためのANNの広範なレビューとWS予測を行う。
WS 予測におけるRelief Algorithm (RA) を用いた特徴選択の考察と分析は,インド各地を対象として行われる。
RAは大気圧、太陽放射、相対湿度が関連する入力変数である。
関連する入力変数に基づいてカスケードANNモデルを開発し、予測精度を評価する。
その結果、予測値と測定値のwsを比較した根平均二乗誤差(rmse)はそれぞれ1.44m/sと1.49m/sであった。
開発されたカスケードANNモデルは、インドにWS測定機器が設置されていない場所での風速予測に使用できる。 Wind power generated by wind has non-schedule nature due to stochastic nature of meteorological variable. Hence energy business and control of wind power generation requires prediction of wind speed (WS) from few seconds to different time steps in advance. To deal with prediction shortcomings, various WS prediction methods have been used. Predictive data mining offers variety of methods for WS predictions where artificial neural network (ANN) is one of the reliable and accurate methods. It is observed from the result of this study that ANN gives better accuracy in comparison conventional model. The accuracy of WS prediction models is found to be dependent on input parameters and architecture type algorithms utilized. So the selection of most relevant input parameters is important research area in WS predicton field. The objective of the paper is twofold: first extensive review of ANN for wind power and WS prediction is carried out. Discussion and analysis of feature selection using Relief Algorithm (RA) in WS prediction are considered for different Indian sites. RA identify atmospheric pressure, solar radiation and relative humidity are relevant input variables. Based on relevant input variables Cascade ANN model is developed and prediction accuracy is evaluated. It is found that root mean square error (RMSE) for comparison between predicted and measured WS for training and testing wind speed are found to be 1.44 m/s and 1.49 m/s respectively. The developed cascade ANN model can be used to predict wind speed for sites where there are not WS measuring instruments are installed in India. | 翻訳日:2024-01-26 15:10:52 公開日:2024-01-25 |
# 左・右脳と人間の運動制御とロボット工学 Left/Right Brain, human motor control and the implications for robotics ( http://arxiv.org/abs/2401.14057v1 ) ライセンス: Link先を確認 | Jarrad Rinaldo, Levin Kuhlmann, Jason Friedman, Gideon Kowadlo | (参考訳) ニューラルネットワークムーブメントコントローラは、従来の制御方式に対して様々な利点を約束するが、確実な正確な動作を生成できないため、広く採用されていない。
本研究では,運動タスクの制御システムとして,バイラテラルニューラルネットワークアーキテクチャを検討する。
本研究の目的は,移動のコーディネーションと効率性を含むタスクにおいて,支配的システム(通常は右手,左半球)が優れ,非支配的システムは位置安定性を必要とするタスクにおいて,より優れた性能を発揮することであった。
特殊化は、異なる損失関数を持つ半球を各半球の期待行動に合わせて訓練することで達成された。
両片側モデルと特化半球,半球間接続(生物体Callosumを表わす),および片側モデルと特殊化せずに比較した。
これらのモデルは、人間のモーターコントロールの文献に共通する2つのタスク、すなわち、支配的なシステムに適したランダムリーチタスク、より良いコーディネーションを持つモデル、非支配的なシステムに適したホールドポジションタスク、より安定した動きを持つモデルで訓練され、テストされた。
各システムは、好まれるタスクにおいて、望ましくないシステムより優れていた。
どちらの作業においても、バイラテラルモデルは「非推奨」の手よりも優れており、「予測」手と同じくらい良いか良い。
コーパスカルボサムは性能を改善する傾向があるが、必ずしも専門化されたモデルのためとは限らない。 Neural Network movement controllers promise a variety of advantages over conventional control methods however they are not widely adopted due to their inability to produce reliably precise movements. This research explores a bilateral neural network architecture as a control system for motor tasks. We aimed to achieve hemispheric specialisation similar to what is observed in humans across different tasks; the dominant system (usually the right hand, left hemisphere) excels at tasks involving coordination and efficiency of movement, and the non-dominant system performs better at tasks requiring positional stability. Specialisation was achieved by training the hemispheres with different loss functions tailored toward the expected behaviour of the respective hemispheres. We compared bilateral models with and without specialised hemispheres, with and without inter-hemispheric connectivity (representing the biological Corpus Callosum), and unilateral models with and without specialisation. The models were trained and tested on two tasks common in the human motor control literature: the random reach task, suited to the dominant system, a model with better coordination, and the hold position task, suited to the non-dominant system, a model with more stable movement. Each system out-performed the non-favoured system in its preferred task. For both tasks, a bilateral model outperforms the 'non-preferred' hand, and is as good or better than the 'preferred' hand. The Corpus Callosum tends to improve performance, but not always for the specialised models. | 翻訳日:2024-01-26 15:10:28 公開日:2024-01-25 |
# 多重散乱による高アルベド異方性材料のリアルタイムレンダリング法 A real-time rendering method for high albedo anisotropic materials with multiple scattering ( http://arxiv.org/abs/2401.14051v1 ) ライセンス: Link先を確認 | Shun Fang, Xing Feng, Ming Cui | (参考訳) 本稿では,実写かつ効率的なボリュームメディアレンダリングのためのニューラルネットワークに基づくリアルタイムボリュームレンダリング手法を提案する。
従来のボリュームレンダリング法では、パストレースを用いて放射線伝達方程式を解くが、これは膨大な量の計算が必要であり、リアルタイムレンダリングを達成できない。
そこで本稿では,ニューラルネットワークを用いて放射伝達方程式を解く反復積分過程をシミュレートし,ボリュームメディアのボリュームレンダリングを高速化する。
具体的には、まずボリューム媒体上でデータ処理を行い、密度特性、透過特性、位相特徴など様々なサンプリング特徴を生成する。
階層的な送信フィールドは3D-CNNネットワークに入力され、より重要な送信特性を計算する。
次に、拡散反射サンプリングテンプレートとハイライトサンプリングテンプレートを使用して、3種類のサンプリング機能をネットワークに階層化する。
この方法は、光散乱、ハイライト、シャドウにもっと注意を払うことができ、アテンションモジュールを通じて重要なチャンネル機能を選択することができる。
最後に、すべてのサンプリングテンプレートの中心点の散乱分布を、バックボーンニューラルネットワークを介して予測する。
本手法は,リアルなボリュームメディアレンダリング効果を実現し,レンダリング品質を維持しながらレンダリング速度を大幅に向上させることができる。
実験の結果,本手法は従来の手法よりも優れていた。 We propose a neural network-based real-time volume rendering method for realistic and efficient rendering of volumetric media. The traditional volume rendering method uses path tracing to solve the radiation transfer equation, which requires a huge amount of calculation and cannot achieve real-time rendering. Therefore, this paper uses neural networks to simulate the iterative integration process of solving the radiative transfer equation to speed up the volume rendering of volume media. Specifically, the paper first performs data processing on the volume medium to generate a variety of sampling features, including density features, transmittance features and phase features. The hierarchical transmittance fields are fed into a 3D-CNN network to compute more important transmittance features. Secondly, the diffuse reflection sampling template and the highlight sampling template are used to layer the three types of sampling features into the network. This method can pay more attention to light scattering, highlights and shadows, and then select important channel features through the attention module. Finally, the scattering distribution of the center points of all sampling templates is predicted through the backbone neural network. This method can achieve realistic volumetric media rendering effects and greatly increase the rendering speed while maintaining rendering quality, which is of great significance for real-time rendering applications. Experimental results indicate that our method outperforms previous methods. | 翻訳日:2024-01-26 15:10:02 公開日:2024-01-25 |
# システム工学のシステムの範囲を拡大し、ダイナミックスを習得する持続可能な世界の構築 Engineering a sustainable world by enhancing the scope of systems of systems engineering and mastering dynamics ( http://arxiv.org/abs/2401.14047v1 ) ライセンス: Link先を確認 | Rasmus Adler, Frank Elberzhager, Florian Baldauf | (参考訳) 持続可能な世界は、相互に相互作用する様々なシステムを考える必要がある。
これらのシステムには、生態システム、経済システム、社会システム、テクニカルシステムが含まれる。
それらは疎結合であり、地理的に分散し、永久に進化し、創発的な振る舞いを生み出す。
システム・オブ・システム(SoS)の特徴として,SoS工学の観点から持続可能な世界のエンギネアリングについて論じる。
我々は、政治レコメンデーションとエンジニアリングダイナミックなSoS研究ロードマップを目的とした研究プロジェクトの一環として、SoSエンジニアリングを研究した。
プロジェクトには、さまざまなアプリケーションドメインの業界やアカデミアの代表者による、徹底した文献レビュー、インタビュー、ワークショップが含まれていた。
これらの結果と観測結果に基づいて,SoSエンギナイアリングにおける現在の最先端技術が持続可能性の向上にどの程度適しているかを論じる。
持続可能性(Sustainability)は、すべてのドメインにおいてSoSエンジニアリングの主要な要因であるが、持続可能性(stainability)をエンジニアリングするには、現在のSoSエンジニアリングの範囲があまりに限られている、と我々は主張する。
さらに、この広い範囲のダイナミックスをマスターすることは、エンジニアの持続可能性にとって不可欠であり、技術的SoSの動的適応を伴うと論じる。 Engineering a sustainable world requires to consider various systems that interact with each other. These systems include ecological systems, economical systems, social systems and tech-nical systems. They are loosely coupled, geographically distributed, evolve permanently and generate emergent behavior. As these are characteristics of systems of systems (SoS), we discuss the engi-neering of a sustainable world from a SoS engineering perspective. We studied SoS engineering in context of a research project, which aims at political recommendations and a research roadmap for engineering dynamic SoS. The project included an exhaustive literature review, interviews and work-shops with representatives from industry and academia from different application domains. Based on these results and observations, we will discuss how suitable the current state-of-the-art in SoS engi-neering is in order to engineer sustainability. Sustainability was a major driver for SoS engineering in all domains, but we argue that the current scope of SoS engineering is too limited in order to engineer sustainability. Further, we argue that mastering dynamics in this larger scope is essential to engineer sustainability and that this is accompanied by dynamic adaptation of technological SoS. | 翻訳日:2024-01-26 15:09:43 公開日:2024-01-25 |
# 目標指向大規模言語モデル推進に向けて:調査 Towards Goal-oriented Large Language Model Prompting: A Survey ( http://arxiv.org/abs/2401.14043v1 ) ライセンス: Link先を確認 | Haochen Li, Jonathan Leung, Zhiqi Shen | (参考訳) 大規模言語モデル(LLM)は様々な下流タスクにおいて顕著な性能を示し、LLMのパフォーマンスを最適化する上で、エンジニアリングが重要な役割を果たす。
本稿では,現在のプロンプトエンジニアリング手法の概要ではなく,llmが人間のように考えることを期待する擬人化仮説を維持しつつ,プロンプト設計の限界を強調することを目的とする。
提案する35の代表的な研究のレビューから, LLM が確立された論理的思考に従うための目標指向のプロンプト定式化が, LLM の性能を著しく向上させることを示す。
さらに,目標指向のプロンプト手法を5つの相互接続段階に分類した新しい分類法を導入し,適用可能なタスクを10つまとめることで,フレームワークの幅広い適用性を示す。
今後の4つの方向性が提案され、ゴール指向のプロンプトエンジニアリングをさらに強調し、推進したいと思っています。 Large Language Models (LLMs) have shown prominent performance in various downstream tasks in which prompt engineering plays a pivotal role in optimizing LLMs' performance. This paper, not as an overview of current prompt engineering methods, aims to highlight the limitation of designing prompts while holding an anthropomorphic assumption that expects LLMs to think like humans. From our review of 35 representative studies, we demonstrate that a goal-oriented prompt formulation, which guides LLMs to follow established human logical thinking, significantly improves the performance of LLMs. Furthermore, We introduce a novel taxonomy that categorizes goal-oriented prompting methods into five interconnected stages and we demonstrate the broad applicability of our framework by summarizing ten applicable tasks. With four future directions proposed, we hope to further emphasize and promote goal-oriented prompt engineering. | 翻訳日:2024-01-26 15:09:24 公開日:2024-01-25 |
# (Chat)GPT v BERT:意味的変化検出のための正義の夜明け (Chat)GPT v BERT: Dawn of Justice for Semantic Change Detection ( http://arxiv.org/abs/2401.14040v1 ) ライセンス: Link先を確認 | Francesco Periti, Haim Dubossarsky, Nina Tahmasebi | (参考訳) 自然言語処理の世界では、BERTや(Chat)GPTのようなトランスフォーマーベースの言語モデルが、オープンな研究問題を解決するために強力な力を持つ語彙スーパーヒーローとして登場した。
本稿では,意味変化の時間的問題に着目し,wic(word-in-context)タスクの2つの拡張であるtempowicとhistowicの解決能力を評価する。
特に、チャットgpt(およびgpt)3.5のような新しい市販技術の可能性について、現在セマンティクスの変化をモデリングする最先端のモデル群であるbertと比較して検討する。
本実験は,意味変化の研究における (Chat)GPT の利用を評価する最初の試みである。
以上の結果から,ChatGPTは基礎的なGPTバージョンよりも大幅に性能が低下することが示唆された。
さらに, (Chat)GPTは, 長期変化検出においてBERTよりも若干低い性能を示したが, 短期変化検出では著しく低下した。 In the universe of Natural Language Processing, Transformer-based language models like BERT and (Chat)GPT have emerged as lexical superheroes with great power to solve open research problems. In this paper, we specifically focus on the temporal problem of semantic change, and evaluate their ability to solve two diachronic extensions of the Word-in-Context (WiC) task: TempoWiC and HistoWiC. In particular, we investigate the potential of a novel, off-the-shelf technology like ChatGPT (and GPT) 3.5 compared to BERT, which represents a family of models that currently stand as the state-of-the-art for modeling semantic change. Our experiments represent the first attempt to assess the use of (Chat)GPT for studying semantic change. Our results indicate that ChatGPT performs significantly worse than the foundational GPT version. Furthermore, our results demonstrate that (Chat)GPT achieves slightly lower performance than BERT in detecting long-term changes but performs significantly worse in detecting short-term changes. | 翻訳日:2024-01-26 15:09:08 公開日:2024-01-25 |
# 拡散サンプリングと硬度認識自己蒸留による深層クラスタリング Deep Clustering with Diffused Sampling and Hardness-aware Self-distillation ( http://arxiv.org/abs/2401.14038v1 ) ライセンス: Link先を確認 | Hai-Xin Zhang and Dong Huang | (参考訳) ラベル付きデータなしでクラスタリングフレンドリーな表現を学習できることで、ディープクラスタリングは大きな注目を集めている。
しかし,従来の深層クラスタリング手法ではすべてのサンプルを等しく扱う傾向にあり,潜伏分布のばらつきや異なるサンプルの分類やクラスタリングの困難さを無視している。
そこで本研究では, 拡散サンプリングと硬度認識型自己蒸留(HaDis)を用いた, エンドツーエンドの深層クラスタリング手法を提案する。
具体的には、まず1つのインスタンスのビューを拡散サンプリングアライメント(DSA)によって別のビューにアライメントし、クラスタ内のコンパクト性を改善する。
サンプリングバイアスを軽減するため,最強正および負の試料をマイニングし,自己蒸留方式で重量を適応的に調整し,最適化中の試料寄与の潜在的な不均衡に対処できる,硬度認識型自己蒸留(HSD)機構を提案する。
さらに、クラスタ間分離性とクラスタ内コンパクト性を同時に高めるために、原型的コントラスト学習が組み込まれている。
5つの挑戦的な画像データセットの実験結果は、最先端のhadis法よりも優れたクラスタリング性能を示している。
ソースコードはhttps://github.com/Regan-Zhang/HaDis.comで入手できる。 Deep clustering has gained significant attention due to its capability in learning clustering-friendly representations without labeled data. However, previous deep clustering methods tend to treat all samples equally, which neglect the variance in the latent distribution and the varying difficulty in classifying or clustering different samples. To address this, this paper proposes a novel end-to-end deep clustering method with diffused sampling and hardness-aware self-distillation (HaDis). Specifically, we first align one view of instances with another view via diffused sampling alignment (DSA), which helps improve the intra-cluster compactness. To alleviate the sampling bias, we present the hardness-aware self-distillation (HSD) mechanism to mine the hardest positive and negative samples and adaptively adjust their weights in a self-distillation fashion, which is able to deal with the potential imbalance in sample contributions during optimization. Further, the prototypical contrastive learning is incorporated to simultaneously enhance the inter-cluster separability and intra-cluster compactness. Experimental results on five challenging image datasets demonstrate the superior clustering performance of our HaDis method over the state-of-the-art. Source code is available at https://github.com/Regan-Zhang/HaDis. | 翻訳日:2024-01-26 15:08:46 公開日:2024-01-25 |
# アイデンティティ変動合理性指標を用いた多様かつ寿命の顔面年齢変換合成 Diverse and Lifespan Facial Age Transformation Synthesis with Identity Variation Rationality Metric ( http://arxiv.org/abs/2401.14036v1 ) ライセンス: Link先を確認 | Jiu-Cheng Xie, Jun Yang, Wenqing Wang, Feng Xu, Hao Gao | (参考訳) 過去20年間、顔の老化は継続的な研究の注目を集めてきた。
この話題に関する以前の研究は目覚ましい成功を収めたものの、2つの長年の問題は未解決のままである。
1) 対象年齢における多様で多彩な顔の老化パターンの生成
2) 年齢の進行又は回帰に伴う原像とその合成との同一性の変化の合理性を測定する。
本稿では、顔のテクスチャや形状の変換において、その多様性を共同で表わす人間の顔の多様性と寿命化を実現する最初のアルゴリズムであるdlat + を提案する。
モデルに埋め込まれた多様性のメカニズムとは別に、複数の一貫性の制約が活用され、反事実的な老化合成から遠ざけられます。
さらに, 実年齢データから要約された統計法則に基づいて, 入力面と年齢変化世代間の年齢差(idag)下での同一性偏差の合理性を評価するための新しい指標を提案する。
広範な実験結果から, 生涯にわたる多様で知覚的に妥当な顔の合成における一意性と有効性が示された。 Face aging has received continuous research attention over the past two decades. Although previous works on this topic have achieved impressive success, two longstanding problems remain unsettled: 1) generating diverse and plausible facial aging patterns at the target age stage; 2) measuring the rationality of identity variation between the original portrait and its syntheses with age progression or regression. In this paper, we introduce DLAT + , the first algorithm that can realize Diverse and Lifespan Age Transformation on human faces, where the diversity jointly manifests in the transformation of facial textures and shapes. Apart from the diversity mechanism embedded in the model, multiple consistency restrictions are leveraged to keep it away from counterfactual aging syntheses. Moreover, we propose a new metric to assess the rationality of Identity Deviation under Age Gaps (IDAG) between the input face and its series of age-transformed generations, which is based on statistical laws summarized from plenty of genuine face-aging data. Extensive experimental results demonstrate the uniqueness and effectiveness of our method in synthesizing diverse and perceptually reasonable faces across the whole lifetime. | 翻訳日:2024-01-26 15:08:25 公開日:2024-01-25 |
# 骨格に基づく行動認識のための教師なし時空間特徴強調と忠実度保存ネットワーク Unsupervised Spatial-Temporal Feature Enrichment and Fidelity Preservation Network for Skeleton based Action Recognition ( http://arxiv.org/abs/2401.14034v1 ) ライセンス: Link先を確認 | Chuankun Li, Shuai Li, Yanbo Gao, Ping Chen, Jian Li, Wanqing Li | (参考訳) 教師なしスケルトンに基づく行動認識は近年著しい進歩を遂げている。
既存の教師なし学習法は深刻な過剰フィッティング問題に苦しむため、小さなネットワークが使われ、表現能力が著しく低下する。
この問題に対処するために,スケルトンに基づく行動認識のための教師なし学習の裏側にある過度な適合機構を最初に検討した。
骨格は比較的高層かつ低次元の特徴を持つが,作用認識の特徴と同一の多様体にはないことが観察された。
既存の教師なし学習手法を単純に適用すれば、アクションクラスの代わりに異なるサンプルを識別する特徴が生じる傾向があり、結果としてオーバーフィッティング問題が発生する。
この問題を解決するために, 骨格の全ての情報を含む豊富な分散特徴を生成するために, 非教師付き時空間特徴強調保存フレームワーク(U-FEFP)を提案する。
空間-時間グラフ畳み込みネットワークとグラフ畳み込みゲートリカレントユニットネットワークを基本特徴抽出ネットワークとして、空間-時間特徴変換サブネットワークを開発した。
unsupervised bootstrap your own latent based learningはリッチな分散機能を生成するために、unsupervised pretext task based learningはスケルトンシーケンスの情報を保存するために使用される。
2つの教師なし学習方法は、堅牢で差別的な表現を生成するためにU-FEFPとして協調される。
NTU-RGB+D-60、NTU-RGB+D-120、PKU-MMDデータセットという3つの広く使われているベンチマークの実験結果から、提案したU-FEFPが、最先端の教師なし学習手法と比較して最高の性能を達成できることが示されている。
t-SNE図は、U-FEFPが教師なし骨格に基づく行動認識のためのより識別的な特徴を学習できることをさらに証明している。 Unsupervised skeleton based action recognition has achieved remarkable progress recently. Existing unsupervised learning methods suffer from severe overfitting problem, and thus small networks are used, significantly reducing the representation capability. To address this problem, the overfitting mechanism behind the unsupervised learning for skeleton based action recognition is first investigated. It is observed that the skeleton is already a relatively high-level and low-dimension feature, but not in the same manifold as the features for action recognition. Simply applying the existing unsupervised learning method may tend to produce features that discriminate the different samples instead of action classes, resulting in the overfitting problem. To solve this problem, this paper presents an Unsupervised spatial-temporal Feature Enrichment and Fidelity Preservation framework (U-FEFP) to generate rich distributed features that contain all the information of the skeleton sequence. A spatial-temporal feature transformation subnetwork is developed using spatial-temporal graph convolutional network and graph convolutional gate recurrent unit network as the basic feature extraction network. The unsupervised Bootstrap Your Own Latent based learning is used to generate rich distributed features and the unsupervised pretext task based learning is used to preserve the information of the skeleton sequence. The two unsupervised learning ways are collaborated as U-FEFP to produce robust and discriminative representations. Experimental results on three widely used benchmarks, namely NTU-RGB+D-60, NTU-RGB+D-120 and PKU-MMD dataset, demonstrate that the proposed U-FEFP achieves the best performance compared with the state-of-the-art unsupervised learning methods. t-SNE illustrations further validate that U-FEFP can learn more discriminative features for unsupervised skeleton based action recognition. | 翻訳日:2024-01-26 15:08:05 公開日:2024-01-25 |
# 傾斜制限活性を超えてLipSDPを拡張するための新しい二次的制約 Novel Quadratic Constraints for Extending LipSDP beyond Slope-Restricted Activations ( http://arxiv.org/abs/2401.14033v1 ) ライセンス: Link先を確認 | Patricia Pauli, Aaron Havens, Alexandre Araujo, Siddharth Garg, Farshad Khorrami, Frank Allg\"ower, Bin Hu | (参考訳) 近年、半定値プログラミング(SDP)技術は、ニューラルネットワークに正確なリプシッツ境界を提供することに大きな期待を示している。
特に、lipsdpアプローチ(fazlyab et al., 2019)は多くの注目を集め、多項式時間保証で計算できる最も保守的なリプシッツ上限を提供している。
しかし、lipsdpの主な制限の一つは、その定式化は活性化関数が[0,1]$で傾斜制限され、groupsort、maxmin、houseerのようなより一般的な活性化関数へのさらなる使用が妨げられることである。
例えば、残留ReLUネットワークのようなMaxMinアクティベーションを書き換えることができる。
しかし、LipSDPの残留ReLUネットワークへの直接適用は保守的であり、MaxMinアクティベーションが1-Lipschitzであるという事実を回復するのに失敗する。
本論文はこのギャップを橋渡し,lipsdpを傾斜制限活性化関数を超えて拡張する。
そこで本研究では,グループソート,マックスミン,家計アクティベーションに対する新しい2次制約を,総和保存などの基礎的特性を活用して提供する。
提案手法は汎用的であり,GroupSort,MaxMin,Houseerのアクティベーションを含む,ニューラルネットワークアーキテクチャの豊富なクラスに対して,$\ell_2$および$\ell_\infty$ Lipschitz境界を推定するための統一的なアプローチを提供する。
最後に,本手法の有用性を様々な実験で示し,提案するsdpは既存の手法に比べて保守的なリプシッツ境界を生じにくいことを示した。 Recently, semidefinite programming (SDP) techniques have shown great promise in providing accurate Lipschitz bounds for neural networks. Specifically, the LipSDP approach (Fazlyab et al., 2019) has received much attention and provides the least conservative Lipschitz upper bounds that can be computed with polynomial time guarantees. However, one main restriction of LipSDP is that its formulation requires the activation functions to be slope-restricted on $[0,1]$, preventing its further use for more general activation functions such as GroupSort, MaxMin, and Householder. One can rewrite MaxMin activations for example as residual ReLU networks. However, a direct application of LipSDP to the resultant residual ReLU networks is conservative and even fails in recovering the well-known fact that the MaxMin activation is 1-Lipschitz. Our paper bridges this gap and extends LipSDP beyond slope-restricted activation functions. To this end, we provide novel quadratic constraints for GroupSort, MaxMin, and Householder activations via leveraging their underlying properties such as sum preservation. Our proposed analysis is general and provides a unified approach for estimating $\ell_2$ and $\ell_\infty$ Lipschitz bounds for a rich class of neural network architectures, including non-residual and residual neural networks and implicit models, with GroupSort, MaxMin, and Householder activations. Finally, we illustrate the utility of our approach with a variety of experiments and show that our proposed SDPs generate less conservative Lipschitz bounds in comparison to existing approaches. | 翻訳日:2024-01-26 15:07:29 公開日:2024-01-25 |
# gauu-scene:gaussian splattingを用いた大規模3次元復元データセットのシーン復元ベンチマーク GauU-Scene: A Scene Reconstruction Benchmark on Large Scale 3D Reconstruction Dataset Using Gaussian Splatting ( http://arxiv.org/abs/2401.14032v1 ) ライセンス: Link先を確認 | Butian Xiong, Zhuo Li, Zhen Li | (参考訳) 我々は,新しい3次元表現手法gaussian splattingを用いた大規模シーン復元ベンチマークを,拡張型u-sceneデータセットに導入する。
U-Sceneは、LiDARの地上真実と組み合わせた総合的なRGBデータセットを特徴とする、1平方キロメートル以上に及ぶ。
データ取得には、高精度なZenmuse L1 LiDARを備えたMatrix 300ドローンを使用し、正確な屋上データ収集を可能にした。
このデータセットは、1.5 km$^2$以上の空間分析を行うための、都市環境と学術環境のユニークなブレンドを提供する。
U-Scene with Gaussian Splatting の評価には,様々な視点から詳細な分析が含まれている。
また、これらの結果を正確なポイントクラウドデータセットから派生したものと並べて、マルチモーダル情報の組み合わせの重要性を裏付ける重要な違いを強調します。 We introduce a novel large-scale scene reconstruction benchmark using the newly developed 3D representation approach, Gaussian Splatting, on our expansive U-Scene dataset. U-Scene encompasses over one and a half square kilometres, featuring a comprehensive RGB dataset coupled with LiDAR ground truth. For data acquisition, we employed the Matrix 300 drone equipped with the high-accuracy Zenmuse L1 LiDAR, enabling precise rooftop data collection. This dataset, offers a unique blend of urban and academic environments for advanced spatial analysis convers more than 1.5 km$^2$. Our evaluation of U-Scene with Gaussian Splatting includes a detailed analysis across various novel viewpoints. We also juxtapose these results with those derived from our accurate point cloud dataset, highlighting significant differences that underscore the importance of combine multi-modal information | 翻訳日:2024-01-26 15:06:58 公開日:2024-01-25 |
# スパースかつ転送可能な普遍特異ベクトル攻撃 Sparse and Transferable Universal Singular Vectors Attack ( http://arxiv.org/abs/2401.14031v1 ) ライセンス: Link先を確認 | Kseniia Kuvshinova, Olga Tsymboi, Ivan Oseledets | (参考訳) 敵攻撃とモデルの脆弱性の研究は、現代の機械学習の基本的な方向性の1つである。
近年の研究では、脆弱性現象が明らかになり、そのメカニズムを理解することは、ニューラルネットワークの特性と解釈性を改善する上で不可欠である。
本稿では, 新規な汎用的ホワイトボックス対逆攻撃を提案する。
我々のアプローチは、ジャコビアン行列の隠れた層の$(p,q)$-singularベクトルにスパーシティを提供する、切り刻まれた電力反復に基づいている。
imagenetベンチマーク検証サブセットを用いて,提案手法を様々な設定で解析し,50%以上の騙し率を持つ高密度ベースラインと比較し,5%の画素にのみダメージを与え,256サンプルを摂動適合に活用した。
また,本アルゴリズムは,人間の課題解決能力に影響を与えることなく,より高い攻撃規模を達成できることを示す。
さらに, 構成された摂動は, ドローイング率を著しく低下させることなく, 異なるモデル間で高い伝達性を示す。
本研究は,攻撃をスパースする最先端モデルの脆弱性を実証し,堅牢な機械学習システムの開発の重要性を強調した。 The research in the field of adversarial attacks and models' vulnerability is one of the fundamental directions in modern machine learning. Recent studies reveal the vulnerability phenomenon, and understanding the mechanisms behind this is essential for improving neural network characteristics and interpretability. In this paper, we propose a novel sparse universal white-box adversarial attack. Our approach is based on truncated power iteration providing sparsity to $(p,q)$-singular vectors of the hidden layers of Jacobian matrices. Using the ImageNet benchmark validation subset, we analyze the proposed method in various settings, achieving results comparable to dense baselines with more than a 50% fooling rate while damaging only 5% of pixels and utilizing 256 samples for perturbation fitting. We also show that our algorithm admits higher attack magnitude without affecting the human ability to solve the task. Furthermore, we investigate that the constructed perturbations are highly transferable among different models without significantly decreasing the fooling rate. Our findings demonstrate the vulnerability of state-of-the-art models to sparse attacks and highlight the importance of developing robust machine learning systems. | 翻訳日:2024-01-26 15:06:43 公開日:2024-01-25 |
# アルゴリズムのシステム理論に向けて Towards a Systems Theory of Algorithms ( http://arxiv.org/abs/2401.14029v1 ) ライセンス: Link先を確認 | Florian D\"orfler, Zhiyu He, Giuseppe Belgioioso, Saverio Bolognani, John Lygeros, Michael Muehlebach | (参考訳) 伝統的に、数値アルゴリズムは、シリコの存在に制限されたコードの孤立した断片と見なされる。
しかし、この観点は制御、学習、最適化における現代の多くの計算手法には適していない。
その例としては、様々なリアルタイム最適化に基づく制御戦略、強化学習、意思決定アーキテクチャ、オンライン最適化などが挙げられる。
さらに、学習や最適化のアルゴリズムでさえ、動的モジュールやパイプラインと相互作用するブロックダイアグラムで抽象化されるようになっている。
本稿では,アルゴリズムを他のアルゴリズム,物理システム,人間,あるいはデータベースと相互作用するオープンな力学系として見ることを好む。
注目すべきことに、システム理論の傘下で開発された多様体ツールは、この急成長するパラダイムシフトと、アルゴリズムの世界におけるそれに伴う課題に関する貴重な洞察を提供する。
アルゴリズムシステム理論の原理が開発されている様々な事例を調査し、関連するモデリング、分析、設計課題を概説する。 Traditionally, numerical algorithms are seen as isolated pieces of code confined to an {\em in silico} existence. However, this perspective is not appropriate for many modern computational approaches in control, learning, or optimization, wherein {\em in vivo} algorithms interact with their environment. Examples of such {\em open} include various real-time optimization-based control strategies, reinforcement learning, decision-making architectures, online optimization, and many more. Further, even {\em closed} algorithms in learning or optimization are increasingly abstracted in block diagrams with interacting dynamic modules and pipelines. In this opinion paper, we state our vision on a to-be-cultivated {\em systems theory of algorithms} and argue in favour of viewing algorithms as open dynamical systems interacting with other algorithms, physical systems, humans, or databases. Remarkably, the manifold tools developed under the umbrella of systems theory also provide valuable insights into this burgeoning paradigm shift and its accompanying challenges in the algorithmic world. We survey various instances where the principles of algorithmic systems theory are being developed and outline pertinent modeling, analysis, and design challenges. | 翻訳日:2024-01-26 15:06:23 公開日:2024-01-25 |
# 分散スマートカメラによるビデオ分析のためのクロスカメラコラボレーションの実現 Enabling Cross-Camera Collaboration for Video Analytics on Distributed Smart Cameras ( http://arxiv.org/abs/2401.14132v1 ) ライセンス: Link先を確認 | Chulhong Min, Juheon Yi, Utku Gunay Acer, and Fahim Kawsar | (参考訳) 重なり合うカメラは、さまざまな角度からシーンを見るエキサイティングな機会を与え、より高度で包括的で堅牢な分析を可能にします。
しかし、既存のマルチカメラストリームのビジュアルアナリティクスシステムは、ほとんどが制限されている。
(i)カメラごとの処理・集約及び
(ii)ワークロードに依存しない集中型処理アーキテクチャ。
本稿では,スマートカメラ上でのクロスカメラコラボレーションによる分散ビデオ分析システムArgusを紹介する。
マルチカメラ・マルチターゲットトラッキングをマルチカメラ・ビデオ分析の主課題とし、複数のカメラをまたがる視野の重なり合う領域における対物的時空間的関連を利用して、冗長で処理量の多い識別タスクを回避する新しい手法を開発した。
我々はさらに、低レイテンシでクラウドサポートなしで、分散カメラでこれらの操作を実行するための一連の技術を開発する。
(i)カメラ及び被写体検査シーケンスを動的に発注すること。
(II) ネットワーク伝送と不均一な計算能力を考慮して, スマートカメラにワークロードを柔軟に分散する。
2つのnvidia jetsonデバイスによる3つの現実世界の重なり合うカメラデータセットの評価では、argusはオブジェクトの識別数とエンドツーエンドのレイテンシを最大7.13倍と2.19倍に削減している(最先端の4.86倍と1.60倍)。 Overlapping cameras offer exciting opportunities to view a scene from different angles, allowing for more advanced, comprehensive and robust analysis. However, existing visual analytics systems for multi-camera streams are mostly limited to (i) per-camera processing and aggregation and (ii) workload-agnostic centralized processing architectures. In this paper, we present Argus, a distributed video analytics system with cross-camera collaboration on smart cameras. We identify multi-camera, multi-target tracking as the primary task of multi-camera video analytics and develop a novel technique that avoids redundant, processing-heavy identification tasks by leveraging object-wise spatio-temporal association in the overlapping fields of view across multiple cameras. We further develop a set of techniques to perform these operations across distributed cameras without cloud support at low latency by (i) dynamically ordering the camera and object inspection sequence and (ii) flexibly distributing the workload across smart cameras, taking into account network transmission and heterogeneous computational capacities. Evaluation of three real-world overlapping camera datasets with two Nvidia Jetson devices shows that Argus reduces the number of object identifications and end-to-end latency by up to 7.13x and 2.19x (4.86x and 1.60x compared to the state-of-the-art), while achieving comparable tracking quality. | 翻訳日:2024-01-26 14:59:45 公開日:2024-01-25 |
# CompactifAI:量子インスパイアされたテンソルネットワークを用いた大規模言語モデルの極端圧縮 CompactifAI: Extreme Compression of Large Language Models using Quantum-Inspired Tensor Networks ( http://arxiv.org/abs/2401.14109v1 ) ライセンス: Link先を確認 | Andrei Tomut, Saeed S. Jahromi, Sukhbinder Singh, Faysal Ishtiaq, Cesar Mu\~noz, Prabdeep Singh Bajaj, Ali Elborady, Gianni del Bimbo, Mehrazin Alizadeh, David Montero, Pablo Martin-Ramiro, Muhammad Ibrahim, Oussama Tahiri Alaoui, John Malcolm, Samuel Mugel, Roman Orus | (参考訳) chatgptやllamaといった大規模言語モデル(llm)は、生成型ai(generative artificial intelligence:ai)において急速に進歩しているが、その巨大なサイズは、膨大なトレーニングと推論コスト、実質的なエネルギー需要、現場での展開の制限など、大きな課題をもたらす。
プルーニング、蒸留、低ランク近似といった従来の圧縮手法は、ネットワーク内のニューロンの有効数を減らし、量子化は個々の重みの数値的精度を減らし、ニューロンの固定数を抑えながらモデルサイズを減らすことに重点を置いている。
これらの圧縮手法は実際には比較的成功したが、ニューロンの数を遮断することが最適な戦略であると考えるには説得力のある理由はない。
本稿では、量子インスパイアされたテンソルネットワークを用いた革新的なLCM圧縮手法であるCompactifAIを紹介し、モデルの相関空間に着目し、より制御され、洗練され、解釈可能なモデル圧縮を実現する。
我々の手法は万能であり、他の圧縮技術で実装することができる。
ベンチマークとして, compactifai は llama-2 7b モデルの圧縮のみを元の大きさの 30-%$ に抑えつつ, 分散再トレーニング後の元の精度の 90-%$ 以上を回収できることを実証した。 Large Language Models (LLMs) such as ChatGPT and LlaMA are advancing rapidly in generative Artificial Intelligence (AI), but their immense size poses significant challenges, such as huge training and inference costs, substantial energy demands, and limitations for on-site deployment. Traditional compression methods such as pruning, distillation, and low-rank approximation focus on reducing the effective number of neurons in the network, while quantization focuses on reducing the numerical precision of individual weights to reduce the model size while keeping the number of neurons fixed. While these compression methods have been relatively successful in practice, there's no compelling reason to believe that truncating the number of neurons is an optimal strategy. In this context, this paper introduces CompactifAI, an innovative LLM compression approach using quantum-inspired Tensor Networks that focuses on the model's correlation space instead, allowing for a more controlled, refined and interpretable model compression. Our method is versatile and can be implemented with - or on top of - other compression techniques. As a benchmark, we demonstrate that CompactifAI alone enables compression of the LlaMA-2 7B model to only $30\%$ of its original size while recovering over $90\%$ of the original accuracy after a brief distributed retraining. | 翻訳日:2024-01-26 14:59:19 公開日:2024-01-25 |
# ループ内微細化によるラベル雑音下での学習 Learning under Label Noise through Few-Shot Human-in-the-Loop Refinement ( http://arxiv.org/abs/2401.14107v1 ) ライセンス: Link先を確認 | Aaqib Saeed, Dimitris Spathis, Jungwoo Oh, Edward Choi, Ali Etemad | (参考訳) ウェアラブル技術は、身体活動、心拍数、睡眠、ストレスレベルなど、さまざまな健康指標の継続的な監視を可能にする。
ウェアラブルデータの重要な課題は、品質ラベルを取得することだ。
ビデオ自体がオブジェクトやイベントのラベル付けに効果的に使用できるビデオのようなモダリティとは異なり、ウェアラブルデータにはユーザの物理的な表示に関する明確な手がかりが含まれておらず、通常は豊富なメタデータを必要とする。
その結果、ラベルデータのラベル付けにおいて、ラベルノイズはますます厄介な問題となる。
本稿では,FHLR(Few-Shot Human-in-the-Loop Refinement)というラベル学習手法を提案する。
本手法は,まず弱いラベルを用いて種子モデルを学習する。
次に、少数の専門家による修正を使用して、シードモデルを微調整する。
最後に、重み付きパラメータ平均化により、シードモデルと微調整モデルを統合することで、より良い一般化性とロバスト性を実現する。
4つの課題とデータセットに対するアプローチを評価し,ノイズの多いラベルを扱うために設計された8つの競合ベースラインと比較した。
その結果,FHLRは雑音や非対称雑音下での精度が最大19%向上し,ノイズラベルから学習し,最先端の精度を高いマージンで達成できることがわかった。
特に, FHLRは, 性能劣化に悩まされていた従来の作業とは異なり, ラベルノイズの増加に対して特に頑健であることがわかった。
我々の研究は、ハイテイクなヘルスセンシングベンチマークでより良い一般化を達成するだけでなく、ノイズが一般的に使われているモデルにどのように影響するかにも光を当てています。 Wearable technologies enable continuous monitoring of various health metrics, such as physical activity, heart rate, sleep, and stress levels. A key challenge with wearable data is obtaining quality labels. Unlike modalities like video where the videos themselves can be effectively used to label objects or events, wearable data do not contain obvious cues about the physical manifestation of the users and usually require rich metadata. As a result, label noise can become an increasingly thorny issue when labeling such data. In this paper, we propose a novel solution to address noisy label learning, entitled Few-Shot Human-in-the-Loop Refinement (FHLR). Our method initially learns a seed model using weak labels. Next, it fine-tunes the seed model using a handful of expert corrections. Finally, it achieves better generalizability and robustness by merging the seed and fine-tuned models via weighted parameter averaging. We evaluate our approach on four challenging tasks and datasets, and compare it against eight competitive baselines designed to deal with noisy labels. We show that FHLR achieves significantly better performance when learning from noisy labels and achieves state-of-the-art by a large margin, with up to 19% accuracy improvement under symmetric and asymmetric noise. Notably, we find that FHLR is particularly robust to increased label noise, unlike prior works that suffer from severe performance degradation. Our work not only achieves better generalization in high-stakes health sensing benchmarks but also sheds light on how noise affects commonly-used models. | 翻訳日:2024-01-26 14:58:53 公開日:2024-01-25 |
# s$強磁性鎖のフラストレーションにおける極小マグノン励起 Few-magnon excitations in a frustrated spin-$S$ ferromagnetic chain ( http://arxiv.org/abs/2401.14101v1 ) ライセンス: Link先を確認 | Jiawei Li, Ye Cao, Ning Wu | (参考訳) 反強磁性next-nearest-neighbor (NNN) 相互作用が$J'$とシングルイオン(SI) 異方性$D$を付加した有限サイズのスピン-S$強磁性Next-neighbor (NN) XXZ鎖における少数のマグノン励起を研究する。
正確な2つのマグノンブロッホ状態を用いて、2つのマグノン問題は、NNとNNNのホッピングを持つ効果的な開鎖上の1つの粒子にマッピングされる。
余剰運動量$k=-\pi$ に対して、有効鎖は2つのNN開鎖に分解され、平面波アンサッツによって正確に解ける。
これに基づいて、NNN結合の異方性パラメータを$\Delta'-D/|J'|$平面($\Delta'$でNNN結合の異方性パラメータ)において、SIまたはNNNをサポートする領域はバンドの端付近で2つのマグノン境界状態と交換する。
バンドエッジ付近には低エネルギーのNN交換状態が常に存在することを示す。
S=1/2$の場合、スピン演算行列要素法を用いて$n$-magnon spectra for $n\leq5$を数値計算する。
対応する$n$-magnon-commensurateの不安定性領域は有限鎖に対して決定され、先行文献と一貫した結果が観察される。 We study few-magnon excitations in a finite-size spin-$S$ ferromagnetic nearest-neighbor (NN) XXZ chain with additional antiferromagnetic next-nearest-neighbor (NNN) interaction $J'$ and single-ion (SI) anisotropy $D$. Using a set of exact two-magnon Bloch states, the two-magnon problem is mapped to a single-particle one on an effective open chain with both NN and NNN hoppings. For the commensurate momentum $k=-\pi$, the effective chain is decoupled into two NN open chains that can be exactly solved via a plane-wave ansatz. Based on this, we identify in the $\Delta'-D/|J'|$ plane (with $\Delta'$ the anisotropy parameter for the NNN coupling) the regions supporting the SI or NNN exchange two-magnon bound states near the edge of the band. We prove that there always exists a lower-energy NN exchange two-magnon bound state near the band edge. For $S=1/2$, we numerically calculate the $n$-magnon spectra for $n\leq5$ by using a spin-operator matrix element method. The corresponding $n$-magnon commensurate instability regions are determined for finite chains and consistent results with prior literature are observed. | 翻訳日:2024-01-26 14:58:26 公開日:2024-01-25 |
# 意見プールを用いたサイバー脅威自動帰属に対するモジュール的アプローチ A Modular Approach to Automatic Cyber Threat Attribution using Opinion Pools ( http://arxiv.org/abs/2401.14090v1 ) ライセンス: Link先を確認 | Koen T.W. Teuwen | (参考訳) サイバー脅威の帰属は、デジタル脅威に対するレジリエンスを高める上で重要な役割を果たす。
近年の研究では、脅威帰属プロセスの自動化と、脅威狩りなどの他の活動との統合に焦点を当てている。
サイバー脅威帰属プロセスの自動化を促進するため,本稿では,現在のモノリシックな自動化手法に代わるモジュラーアーキテクチャを提案する。
モジュラーアーキテクチャは、アトリビュータの出力を組み合わせるために意見プールを利用することができる。
提案するソリューションは,脅威帰属問題の扱い可能性を高め,モノリシックな代替案とは対照的に,ユーザビリティと解釈性を高める。
また, 同一確率質量関数 (pmf) を出力として生成する前に, 異なる特徴に基づくアトリビュータ対を形成し, 中間結果を生成する集約法としてペアリングアグリゲータを提案する。
ペアリングアグリゲータは、対数的世論プールと線形世論プールの両方を順次適用する。
実験的検証により、モジュラーアプローチは性能を低下させることなく、モノリシックな代替品と比較して精度とリコールを向上できることが示唆された。
また,Pairing Aggregatorは線形および対数的な意見プールの精度を向上させることが示唆された。
さらに、実験におけるk-精度の改善は、法医学の専門家が手動の帰属過程において結果のPMFを利用して効率を向上させることを示唆している。 Cyber threat attribution can play an important role in increasing resilience against digital threats. Recent research focuses on automating the threat attribution process and on integrating it with other efforts, such as threat hunting. To support increasing automation of the cyber threat attribution process, this paper proposes a modular architecture as an alternative to current monolithic automated approaches. The modular architecture can utilize opinion pools to combine the output of concrete attributors. The proposed solution increases the tractability of the threat attribution problem and offers increased usability and interpretability, as opposed to monolithic alternatives. In addition, a Pairing Aggregator is proposed as an aggregation method that forms pairs of attributors based on distinct features to produce intermediary results before finally producing a single Probability Mass Function (PMF) as output. The Pairing Aggregator sequentially applies both the logarithmic opinion pool and the linear opinion pool. An experimental validation suggests that the modular approach does not result in decreased performance and can even enhance precision and recall compared to monolithic alternatives. The results also suggest that the Pairing Aggregator can improve precision over the linear and logarithmic opinion pools. Furthermore, the improved k-accuracy in the experiment suggests that forensic experts can leverage the resulting PMF during their manual attribution processes to enhance their efficiency. | 翻訳日:2024-01-26 14:57:55 公開日:2024-01-25 |
# GQHAN:グローバーにインスパイアされた量子ハードアテンションネットワーク GQHAN: A Grover-inspired Quantum Hard Attention Network ( http://arxiv.org/abs/2401.14089v1 ) ライセンス: Link先を確認 | Ren-Xin Zhao, Jinjing Shi and Xuelong Li | (参考訳) 多数の現在の量子機械学習(QML)モデルは、量子データの重要性を識別するのに不適切であり、大規模な量子データセットを扱う場合の有効性が低下する。
上記のQMLボトルネックに効果的に取り組むことが期待されるハードアテンションメカニズム(HAM)は、非微分可能性の重大な課題に直面し、その結果、その広範な適用性を制限する。
HAMとQMLのジレンマに応答して、フレキシブルOracle(FO)とAdaptive Diffusion Operator(ADO)からなるGrover-inspired Quantum Hard Attention Mechanism(GQHAM)を提案する。
特筆すべきは、foは、様々な離散的デスティニーを織り込むためのフレキシブルコントロール(fc)を備えた離散的プリミティブ(dps)の活性化またはマスキングを実行することによって、非微分可能な問題を克服するように設計されている。
これに基づいて、そのような離散的な選択は、特別に定義された量子ハードアテンションスコア(QHAS)で視覚化することができる。
さらに、GQHAMの汎用性と柔軟性を高めるために、トレーニング可能なADOが考案されている。
最後に、Fashion MNISTバイナリ分類のためのPennyLaneプラットフォーム上に、QGHAMに基づくGrover-inspired Quantum Hard Attention Network (GQHAN)を構築した。
実験結果から,GQHANは未分化のハードルをほぼ上回り,既存の量子ソフト自己保持機構を超越したアキュラシーと学習能力を示した。
ノイズ実験では、GQHANはビットフリップノイズの精度と学習性能の振幅減衰ノイズに対して頑健である。
予測上、gqhanの提案はquantum attention mechanism(qam)を強化し、将来の量子コンピュータが大規模データを処理するための基盤を作り、量子コンピュータビジョンの開発を促進する。 Numerous current Quantum Machine Learning (QML) models exhibit an inadequacy in discerning the significance of quantum data, resulting in diminished efficacy when handling extensive quantum datasets. Hard Attention Mechanism (HAM), anticipated to efficiently tackle the above QML bottlenecks, encounters the substantial challenge of non-differentiability, consequently constraining its extensive applicability. In response to the dilemma of HAM and QML, a Grover-inspired Quantum Hard Attention Mechanism (GQHAM) consisting of a Flexible Oracle (FO) and an Adaptive Diffusion Operator (ADO) is proposed. Notably, the FO is designed to surmount the non-differentiable issue by executing the activation or masking of Discrete Primitives (DPs) with Flexible Control (FC) to weave various discrete destinies. Based on this, such discrete choice can be visualized with a specially defined Quantum Hard Attention Score (QHAS). Furthermore, a trainable ADO is devised to boost the generality and flexibility of GQHAM. At last, a Grover-inspired Quantum Hard Attention Network (GQHAN) based on QGHAM is constructed on PennyLane platform for Fashion MNIST binary classification. Experimental findings demonstrate that GQHAN adeptly surmounts the non-differentiability hurdle, surpassing the efficacy of extant quantum soft self-attention mechanisms in accuracies and learning ability. In noise experiments, GQHAN is robuster to bit-flip noise in accuracy and amplitude damping noise in learning performance. Predictably, the proposal of GQHAN enriches the Quantum Attention Mechanism (QAM), lays the foundation for future quantum computers to process large-scale data, and promotes the development of quantum computer vision. | 翻訳日:2024-01-26 14:57:31 公開日:2024-01-25 |
# ダブルトラブル?
顔画像データセットにおける重複の影響と検出 Double Trouble? Impact and Detection of Duplicates in Face Image Datasets ( http://arxiv.org/abs/2401.14088v1 ) ライセンス: Link先を確認 | Torsten Schlett, Christian Rathgeb, Juan Tapia, Christoph Busch | (参考訳) 顔のバイオメトリックス研究を目的とした様々な顔画像データセットは、ウェブスクラッピング(インターネット上で公開されている画像の収集)によって作成された。
この研究は、ファイルと画像ハッシュを用いて、正確にもほぼ同一の顔画像の重複を検出するアプローチを示す。
アプローチは、顔画像前処理を使用して拡張される。
顔認識と顔画像品質評価モデルに基づく追加ステップにより、偽陽性が減少し、サブジェクト内およびサブジェクト間重複集合の両方で顔画像の重複が緩和される。
本手法は,lfw,tinyface,adience,casia-webface,c-ms-celebの5つのデータセットに適用した。
重複はデータセット毎に検出され、LFWを除いて数百から数十万の重複がある。
顔認識と品質評価実験は、重複除去による結果への小さな影響を示している。
最後の重複データが公開されている。 Various face image datasets intended for facial biometrics research were created via web-scraping, i.e. the collection of images publicly available on the internet. This work presents an approach to detect both exactly and nearly identical face image duplicates, using file and image hashes. The approach is extended through the use of face image preprocessing. Additional steps based on face recognition and face image quality assessment models reduce false positives, and facilitate the deduplication of the face images both for intra- and inter-subject duplicate sets. The presented approach is applied to five datasets, namely LFW, TinyFace, Adience, CASIA-WebFace, and C-MS-Celeb (a cleaned MS-Celeb-1M variant). Duplicates are detected within every dataset, with hundreds to hundreds of thousands of duplicates for all except LFW. Face recognition and quality assessment experiments indicate a minor impact on the results through the duplicate removal. The final deduplication data is publicly available. | 翻訳日:2024-01-26 14:56:57 公開日:2024-01-25 |
# Sum-Product Networks を用いた類似物生成 Generating Likely Counterfactuals Using Sum-Product Networks ( http://arxiv.org/abs/2401.14086v1 ) ライセンス: Link先を確認 | Jiri Nemecek, Tomas Pevny, Jakub Marecek | (参考訳) ユーザの要求と最近の規制(GDPR、AI Act)のため、AIシステムによる決定は説明する必要がある。
これらの決定はしばしば、反実的な説明が一般的であるポストホックでのみ説明できる。
最良の反事実的説明を構成するものは、"サンプルからの距離"が最も一般的である複数の側面を考慮する必要がある。
我々は、この要件がしばしば、ありそうにない、従って、限られた価値の説明につながると論じている。
本稿では,高度な説明を提供するシステムを提案する。
反事実的説明のための多くの共通デシデラタを満たす最も可能性の高い説明の探索は、mixed-integer optimization (mio) を用いてモデル化できることを示す。
本プロセスでは,SPN(Sum-Product Network)のMIO定式化を提案し,SPNを用いて,独立利害関係にある可能性のある反事実の可能性を推定する。
反事実的説明を生成するいくつかの方法に対する数値比較を提供する。 Due to user demand and recent regulation (GDPR, AI Act), decisions made by AI systems need to be explained. These decisions are often explainable only post hoc, where counterfactual explanations are popular. The question of what constitutes the best counterfactual explanation must consider multiple aspects, where "distance from the sample" is the most common. We argue that this requirement frequently leads to explanations that are unlikely and, therefore, of limited value. Here, we present a system that provides high-likelihood explanations. We show that the search for the most likely explanations satisfying many common desiderata for counterfactual explanations can be modeled using mixed-integer optimization (MIO). In the process, we propose an MIO formulation of a Sum-Product Network (SPN) and use the SPN to estimate the likelihood of a counterfactual, which can be of independent interest. A numerical comparison against several methods for generating counterfactual explanations is provided. | 翻訳日:2024-01-26 14:56:39 公開日:2024-01-25 |
# 導関数の操作行列を用いた分数ピンの加速 Accelerating Fractional PINNs using Operational Matrices of Derivative ( http://arxiv.org/abs/2401.14081v1 ) ライセンス: Link先を確認 | Tayebeh Taheri, Alireza Afzal Aghaei, Kourosh Parand | (参考訳) 本稿では,分数物理学インフォームドニューラルネットワーク(fpinn)の学習を高速化する新しい操作行列法を提案する。
提案手法は、分数演算子の非一様離散化を伴い、$0<\alpha<1$のカプトー型分数微分問題における分数微分の迅速な計算を容易にする。
本手法では, 演算行列を事前計算し, 訓練段階において, 自動微分を行列ベクトル積に置き換える。
我々の手法はどのネットワークとも互換性があるが、特にPINNにおける実装の成功を強調し、レジェンダーニューラルブロック(LNB)アーキテクチャを利用する際の精度の向上を強調している。
LNBはレジェンドレ多項式をPINN構造に組み込み、精度を大幅に向上させる。
提案手法の有効性は,DDE(Delay Differential Equations)やDAE(System of Differential Algebraic Equations)など,様々な微分方程式で検証される。
その汎用性を示すため、微分方程式系への応用を拡張し、特に非線形パンタグラフ分数次DDE/DAEに対処する。
結果は数値結果の包括的な分析によって裏付けられる。 This paper presents a novel operational matrix method to accelerate the training of fractional Physics-Informed Neural Networks (fPINNs). Our approach involves a non-uniform discretization of the fractional Caputo operator, facilitating swift computation of fractional derivatives within Caputo-type fractional differential problems with $0<\alpha<1$. In this methodology, the operational matrix is precomputed, and during the training phase, automatic differentiation is replaced with a matrix-vector product. While our methodology is compatible with any network, we particularly highlight its successful implementation in PINNs, emphasizing the enhanced accuracy achieved when utilizing the Legendre Neural Block (LNB) architecture. LNB incorporates Legendre polynomials into the PINN structure, providing a significant boost in accuracy. The effectiveness of our proposed method is validated across diverse differential equations, including Delay Differential Equations (DDEs) and Systems of Differential Algebraic Equations (DAEs). To demonstrate its versatility, we extend the application of the method to systems of differential equations, specifically addressing nonlinear Pantograph fractional-order DDEs/DAEs. The results are supported by a comprehensive analysis of numerical outcomes. | 翻訳日:2024-01-26 14:56:25 公開日:2024-01-25 |
# 要求からアーキテクチャへ:AIベースの旅からソフトウェアアーキテクチャを半自動生成する From Requirements to Architecture: An AI-Based Journey to Semi-Automatically Generate Software Architectures ( http://arxiv.org/abs/2401.14079v1 ) ライセンス: Link先を確認 | Tobias Eisenreich, Sandro Speth, Stefan Wagner | (参考訳) ドメイン・モデルとソフトウェア・アーキテクチャを設計することはソフトウェア開発において重大な課題となる。
時間的プレッシャーのため、アーキテクトはドメインを徹底的に分析し、複数の候補を評価する代わりに、既知の限られたドメイン理解、パターン、経験に基づいて1つのアーキテクチャをモデル化することが多い。
既存のアプローチでは要件に基づいたドメインモデルの生成を試みるが、優れた結果を得るためには時間を要する手作業が必要となる。
そこで本研究では,人工知能技術を用いた要件に基づいて,ソフトウェアアーキテクチャ候補を半自動生成する手法を提案する。
さらに、大規模言語モデルと定量的分析を組み合わせたアーキテクチャトレードオフ分析手法を用いて、生成したアーキテクチャ候補の自動評価とトレードオフ分析を計画する。
このアプローチを評価するために,我々は,生成したアーキテクチャモデルの品質と提案するプロセスの効率と効果を質的研究によって分析することを目的とした。 Designing domain models and software architectures represents a significant challenge in software development, as the resulting architectures play a vital role in fulfilling the system's quality of service. Due to time pressure, architects often model only one architecture based on their known limited domain understanding, patterns, and experience instead of thoroughly analyzing the domain and evaluating multiple candidates, selecting the best fitting. Existing approaches try to generate domain models based on requirements, but still require time-consuming manual effort to achieve good results. Therefore, in this vision paper, we propose a method to generate software architecture candidates semi-automatically based on requirements using artificial intelligence techniques. We further envision an automatic evaluation and trade-off analysis of the generated architecture candidates using, e.g., the architecture trade-off analysis method combined with large language models and quantitative analyses. To evaluate this approach, we aim to analyze the quality of the generated architecture models and the efficiency and effectiveness of our proposed process by conducting qualitative studies. | 翻訳日:2024-01-26 14:56:04 公開日:2024-01-25 |
# ProCNS : 医療画像分割のためのプログレッシブプロトタイプ校正とノイズ抑制 ProCNS: Progressive Prototype Calibration and Noise Suppression for Weakly-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2401.14074v1 ) ライセンス: Link先を確認 | Y. Liu, L. Lin, K. K. Y. Wong, X. Tang | (参考訳) 弱い教師付きセグメンテーション(WSS)は、疎いアノテーション形式(ポイント、スクリブル、ブロックなど)を採用することによって、アノテーションコストとモデルパフォーマンスの対立を軽減するソリューションとして登場した。
典型的なアプローチは解剖学とトポロジーを事前に活用し、スパースアノテーションを擬似ラベルに直接拡張しようとする。
しかし, 医用画像の曖昧さへの注意の欠如, スパース・インスペクションの探究が不十分なため, 既存手法はノイズの多い地域で誤った疑似提案を発生させる傾向があり, 累積モデル誤差や性能劣化を引き起こす。
本稿では,プログレッシブプロトタイプキャリブレーションとノイズ抑圧の原理を考案した2つの相乗的モジュールを包含する新しいWSS手法ProCNSを提案する。
具体的には,空間的要素と意味的要素の対的な親和性を最大化するために,プロトタイプベースの地域空間親和性(prsa)損失をデザインする。
この親和性は入力画像とプロトタイプによる予測から得られる。
また,提案手法における雑音領域を適応的に識別しマスキングし,プロトタイプ計算時の誤干渉を低減させる,より豊かで代表的なプロトタイプ表現を得るための適応雑音知覚・マスキング(anpm)モジュールを提案する。
さらに,ANPMが同定した雑音領域に対して,特殊ソフトな擬似ラベルを生成し,補足的監視を行う。
異なるモダリティを含む3つの医用画像セグメンテーションタスクの広範囲にわたる実験により、提案手法が代表的最先端手法を著しく上回ることを示した。 Weakly-supervised segmentation (WSS) has emerged as a solution to mitigate the conflict between annotation cost and model performance by adopting sparse annotation formats (e.g., point, scribble, block, etc.). Typical approaches attempt to exploit anatomy and topology priors to directly expand sparse annotations into pseudo-labels. However, due to a lack of attention to the ambiguous edges in medical images and insufficient exploration of sparse supervision, existing approaches tend to generate erroneous and overconfident pseudo proposals in noisy regions, leading to cumulative model error and performance degradation. In this work, we propose a novel WSS approach, named ProCNS, encompassing two synergistic modules devised with the principles of progressive prototype calibration and noise suppression. Specifically, we design a Prototype-based Regional Spatial Affinity (PRSA) loss to maximize the pair-wise affinities between spatial and semantic elements, providing our model of interest with more reliable guidance. The affinities are derived from the input images and the prototype-refined predictions. Meanwhile, we propose an Adaptive Noise Perception and Masking (ANPM) module to obtain more enriched and representative prototype representations, which adaptively identifies and masks noisy regions within the pseudo proposals, reducing potential erroneous interference during prototype computation. Furthermore, we generate specialized soft pseudo-labels for the noisy regions identified by ANPM, providing supplementary supervision. Extensive experiments on three medical image segmentation tasks involving different modalities demonstrate that the proposed framework significantly outperforms representative state-of-the-art methods | 翻訳日:2024-01-26 14:55:45 公開日:2024-01-25 |
# パルス法による貯水池計算における光位相符号化 Optical phase encoding in pulsed approach to reservoir computing ( http://arxiv.org/abs/2401.14073v1 ) ライセンス: Link先を確認 | Johan Henaff, Matthieu Ansquer, Miguel C Soriano, Roberta Zambrini, Nicolas Treps and Valentina Parigi | (参考訳) マルチモード光場の全構造の利用は、古典的および量子的情報科学を含む多くの分野において説得力のある能力をもたらす。
本研究では, フェムト秒レーザー源のパルスの光位相に関するデータエンコーディングを, 貯留層計算プロトコルのフォトニック実装に活用する。
データ読み取りは強度検出ではなく、振幅と位相の組み合わせにアクセスするホモダイン検出によって行われる。
NARMAタスクとレーザーダイナミック予測の数値的および実験的結果を示す。
量子拡張プロトコルの観点について論じる。 The exploitation of the full structure of multimode light fields enables compelling capabilities in many fields including classical and quantum information science. We exploit data-encoding on the optical phase of the pulses of a femtosecond laser source for a photonic implementation of a reservoir computing protocol. Rather than intensity detection, data-reading is done via homodyne detection that accesses combinations of amplitude and phase of the field. Numerical and experimental results on NARMA tasks and laser dynamic predictions are shown. We discuss perspectives for quantum enhanced protocols. | 翻訳日:2024-01-26 14:55:14 公開日:2024-01-25 |
# 神経シンクホーン勾配流れ Neural Sinkhorn Gradient Flow ( http://arxiv.org/abs/2401.14069v1 ) ライセンス: Link先を確認 | Huminhao Zhu, Fangyikang Wang, Chao Zhang, Hanbin Zhao, Hui Qian | (参考訳) 特定の機能に関するwassersteingradient flow(wgf)は、機械学習の文献で広く使われている。
近年,ニューラルネットワークがwasserstein勾配流のある種の難解な部分の近似に採用され,効率的な推論手法が実現されている。
本稿では,ワッサーシュタイン勾配流w.r.t.の時間変化速度場をパラメータ化したニューラルシンクホーン勾配流(NSGF)モデルを提案する。
NSGFの速度場マッチング学習手法は,実験的な速度場近似を計算するために,ソースとターゲット分布からのサンプルのみを必要とする。
理論解析により, サンプルサイズが無限大に増加するにつれて, 経験的近似の平均場限度が真の速度場に収束することが示された。
高次元タスクにおけるモデル効率をさらに高めるために、2相NSGF++モデルが考案され、まずシンクホーンフローに従って画像多様体に素早く接近し(\le 5$ NFEs)、次に単純なストレートフローに沿ってサンプルを洗練する。
合成および実世界のベンチマークデータセットを用いた数値実験により,提案手法の有効性が実証された。 Wasserstein Gradient Flows (WGF) with respect to specific functionals have been widely used in the machine learning literature. Recently, neural networks have been adopted to approximate certain intractable parts of the underlying Wasserstein gradient flow and result in efficient inference procedures. In this paper, we introduce the Neural Sinkhorn Gradient Flow (NSGF) model, which parametrizes the time-varying velocity field of the Wasserstein gradient flow w.r.t. the Sinkhorn divergence to the target distribution starting a given source distribution. We utilize the velocity field matching training scheme in NSGF, which only requires samples from the source and target distribution to compute an empirical velocity field approximation. Our theoretical analyses show that as the sample size increases to infinity, the mean-field limit of the empirical approximation converges to the true underlying velocity field. To further enhance model efficiency on high-dimensional tasks, a two-phase NSGF++ model is devised, which first follows the Sinkhorn flow to approach the image manifold quickly ($\le 5$ NFEs) and then refines the samples along a simple straight flow. Numerical experiments with synthetic and real-world benchmark datasets support our theoretical results and demonstrate the effectiveness of the proposed methods. | 翻訳日:2024-01-26 14:55:07 公開日:2024-01-25 |
# Ta'keed:アラビア語のクレームのための最初の生成ファクトチェッキングシステム Ta'keed: The First Generative Fact-Checking System for Arabic Claims ( http://arxiv.org/abs/2401.14067v1 ) ライセンス: Link先を確認 | Saud Althabiti, Mohammad Ammar Alsalka, and Eric Atwell | (参考訳) 本稿では,アラビア語の自動ファクトチェックシステムta'keedについて述べる。
既存の研究は、主張を「真実」または「偽」と分類することに焦点を当てていることが多いが、特にアラビア語では、主張の信頼性に関する説明を生成することは限られている。
Ta'keedはこのギャップに対処し、検索されたスニペットに基づいてクレーム真理性を評価し、情報検索とLLMベースのクレーム検証という2つの主要なコンポーネントを利用する。
我々は、手動で正当化された参照を持つゴールドラベルのデータセットであるArFactExをコンパイルし、システムを評価した。
最初のモデルは、分類タスクで有望なF1スコア0.72を達成した。
一方、システムの生成した説明は、構文的にも意味的にもゴールドスタンダードの説明と比較される。
この研究は意味的類似性の評価を推奨し、平均コサイン類似度スコアは0.76である。
さらに,クレーム分類精度に及ぼすスニペット量の影響について検討し,F1スコア0.77の上位7ヒットを用いたモデルを用いて検討した。 This paper introduces Ta'keed, an explainable Arabic automatic fact-checking system. While existing research often focuses on classifying claims as "True" or "False," there is a limited exploration of generating explanations for claim credibility, particularly in Arabic. Ta'keed addresses this gap by assessing claim truthfulness based on retrieved snippets, utilizing two main components: information retrieval and LLM-based claim verification. We compiled the ArFactEx, a testing gold-labelled dataset with manually justified references, to evaluate the system. The initial model achieved a promising F1 score of 0.72 in the classification task. Meanwhile, the system's generated explanations are compared with gold-standard explanations syntactically and semantically. The study recommends evaluating using semantic similarities, resulting in an average cosine similarity score of 0.76. Additionally, we explored the impact of varying snippet quantities on claim classification accuracy, revealing a potential correlation, with the model using the top seven hits outperforming others with an F1 score of 0.77. | 翻訳日:2024-01-26 14:54:44 公開日:2024-01-25 |
# 楕円ブラッグ格子に結合したInP系量子ドットからの偏光及び明るいCバンド単一光子源 Polarized and bright telecom C-band single-photon source from InP-based quantum dots coupled to elliptical Bragg gratings ( http://arxiv.org/abs/2401.14150v1 ) ライセンス: Link先を確認 | Zhenxuan Ge, Tunghsun Chung, Yu-Ming He, Mohamed Benyoucef, and Yongheng Huo | (参考訳) 長距離量子通信、光量子計算、量子ネットワークにおいて、光、偏光、高純度単一光子源が重要な構成要素である。
半導体InAs/InP量子ドット(QD)とフォトニックキャビティの組み合わせは、この範囲で最適な単一光子源につながる競合経路を提供する。
ここでは、楕円型ブラッググレーティング(EBG)キャビティに基づいて、通信Cバンドで動作する、明るく偏光した単一光子源を実証する。
5.25$\pm$0.05のパーセル向上により、この装置は0.986の偏光比、g^2(0)=0.078$\pm$0.016の単光子純度、第1レンズ(NA=0.65)での単光子収集効率はおよそ24%となる。
これらの結果は、cバンドqdベースの単一光子源が量子通信の進歩の候補であることを示唆している。 Bright, polarized, and high-purity single-photon sources in telecom wavelengths are crucial components in long-distance quantum communication, optical quantum computation and quantum networks. Semiconductor InAs/InP quantum dots (QDs) combined with photonic cavities provide a competitive path leading to optimal single-photon sources in this range. Here, we demonstrate a bright and polarized single-photon source operating in the telecom C-band based on an elliptical Bragg grating (EBG) cavity. With a significant Purcell enhancement of 5.25$\pm$0.05, the device achieves a polarization ratio of 0.986, single-photon purity of g^2 (0)=0.078$\pm$0.016 and single-polarized photon collection efficiency of ~ 24% at the first lens (NA=0.65) without blinking. These findings suggest that C-band QD-based single-photon sources are potential candidates for advancing quantum communication. | 翻訳日:2024-01-26 14:46:03 公開日:2024-01-25 |
# rustによるjavaおよびpythonバインディングによる高性能プロセスマイニングライブラリの開発 Developing a High-Performance Process Mining Library with Java and Python Bindings in Rust ( http://arxiv.org/abs/2401.14149v1 ) ライセンス: Link先を確認 | Aaron K\"usters, Wil M.P. van der Aalst | (参考訳) 現在最もよく使われているオープンソースプロセスマイニングソフトウェアツールは、それぞれJavaとPythonで書かれたProMとPM4Pyである。
このような高レベルの、しばしば解釈されるプログラミング言語は、メモリの安全性と使いやすさと性能を交換する。
対照的に、cやc++のような従来のコンパイル言語は最高性能を達成できるが、安全でないメモリ管理に関する不安定さに苦しむことが多い。
最近、rustは固有のメモリ安全性を持つ高性能なコンパイル型プログラミング言語として登場した。
本稿では,Rustの共有プロセスマイニングライブラリをJavaとPythonの両方にバインディングすることで,ProMやPM4Pyといった既存のエコシステムへの完全な統合を可能にするアプローチについて述べる。
相互運用性を促進することで、研究者や業界がRustで新しいアルゴリズムを一度開発し、コミュニティ全体でアクセスできるようにすると同時に、優れたパフォーマンスを実現できます。 The most commonly used open-source process mining software tools today are ProM and PM4Py, written in Java and Python, respectively. Such high-level, often interpreted, programming languages trade off performance with memory safety and ease-of-use. In contrast, traditional compiled languages, like C or C++, can achieve top performance but often suffer from instability related to unsafe memory management. Lately, Rust emerged as a highly performant, compiled programming language with inherent memory safety. In this paper, we describe our approach to developing a shared process mining library in Rust with bindings to both Java and Python, allowing full integration into the existing ecosystems, like ProM and PM4Py. By facilitating interoperability, our methodology enables researchers or industry to develop novel algorithms in Rust once and make them accessible to the entire community while also achieving superior performance. | 翻訳日:2024-01-26 14:45:41 公開日:2024-01-25 |
# LanDA: 言語指向のマルチソースドメイン適応 LanDA: Language-Guided Multi-Source Domain Adaptation ( http://arxiv.org/abs/2401.14148v1 ) ライセンス: Link先を確認 | Zhenbin Wang and Lei Zhang and Lituan Wang and Minjuan Zhu | (参考訳) マルチソースドメイン適応(MSDA)は、複数のラベル付きソースドメインからの知識をラベルなしターゲットドメインに転送する際に、データ分散の変化を軽減することを目的としている。
しかし、既存のMSDA技術では、対象のドメインイメージが利用可能であるが、画像リッチなセマンティック情報を見落としている。
その結果,MSDAは対象領域の画像が存在しない場合にのみテキストによる手がかりでガイドできるのか,という疑問が浮かび上がっている。
共同画像と言語埋め込み空間を備えたマルチモーダルモデルを用いて,複数のソースドメインを新たなターゲットドメインに転送し,単一のターゲットドメインイメージを必要とせず,かつタスク関連情報を保持しながら,対象ドメインのテキスト記述のみを必要とする,最適転送理論に基づく言語誘導型MSDAアプローチ(LanDA)を提案する。
本稿では,LanDAがターゲットドメインとソースドメインの両方において,標準的な微調整およびアンサンブルアプローチよりも優れていることを示す。 Multi-Source Domain Adaptation (MSDA) aims to mitigate changes in data distribution when transferring knowledge from multiple labeled source domains to an unlabeled target domain. However, existing MSDA techniques assume target domain images are available, yet overlook image-rich semantic information. Consequently, an open question is whether MSDA can be guided solely by textual cues in the absence of target domain images. By employing a multimodal model with a joint image and language embedding space, we propose a novel language-guided MSDA approach, termed LanDA, based on optimal transfer theory, which facilitates the transfer of multiple source domains to a new target domain, requiring only a textual description of the target domain without needing even a single target domain image, while retaining task-relevant information. We present extensive experiments across different transfer scenarios using a suite of relevant benchmarks, demonstrating that LanDA outperforms standard fine-tuning and ensemble approaches in both target and source domains. | 翻訳日:2024-01-26 14:45:28 公開日:2024-01-25 |
# エネルギーに基づく概念ボトルネックモデル:統一予測、概念介入、条件解釈 Energy-Based Concept Bottleneck Models: Unifying Prediction, Concept Intervention, and Conditional Interpretations ( http://arxiv.org/abs/2401.14142v1 ) ライセンス: Link先を確認 | Xinyue Xu, Yi Qin, Lu Mi, Hao Wang, Xiaomeng Li | (参考訳) 概念ボトルネックモデル(cbms)のような既存の手法は、ブラックボックスディープラーニングモデルの概念に基づく解釈を提供することに成功している。
通常、入力された概念を予測し、予測された概念から最終クラスラベルを予測する。
However, (1) they often fail to capture the high-order, nonlinear interaction between concepts, e.g., correcting a predicted concept (e.g., "yellow breast") does not help correct highly correlated concepts (e.g., "yellow belly"), leading to suboptimal final accuracy; (2) they cannot naturally quantify the complex conditional dependencies between different concepts and class labels (e.g., for an image with the class label "Kentucky Warbler" and a concept "black bill", what is the probability that the model correctly predicts another concept "black crown"), therefore failing to provide deeper insight into how a black-box model works.
これらの制約に対応するために,我々はエネルギーに基づく概念ボトルネックモデル(ecbms)を提案する。
私たちのECBMはニューラルネットワークを使って、候補(インプット、概念、クラス)タプルの結合エネルギーを定義します。
このような統一インターフェースでは、予測、概念補正、条件依存量化は、異なるエネルギー関数を構成することによって生成される条件付き確率として表現される。
我々のECBMは既存のCBMの限界に対処し、より高い精度とよりリッチな概念解釈を提供する。
実験結果から,本手法は実世界のデータセットの最先端性よりも優れていることが示された。 Existing methods, such as concept bottleneck models (CBMs), have been successful in providing concept-based interpretations for black-box deep learning models. They typically work by predicting concepts given the input and then predicting the final class label given the predicted concepts. However, (1) they often fail to capture the high-order, nonlinear interaction between concepts, e.g., correcting a predicted concept (e.g., "yellow breast") does not help correct highly correlated concepts (e.g., "yellow belly"), leading to suboptimal final accuracy; (2) they cannot naturally quantify the complex conditional dependencies between different concepts and class labels (e.g., for an image with the class label "Kentucky Warbler" and a concept "black bill", what is the probability that the model correctly predicts another concept "black crown"), therefore failing to provide deeper insight into how a black-box model works. In response to these limitations, we propose Energy-based Concept Bottleneck Models (ECBMs). Our ECBMs use a set of neural networks to define the joint energy of candidate (input, concept, class) tuples. With such a unified interface, prediction, concept correction, and conditional dependency quantification are then represented as conditional probabilities, which are generated by composing different energy functions. Our ECBMs address both limitations of existing CBMs, providing higher accuracy and richer concept interpretations. Empirical results show that our approach outperforms the state-of-the-art on real-world datasets. | 翻訳日:2024-01-26 14:45:06 公開日:2024-01-25 |
# XRアプリケーションにおけるHMD除去のための表現認識ビデオインペインティング Expression-aware video inpainting for HMD removal in XR applications ( http://arxiv.org/abs/2401.14136v1 ) ライセンス: Link先を確認 | Fatemeh Ghorbani Lohesara, Karen Egiazarian, Sebastian Knorr | (参考訳) ヘッドマウントディスプレイ(HMD)は、拡張現実(XR)環境と仮想コンテンツを観察するために必要なデバイスとして機能する。
しかし、HMDは、ユーザの上面をブロックする外部記録技術に障害を与える。
この制限はソーシャルXRアプリケーション、特に遠隔会議に大きく影響し、顔の特徴と視線情報が没入感のあるユーザーエクスペリエンスを生み出す上で重要な役割を果たす。
本研究では,ジェネレーティブ・ディベサール・ネットワーク(GAN)に基づく,HMD除去のための表現認識型ビデオインペインティング(EVI-HRnet)のための新しいネットワークを提案する。
本モデルでは,ユーザの顔ランドマークと1つのオクルージョンフリー参照画像について,欠損情報を効果的に埋め込む。
フレームワークとそのコンポーネントは、参照フレームを使用したフレーム間のユーザのアイデンティティの保存を保証する。
入力された出力のリアリズムのレベルをさらに高めるため、感情保存のための新しい表情認識(fer)損失機能を導入する。
本研究は,被験者の表情とアイデンティティを保ちながら,顔映像からHMDを除去するフレームワークの顕著な能力を示すものである。
さらに、出力は、塗装されたフレームに沿って時間的一貫性を示す。
この軽量フレームワークはhmd閉塞除去のための実用的なアプローチを示し、追加のハードウェアを必要とせずに様々な協調型xrアプリケーションを強化する可能性を秘めている。 Head-mounted displays (HMDs) serve as indispensable devices for observing extended reality (XR) environments and virtual content. However, HMDs present an obstacle to external recording techniques as they block the upper face of the user. This limitation significantly affects social XR applications, specifically teleconferencing, where facial features and eye gaze information play a vital role in creating an immersive user experience. In this study, we propose a new network for expression-aware video inpainting for HMD removal (EVI-HRnet) based on generative adversarial networks (GANs). Our model effectively fills in missing information with regard to facial landmarks and a single occlusion-free reference image of the user. The framework and its components ensure the preservation of the user's identity across frames using the reference frame. To further improve the level of realism of the inpainted output, we introduce a novel facial expression recognition (FER) loss function for emotion preservation. Our results demonstrate the remarkable capability of the proposed framework to remove HMDs from facial videos while maintaining the subject's facial expression and identity. Moreover, the outputs exhibit temporal consistency along the inpainted frames. This lightweight framework presents a practical approach for HMD occlusion removal, with the potential to enhance various collaborative XR applications without the need for additional hardware. | 翻訳日:2024-01-26 14:44:43 公開日:2024-01-25 |
# 畳み込みニューラルネットワークはバイナリ保釈判断分類を実現できる Convolutional Neural Networks can achieve binary bail judgement classification ( http://arxiv.org/abs/2401.14135v1 ) ライセンス: Link先を確認 | Amit Barman, Devangan Roy, Debapriya Paul, Indranil Dutta, Shouvik Kumar Guha, Samir Karmakar, Sudip Kumar Naskar | (参考訳) インドの法律領域では、機械学習(ml)の実装が明らかに欠如しており、この領域で行われる研究は、通常、高等法裁判所のデータに基づいており、英語のデータを扱う。
インドの異なる地域言語から得られる下級裁判所やデータは、しばしば見過ごされる。
本稿では,ヒンディー語の法的文書のコーパス上に畳み込みニューラルネットワーク(cnn)アーキテクチャを展開する。
我々はCNNモデルの助けを借りて保釈予測タスクを行い、インドのウッタル・プラデーシュ州20地区のデータに基づいて、Kapoor et al. (2022)によって設定されたベンチマーク精度の改善となる93\%の全体的な精度を達成する。 There is an evident lack of implementation of Machine Learning (ML) in the legal domain in India, and any research that does take place in this domain is usually based on data from the higher courts of law and works with English data. The lower courts and data from the different regional languages of India are often overlooked. In this paper, we deploy a Convolutional Neural Network (CNN) architecture on a corpus of Hindi legal documents. We perform a bail Prediction task with the help of a CNN model and achieve an overall accuracy of 93\% which is an improvement on the benchmark accuracy, set by Kapoor et al. (2022), albeit in data from 20 districts of the Indian state of Uttar Pradesh. | 翻訳日:2024-01-26 14:44:22 公開日:2024-01-25 |
# 等変多様体ニューラルオードと微分不変量 Equivariant Manifold Neural ODEs and Differential Invariants ( http://arxiv.org/abs/2401.14131v1 ) ライセンス: Link先を確認 | Emma Andersdotter, Fredrik Ohlsson | (参考訳) 本稿では,同変多様体型ニューラル常微分方程式(NODE)の明らかな幾何学的枠組みを開発し,そのモデリング能力を対称データに対して解析する。
まず、滑らかな多様体上のリー群 $g$ の作用を考え、ベクトル場の同値性、対応するコーシー問題の対称性、関連するノードの同値性の間の同値性を確立する。
また、微分方程式の対称性に対するリー理論に基づいて、$G$ の作用の微分不変量の観点から、同変 NODE の新たな定式化を提案し、これは多様体 $M$ と対称性群 $G$ の両方に非依存な方法で同変ベクトル場の空間の効率的なパラメータ化を与える。
第二に、同変フローへの埋め込みを通して拡張多様体NODEを構築し、任意の経路連結な$M$上の同変微分同相の普遍近似であることを示す。
さらに,拡張NODEを幾何学的枠組みに組み込むことができ,高次微分不変量を用いてパラメータ化できることを示す。
最後に、異なるフィールドに対する$g$の誘導作用を$m$で考慮し、例えば連続正規化フローのような以前の作業を任意の幾何学における同変モデルに一般化する方法を示す。 In this paper we develop a manifestly geometric framework for equivariant manifold neural ordinary differential equations (NODEs), and use it to analyse their modelling capabilities for symmetric data. First, we consider the action of a Lie group $G$ on a smooth manifold $M$ and establish the equivalence between equivariance of vector fields, symmetries of the corresponding Cauchy problems, and equivariance of the associated NODEs. We also propose a novel formulation of the equivariant NODEs in terms of the differential invariants of the action of $G$ on $M$, based on Lie theory for symmetries of differential equations, which provides an efficient parameterisation of the space of equivariant vector fields in a way that is agnostic to both the manifold $M$ and the symmetry group $G$. Second, we construct augmented manifold NODEs, through embeddings into equivariant flows, and show that they are universal approximators of equivariant diffeomorphisms on any path-connected $M$. Furthermore, we show that the augmented NODEs can be incorporated in the geometric framework and parameterised using higher order differential invariants. Finally, we consider the induced action of $G$ on different fields on $M$ and show how it can be used to generalise previous work, on, e.g., continuous normalizing flows, to equivariant models in any geometry. | 翻訳日:2024-01-26 14:44:07 公開日:2024-01-25 |
# アルツハイマー病の3次元mri画像に対する注意に基づく効率的な分類 Attention-based Efficient Classification for 3D MRI Image of Alzheimer's Disease ( http://arxiv.org/abs/2401.14130v1 ) ライセンス: Link先を確認 | Yihao Lin, Ximeng Li, Yan Zhang, Jinshan Tang | (参考訳) アルツハイマー診断(AD)の早期診断は、その微妙で複雑な臨床症状のために難しい課題である。
画像認識技術を用いた深層学習支援医療診断がこの分野で重要な研究課題となっている。
この特徴は解剖学的脳構造の主要な変化を正確に捉える必要がある。
しかし,ディープラーニング学習による特徴抽出には時間を要する。
本研究では,畳み込みニューラルネットワークを用いた新しいアルツハイマー病検出モデルを提案する。
このモデルは、トレーニング済みのresnetネットワークをバックボーンとして使用し、3d医療画像と注意機構のためのポストフュージョンアルゴリズムを組み込んでいる。
実験結果から,2次元融合アルゴリズムはモデルのトレーニングコストを効果的に改善することが示唆された。
また,画像中の重要な領域を正確に重み付けし,モデルの診断精度をさらに向上させる注意機構を導入した。 Early diagnosis of Alzheimer Diagnostics (AD) is a challenging task due to its subtle and complex clinical symptoms. Deep learning-assisted medical diagnosis using image recognition techniques has become an important research topic in this field. The features have to accurately capture main variations of anatomical brain structures. However, time-consuming is expensive for feature extraction by deep learning training. This study proposes a novel Alzheimer's disease detection model based on Convolutional Neural Networks. The model utilizes a pre-trained ResNet network as the backbone, incorporating post-fusion algorithm for 3D medical images and attention mechanisms. The experimental results indicate that the employed 2D fusion algorithm effectively improves the model's training expense. And the introduced attention mechanism accurately weights important regions in images, further enhancing the model's diagnostic accuracy. | 翻訳日:2024-01-26 14:43:43 公開日:2024-01-25 |
# 人間のメッシュ回復のためのデュアルネットワークによるトレーニングへの模範的最適化の導入 Incorporating Exemplar Optimization into Training with Dual Networks for Human Mesh Recovery ( http://arxiv.org/abs/2401.14121v1 ) ライセンス: Link先を確認 | Yongwei Nie, Mingxian Fan, Chengjiang Long, Qing Zhang, Jian Zhu, Xuemiao Xu | (参考訳) 単一画像からの新たな最適化に基づくヒューマンメッシュリカバリ手法を提案する。
従来の手法では、事前訓練された回帰ネットワークを最適化し、2次元の再投射損失を最小限に抑える。
これは、テスト時の `exemplar optimization'' が事前学習プロセスとあまりにも弱い関係にあり、模範最適化損失関数がトレーニング損失関数と異なるためである。
1) 模範最適化を訓練段階に組み込む。
トレーニング中は,まず模範最適化を行い,その後,訓練時間最適化を行う。
模範最適化は間違った方向に進むが、その後の訓練最適化はずれを修正するのに役立つ。
トレーニングにかかわるexemplar optimizationは、その動作をトレーニングデータに適応させることを学習し、exemplarのテストの汎用性を取得する。
2) 主回帰ネットワークと補助ネットワークから構成され, トレーニング損失関数と同一の形式で最適な最適化損失関数を定式化できる, 新たなトレーニングパラダイムを伝達するためのデュアルネットワークアーキテクチャを考案する。
これにより、exemplarとトレーニング最適化の互換性がさらに向上する。
実験により,新しい学習手法が最先端の手法よりも優れていることを示す。 We propose a novel optimization-based human mesh recovery method from a single image. Given a test exemplar, previous approaches optimize the pre-trained regression network to minimize the 2D re-projection loss, which however suffer from over-/under-fitting problems. This is because the ``exemplar optimization'' at testing time has too weak relation to the pre-training process, and the exemplar optimization loss function is different from the training loss function. (1) We incorporate exemplar optimization into the training stage. During training, our method first executes exemplar optimization and subsequently proceeds with training-time optimization. The exemplar optimization may run into a wrong direction, while the subsequent training optimization serves to correct the deviation. Involved in training, the exemplar optimization learns to adapt its behavior to training data, thereby acquires generalibility to test exemplars. (2) We devise a dual-network architecture to convey the novel training paradigm, which is composed of a main regression network and an auxiliary network, in which we can formulate the exemplar optimization loss function in the same form as the training loss function. This further enhances the compatibility between the exemplar and training optimizations. Experiments demonstrate that our exemplar optimization after the novel training scheme significantly outperforms state-of-the-art approaches. | 翻訳日:2024-01-26 14:43:31 公開日:2024-01-25 |
# MIFI:ルースト3次元抽出ドライバ動作認識のためのマルチカメラ機能統合 MIFI: MultI-camera Feature Integration for Roust 3D Distracted Driver Activity Recognition ( http://arxiv.org/abs/2401.14115v1 ) ライセンス: Link先を確認 | Jian Kuang and Wenjing Li and Fang Li and Jun Zhang and Zhongcheng Wu | (参考訳) 抽出された運転行動認識は、知的輸送システムにおいて特に有益であるリスク回避において重要な役割を果たす。
しかし、既存の手法のほとんどは1つの視点からの映像のみを使用しており、難易度の低い問題は無視されている。
本研究では、異なるカメラビューからデータを共同でモデル化し、その難易度に基づいてサンプルを明示的に重み付けすることで、3次元の注意をそらした運転者行動認識のための新しいMultI-camera Feature Integration(MIFI)手法を提案する。
1)単純だが効果的なマルチカメラ機能統合フレームワークを提案し、3種類の機能融合技術を提供する。
2) 運転者行動認識における難易度不整合問題に対処するため, 簡便でハードなサンプルを共同学習できる例を例に, 周期学習法を提案する。
3MDADデータセットによる実験結果から,提案したMIFIはシングルビューモデルと比較して連続的に性能を向上できることが示された。 Distracted driver activity recognition plays a critical role in risk aversion-particularly beneficial in intelligent transportation systems. However, most existing methods make use of only the video from a single view and the difficulty-inconsistent issue is neglected. Different from them, in this work, we propose a novel MultI-camera Feature Integration (MIFI) approach for 3D distracted driver activity recognition by jointly modeling the data from different camera views and explicitly re-weighting examples based on their degree of difficulty. Our contributions are two-fold: (1) We propose a simple but effective multi-camera feature integration framework and provide three types of feature fusion techniques. (2) To address the difficulty-inconsistent problem in distracted driver activity recognition, a periodic learning method, named example re-weighting that can jointly learn the easy and hard samples, is presented. The experimental results on the 3MDAD dataset demonstrate that the proposed MIFI can consistently boost performance compared to single-view models. | 翻訳日:2024-01-26 14:43:10 公開日:2024-01-25 |
# 階層的トピックモデリングの親和性, 合理性, 多様性について On the Affinity, Rationality, and Diversity of Hierarchical Topic Modeling ( http://arxiv.org/abs/2401.14113v1 ) ライセンス: Link先を確認 | Xiaobao Wu, Fengjun Pan, Thong Nguyen, Yichao Feng, Chaoqun Liu, Cong-Duy Nguyen, Anh Tuan Luu | (参考訳) 階層的トピックモデリングは、コーパスから潜在トピックを発見し、それらを階層構造に整理し、望ましい意味的粒度を持つドキュメントを理解することを目的としている。
しかしながら、既存の作業は、低親和性、合理性、多様性のトピック階層を生み出すことに苦労しており、ドキュメント理解を妨げている。
本稿では,これらの課題を克服するために,交通計画と文脈対応階層的トピックモデル(TraCo)を提案する。
初期の単純なトピック依存ではなく、トランスポートプラン依存手法を提案する。
依存関係を制約し、スパーシティとバランスを確保すると同時に、トピック階層の構築も規則化する。
これにより階層の親和性と多様性が向上する。
さらに,コンテキスト認識型アンタングルデコーダを提案する。
以前は絡み合ったデコードではなく、異なるレベルのトピックに異なるセマンティクスの粒度を分散する。
これは階層の合理性を促進する。
ベンチマークデータセットを用いた実験により,提案手法は最先端のベースラインを超越し,下流タスクの性能向上による階層型トピックモデリングの親和性,合理性,多様性を効果的に向上することが示された。 Hierarchical topic modeling aims to discover latent topics from a corpus and organize them into a hierarchy to understand documents with desirable semantic granularity. However, existing work struggles with producing topic hierarchies of low affinity, rationality, and diversity, which hampers document understanding. To overcome these challenges, we in this paper propose Transport Plan and Context-aware Hierarchical Topic Model (TraCo). Instead of early simple topic dependencies, we propose a transport plan dependency method. It constrains dependencies to ensure their sparsity and balance, and also regularizes topic hierarchy building with them. This improves affinity and diversity of hierarchies. We further propose a context-aware disentangled decoder. Rather than previously entangled decoding, it distributes different semantic granularity to topics at different levels by disentangled decoding. This facilitates the rationality of hierarchies. Experiments on benchmark datasets demonstrate that our method surpasses state-of-the-art baselines, effectively improving the affinity, rationality, and diversity of hierarchical topic modeling with better performance on downstream tasks. | 翻訳日:2024-01-26 14:42:45 公開日:2024-01-25 |
# FP6-LLM:FP6-Centric Algorithm-System Co-Designによる大規模言語モデルの効率的な実行 FP6-LLM: Efficiently Serving Large Language Models Through FP6-Centric Algorithm-System Co-Design ( http://arxiv.org/abs/2401.14112v1 ) ライセンス: Link先を確認 | Haojun Xia, Zhen Zheng, Xiaoxia Wu, Shiyang Chen, Zhewei Yao, Stephen Youn, Arash Bakhtiari, Michael Wyatt, Donglin Zhuang, Zhongzhu Zhou, Olatunji Ruwase, Yuxiong He, Shuaiwen Leon Song | (参考訳) 6ビット量子化(FP6)は、大規模言語モデル(LLM)のサイズを効果的に削減し、様々なアプリケーションにわたってモデル品質を一定に保つ。
しかし、既存のシステムは、FP6量子化のためのTensor Coreサポートを提供しておらず、LLM推論における実用的なパフォーマンス向上に苦慮している。
gpu上でfp6量子化をサポートするのは,(1)不規則なビット幅を持つモデル重みのメモリアクセス,(2)重み脱量子化のランタイムオーバヘッドが高いためである。
これらの問題に対処するために,様々な量子化ビット幅の浮動小数点重みを統一したTensor Coreをサポートする,最初のフルスタックGPUカーネル設計手法であるTC-FPxを提案する。
我々は,TC-FPxカーネルを既存の推論システムに統合し,量子化LSM推論のための新しいエンドツーエンドサポート(FP6-LLM)を提供する。
実験の結果、FP6-LLMは1つのGPUだけでLLaMA-70bの推論を可能にし、FP16ベースラインよりも1.69x-2.65倍高い正規化推論スループットを実現している。
ソースコードは近く公開される予定だ。 Six-bit quantization (FP6) can effectively reduce the size of large language models (LLMs) and preserve the model quality consistently across varied applications. However, existing systems do not provide Tensor Core support for FP6 quantization and struggle to achieve practical performance improvements during LLM inference. It is challenging to support FP6 quantization on GPUs due to (1) unfriendly memory access of model weights with irregular bit-width and (2) high runtime overhead of weight de-quantization. To address these problems, we propose TC-FPx, the first full-stack GPU kernel design scheme with unified Tensor Core support of float-point weights for various quantization bit-width. We integrate TC-FPx kernel into an existing inference system, providing new end-to-end support (called FP6-LLM) for quantized LLM inference, where better trade-offs between inference cost and model quality are achieved. Experiments show that FP6-LLM enables the inference of LLaMA-70b using only a single GPU, achieving 1.69x-2.65x higher normalized inference throughput than the FP16 baseline. The source code will be publicly available soon. | 翻訳日:2024-01-26 14:42:26 公開日:2024-01-25 |
# シーングラフから画像合成:拡散モデルにおけるCLIP誘導とグラフ条件の統合 Scene Graph to Image Synthesis: Integrating CLIP Guidance with Graph Conditioning in Diffusion Models ( http://arxiv.org/abs/2401.14111v1 ) ライセンス: Link先を確認 | Rameshwar Mishra, A V Subramanyam | (参考訳) 生成モデルの進歩は、特定の構造ガイドラインに固執しながら画像を生成することに大きな関心を惹き起こした。
シーングラフから画像生成は、与えられたシーングラフと一致する画像を生成するタスクの1つです。
しかし、視覚的なシーンの複雑さは、シーングラフ内の特定の関係に基づいてオブジェクトを正確に整列させることに挑戦する。
既存の手法では、まずシーンレイアウトを予測し、敵のトレーニングを用いてこれらのレイアウトから画像を生成する。
本研究では,シーングラフから画像を生成する新しい手法を導入し,中間レイアウトの予測を不要にする。
トレーニング済みのテキスト-画像拡散モデルとCLIPガイダンスを利用して、グラフ知識を画像に変換する。
そこで我々はまず,GANベースのトレーニングを用いて,グラフ特徴と対応する画像のCLIP特徴とを一致させるために,グラフエンコーダを事前訓練する。
さらに、与えられたシーングラフに存在するオブジェクトラベルのクリップ埋め込みとグラフの特徴を融合して、グラフ一貫性のあるクリップガイド条件付け信号を生成する。
条件入力では、オブジェクト埋め込みは画像の粗い構造を提供し、グラフ特徴はオブジェクト間の関係に基づいた構造的アライメントを提供する。
最後に,再構成とクリップアライメント損失を伴うグラフ整合コンディショニング信号を用いて,事前学習した拡散モデルを微調整する。
精巧な実験により,coco-stuff と visual genome dataset の標準ベンチマークで既存の手法を上回った。 Advancements in generative models have sparked significant interest in generating images while adhering to specific structural guidelines. Scene graph to image generation is one such task of generating images which are consistent with the given scene graph. However, the complexity of visual scenes poses a challenge in accurately aligning objects based on specified relations within the scene graph. Existing methods approach this task by first predicting a scene layout and generating images from these layouts using adversarial training. In this work, we introduce a novel approach to generate images from scene graphs which eliminates the need of predicting intermediate layouts. We leverage pre-trained text-to-image diffusion models and CLIP guidance to translate graph knowledge into images. Towards this, we first pre-train our graph encoder to align graph features with CLIP features of corresponding images using a GAN based training. Further, we fuse the graph features with CLIP embedding of object labels present in the given scene graph to create a graph consistent CLIP guided conditioning signal. In the conditioning input, object embeddings provide coarse structure of the image and graph features provide structural alignment based on relationships among objects. Finally, we fine tune a pre-trained diffusion model with the graph consistent conditioning signal with reconstruction and CLIP alignment loss. Elaborate experiments reveal that our method outperforms existing methods on standard benchmarks of COCO-stuff and Visual Genome dataset. | 翻訳日:2024-01-26 14:42:01 公開日:2024-01-25 |
# 低ビット幅集積器を用いた深部ネットワークのチーパ推論に向けて Towards Cheaper Inference in Deep Networks with Lower Bit-Width Accumulators ( http://arxiv.org/abs/2401.14110v1 ) ライセンス: Link先を確認 | Yaniv Blumenfeld, Itay Hubara, Daniel Soudry | (参考訳) ディープニューラルネットワーク(DNN)の量子化に関する研究の大部分は、高レベルのフレームワーク(ウェイト、アクティベーション、勾配など)で見えるテンソルの精度の低減に重点を置いている。
しかし、現在のハードウェアは高い精度のコア操作に依存している。
最も重要なものは蓄積品の運用である。
この高精度累積演算は、徐々に主要な計算ボトルネックになりつつある。
これは、これまで低精度アキュムレータの使用が性能を著しく低下させたためである。
そこで本研究では,より安価で12ドルビットのアキュムレータを初めて利用し,精度を低下させることなく,高精度なdnnを訓練し,微調整する簡単な手法を提案する。
最後に,蓄積精度をさらに下げるにつれて,粒度勾配近似を用いることでDNNの精度が向上することを示した。 The majority of the research on the quantization of Deep Neural Networks (DNNs) is focused on reducing the precision of tensors visible by high-level frameworks (e.g., weights, activations, and gradients). However, current hardware still relies on high-accuracy core operations. Most significant is the operation of accumulating products. This high-precision accumulation operation is gradually becoming the main computational bottleneck. This is because, so far, the usage of low-precision accumulators led to a significant degradation in performance. In this work, we present a simple method to train and fine-tune high-end DNNs, to allow, for the first time, utilization of cheaper, $12$-bits accumulators, with no significant degradation in accuracy. Lastly, we show that as we decrease the accumulation precision further, using fine-grained gradient approximations can improve the DNN accuracy. | 翻訳日:2024-01-26 14:41:38 公開日:2024-01-25 |
# コンテキスト対応ペルソナリファインメントによる長期会話におけるコモンセンス強化メモリ構築と管理 Commonsense-augmented Memory Construction and Management in Long-term Conversations via Context-aware Persona Refinement ( http://arxiv.org/abs/2401.14215v1 ) ライセンス: Link先を確認 | Hana Kim, Kai Tzu-iunn Ong, Seoyeon Kim, Dongha Lee, Jinyoung Yeo | (参考訳) 話者のペルソナの記憶と活用は、長期的な会話における応答生成の一般的なプラクティスである。
しかし、人間によるデータセットは多くの場合、応答品質を阻害する非形成的なパーソナライズ文を提供する。
本稿では,コモンセンスに基づくペルソナ拡張を利用して,このような課題を長期会話で解決する新しい枠組みを提案する。
先行研究は、他と矛盾するペルソナを作らないことに焦点を当てる一方で、コンテクストの背景を設計戦略で洗練することにより、矛盾するペルソナをリッチな話者情報を含む文に変換することに重点を置いている。
マルチセッション環境におけるペルソナ拡張の先駆者として,本フレームワークは人間のようなペルソナ改良による応答生成を促進する。
私たちの研究の補足ビデオはhttps://caffeine-15bbf.web.app/で閲覧できます。 Memorizing and utilizing speakers' personas is a common practice for response generation in long-term conversations. Yet, human-authored datasets often provide uninformative persona sentences that hinder response quality. This paper presents a novel framework that leverages commonsense-based persona expansion to address such issues in long-term conversation. While prior work focuses on not producing personas that contradict others, we focus on transforming contradictory personas into sentences that contain rich speaker information, by refining them based on their contextual backgrounds with designed strategies. As the pioneer of persona expansion in multi-session settings, our framework facilitates better response generation via human-like persona refinement. The supplementary video of our work is available at https://caffeine-15bbf.web.app/. | 翻訳日:2024-01-26 14:34:57 公開日:2024-01-25 |
# 大規模言語モデルが時空間データを理解するには How Can Large Language Models Understand Spatial-Temporal Data? ( http://arxiv.org/abs/2401.14192v1 ) ライセンス: Link先を確認 | Lei Liu, Shuo Yu, Runze Wang, Zhenxun Ma, Yanming Shen | (参考訳) 大規模言語モデル(LLM)が自然言語処理やコンピュータビジョンなどのタスクを支配しているが、時空間予測にそのパワーを活用することは依然として困難である。
シーケンシャルテキストと複雑な空間-時間データの差は、この応用を妨げる。
この問題に対処するために,時空間予測にLLMを活用する革新的なアプローチSTG-LLMを提案する。
提案することで、データのミスマッチに取り組む。
1 STG-Tokenizer: この時空間グラフトークンは、複雑なグラフデータを空間的および時間的関係を捉える簡潔なトークンに変換する。
2) STG-Adapter: この最小限のアダプタは、線形符号化層と復号層で構成され、トークン化されたデータとLLMの理解のギャップを埋める。
少数のパラメータのみを微調整することで、LLMの本来の自然言語理解能力を保ちながら、STG-Tokenizerによって生成されるトークンの意味を効果的に把握することができる。
多様な時空間ベンチマークデータセットに対する大規模な実験により、STG-LLMは時空間予測のためのLLMポテンシャルを解き放つことに成功した。
注目すべきは、本手法は専用のSOTA法と同等の競合性能を実現することである。 While Large Language Models (LLMs) dominate tasks like natural language processing and computer vision, harnessing their power for spatial-temporal forecasting remains challenging. The disparity between sequential text and complex spatial-temporal data hinders this application. To address this issue, this paper introduces STG-LLM, an innovative approach empowering LLMs for spatial-temporal forecasting. We tackle the data mismatch by proposing: 1) STG-Tokenizer: This spatial-temporal graph tokenizer transforms intricate graph data into concise tokens capturing both spatial and temporal relationships; 2) STG-Adapter: This minimalistic adapter, consisting of linear encoding and decoding layers, bridges the gap between tokenized data and LLM comprehension. By fine-tuning only a small set of parameters, it can effectively grasp the semantics of tokens generated by STG-Tokenizer, while preserving the original natural language understanding capabilities of LLMs. Extensive experiments on diverse spatial-temporal benchmark datasets show that STG-LLM successfully unlocks LLM potential for spatial-temporal forecasting. Remarkably, our approach achieves competitive performance on par with dedicated SOTA methods. | 翻訳日:2024-01-26 14:34:42 公開日:2024-01-25 |
# TDFNet:トップダウン融合を用いた高能率音声・音声分離モデル TDFNet: An Efficient Audio-Visual Speech Separation Model with Top-down Fusion ( http://arxiv.org/abs/2401.14185v1 ) ライセンス: Link先を確認 | Samuel Pegg, Kai Li, Xiaolin Hu | (参考訳) 近年, 音声認識, ダイアリゼーション, シーン分析, 補助技術など様々な分野に応用される可能性から, 音声と視覚の分離が注目されている。
軽量な音声-視覚音声分離ネットワークの設計は低遅延アプリケーションでは重要であるが、既存の手法では高い計算コストとより多くのパラメータを必要とすることが多い。
本稿では、音声のみの音声分離手法であるTDANetのアーキテクチャを基盤として、音声-視覚分離のための最先端(SOTA)モデルであるTop-Down-Fusion Net(TDFNet)を提案する。
TDANetは、TDFNet内の聴覚および視覚ネットワークのアーキテクチャ基盤として機能し、パラメータが少ない効率的なモデルを提供する。
LRS2-2Mixデータセットでは,従来のSOTAメソッドであるCTCNetと比較して,すべてのパフォーマンス指標に対して最大10倍のパフォーマンス向上を実現している。
注目すべきは、これらの結果はより少ないパラメータとCTCNetの乗算累積演算(MAC)の28.5%で達成されることだ。
本手法は,音声・視覚領域における音声分離の課題に対する高効率かつ効率的な解法であり,視覚情報の最適活用に大きく貢献する。 Audio-visual speech separation has gained significant traction in recent years due to its potential applications in various fields such as speech recognition, diarization, scene analysis and assistive technologies. Designing a lightweight audio-visual speech separation network is important for low-latency applications, but existing methods often require higher computational costs and more parameters to achieve better separation performance. In this paper, we present an audio-visual speech separation model called Top-Down-Fusion Net (TDFNet), a state-of-the-art (SOTA) model for audio-visual speech separation, which builds upon the architecture of TDANet, an audio-only speech separation method. TDANet serves as the architectural foundation for the auditory and visual networks within TDFNet, offering an efficient model with fewer parameters. On the LRS2-2Mix dataset, TDFNet achieves a performance increase of up to 10\% across all performance metrics compared with the previous SOTA method CTCNet. Remarkably, these results are achieved using fewer parameters and only 28\% of the multiply-accumulate operations (MACs) of CTCNet. In essence, our method presents a highly effective and efficient solution to the challenges of speech separation within the audio-visual domain, making significant strides in harnessing visual information optimally. | 翻訳日:2024-01-26 14:34:19 公開日:2024-01-25 |
# チャネル符号化信頼性向上のためのフレンドリーアタック Friendly Attacks to Improve Channel Coding Reliability ( http://arxiv.org/abs/2401.14184v1 ) ライセンス: Link先を確認 | Anastasiia Kurmukova and Deniz Gunduz | (参考訳) 本稿では,誤り訂正チャネル符号の性能向上を目的とした「フレンドリーアタック」と呼ばれる新しい手法を提案する。
敵攻撃の概念に触発された本手法は,ニューラルネットワーク入力にわずかな摂動を導入するという考え方を活用し,ネットワークの性能に大きな影響を与える。
伝送前の固定点変調符号語に小さな摂動を導入することにより、入力電力制約に違反することなくデコーダの性能を効果的に向上する。
摂動設計は修正反復高速勾配法によって達成される。
本研究では,計算勾配に適した各種デコーダアーキテクチャについて検討した。
具体的には、LDPC符号に対する信念伝搬(BP)、極符号に対する誤り訂正符号変換器、BPおよびニューラルBP(NBP)、畳み込み符号に対するニューラルBCJRについて考察する。
提案手法は,異なるチャネル,変調,コード,デコーダ間の信頼性を向上させることができることを示す。
この方法では,送信されたコードワードを適切に修正することで,レガシレシーバとの通信の信頼性を向上させることができる。 This paper introduces a novel approach called "friendly attack" aimed at enhancing the performance of error correction channel codes. Inspired by the concept of adversarial attacks, our method leverages the idea of introducing slight perturbations to the neural network input, resulting in a substantial impact on the network's performance. By introducing small perturbations to fixed-point modulated codewords before transmission, we effectively improve the decoder's performance without violating the input power constraint. The perturbation design is accomplished by a modified iterative fast gradient method. This study investigates various decoder architectures suitable for computing gradients to obtain the desired perturbations. Specifically, we consider belief propagation (BP) for LDPC codes; the error correcting code transformer, BP and neural BP (NBP) for polar codes, and neural BCJR for convolutional codes. We demonstrate that the proposed friendly attack method can improve the reliability across different channels, modulations, codes, and decoders. This method allows us to increase the reliability of communication with a legacy receiver by simply modifying the transmitted codeword appropriately. | 翻訳日:2024-01-26 14:33:56 公開日:2024-01-25 |
# 相関量子系の変分解としてのディープニューラルネットワーク Deep Neural Networks as Variational Solutions for Correlated Open Quantum Systems ( http://arxiv.org/abs/2401.14179v1 ) ライセンス: Link先を確認 | Johannes Mellak, Enrico Arrigoni, and Wolfgang von der Linden | (参考訳) 本研究では, ディープニューラルネットワークを用いて, 相関を持つ開量子多体系に対する非平衡定常解を求める。
量子状態の(混合された)より強力な表現を求める探索によって、我々は単純な原始的畳み込みニューラルネットワークを設計し、より強力なモデルで直接密度行列をパラメータ化することで、より良い変分アザッツ関数が得られ、制限されたボルツマンマシンに基づくニューラルネットワーク演算子によって到達された結果を改善することを示す。
ここでは、正の半定義密度行列に対する明示的な制限を諦める。
しかし、これはパラメータを最適化することで良い近似に再び満たされる。
このアプローチの大きな利点は、特定の物理的特性に合わせてカスタマイズ可能な、より複雑なネットワークアーキテクチャを探求する可能性を開くことである。
翻訳不変性を無力に実行し、より少ないパラメータでより良い結果を得る方法を示す。
本稿では,1次元横場イジングモデルと2次元散逸ハイゼンベルクモデルについて,厳密な値と比較した結果を示す。 In this work we apply deep neural networks to find the non-equilibrium steady state solution to correlated open quantum many-body systems. Motivated by the ongoing search to find more powerful representations of (mixed) quantum states, we design a simple prototypical convolutional neural network and show that parametrizing the density matrix directly with more powerful models can yield better variational ansatz functions and improve upon results reached by neural density operator based on the restricted Boltzmann machine. Hereby we give up the explicit restriction to positive semi-definite density matrices. However, this is fulfilled again to good approximation by optimizing the parameters. The great advantage of this approach is that it opens up the possibility of exploring more complex network architectures that can be tailored to specific physical properties. We show how translation invariance can be enforced effortlessly and reach better results with fewer parameters. We present results for the dissipative one-dimensional transverse-field Ising model and a two-dimensional dissipative Heisenberg model compared to exact values. | 翻訳日:2024-01-26 14:33:40 公開日:2024-01-25 |
# copilotの改善:copilotが生成するpythonコードの臭いに対処する Copilot Refinement: Addressing Code Smells in Copilot-Generated Python Code ( http://arxiv.org/abs/2401.14176v1 ) ライセンス: Link先を確認 | Beiqi Zhang, Peng Liang, Qiong Feng, Yujia Fu, Zengyang Li | (参考訳) 最もポピュラーな動的言語の1つとして、Pythonはコードの臭いがあるときに可読性と保守性が低下する。
大規模言語モデルの最近の進歩は、コード生成とリファクタリングの両方のためのAI対応ツールへの関心が高まっている。
GitHub Copilotは、広く使われているツールのひとつだ。
2023年9月にリリースされたCopilot Chatは、自然言語によるコーディングを容易にするインタラクティブツールとして機能する。
しかし、copilotが生成するpythonコードのコードの臭いと、copilotが生成するコードの臭いを修正する能力を理解することには、限られた注意が払われている。
この目的のために、copilotが生成するpythonコードの102のコードの臭いからなるデータセットを構築しました。
目的は、まず、Copilotの生成したPythonコードにおけるコードの臭いの発生を調べ、次に異なるプロンプトを使ってこれらのコードの臭いを修正する際のCopilotの有効性を評価することである。
結果は、Copilotの生成したPythonコードで10種類のPythonの臭いを8つ検出できることを示しており、中でもMultiply-Nested Containerが最も一般的である。
これらのコードの臭いに対して、Copilot Chatは87.1%の最高修正率を獲得し、Copilot自体が生成したPythonコードの臭いを修正することを約束している。
さらに、これらの臭いを修正するためのコピロットチャットの有効性は、より詳細なプロンプトを提供することで改善できる。
しかし、これらの臭いを修正するためにCopilot Chatを使用すると、新しいコードの臭いが発生するかもしれない。 As one of the most popular dynamic languages, Python experiences a decrease in readability and maintainability when code smells are present. Recent advancements in Large Language Models have sparked growing interest in AI-enabled tools for both code generation and refactoring. GitHub Copilot is one such tool that has gained widespread usage. Copilot Chat, released on September 2023, functions as an interactive tool aims at facilitating natural language-powered coding. However, limited attention has been given to understanding code smells in Copilot-generated Python code and Copilot's ability to fix the code smells it generates. To this end, we built a dataset comprising 102 code smells in Copilot-generated Python code. Our aim is to first explore the occurrence of code smells in Copilot-generated Python code and then evaluate the effectiveness of Copilot in fixing these code smells employing different prompts. The results show that 8 out of 10 types of Python smells can be detected in Copilot-generated Python code, among which Multiply-Nested Container is the most common one. For these code smells, Copilot Chat achieves a highest fixing rate of 87.1%, showing promise in fixing Python code smells generated by Copilot itself. Besides, the effectiveness of Copilot Chat in fixing these smells can be improved with the provision of more detailed prompts. However, using Copilot Chat to fix these smells might introduce new code smells. | 翻訳日:2024-01-26 14:33:20 公開日:2024-01-25 |
# 階層型タスクネットワーク計画におけるトラクタビリティの境界 The Boundaries of Tractability in Hierarchical Task Network Planning ( http://arxiv.org/abs/2401.14174v1 ) ライセンス: Link先を確認 | Cornelius Brand, Robert Ganian, Fionn Mc Inerney, Simon Wietheger | (参考訳) 階層的タスクネットワーク計画の文脈における3つの古典的問題に対する複雑性理論的境界について検討する: 提供された計画の検証、実行可能計画の有無、与えられた状態が何らかの計画によって達成できるかどうか。
有限部分順序幅の原始的タスクネットワーク上では多項式時間で3つの問題を解くことができ(およびその一般化)、後者の2つの問題については、状態空間に証明可能な制限の下でのみ成立する。
次に,アルゴリズムによるメタ理論とそれに対応する下限を求めることで,多項式時間解法が原始的ネットワークから一般タスクネットワークへ持ち上げられるような厳密な条件を同定する。
Finally, we enrich our investigation by analyzing the parameterized complexity of the three considered problems, and show that (1) fixed-parameter tractability for all three problems can be achieved by replacing the partial order width with the vertex cover number of the network as the parameter, and (2) other classical graph-theoretic parameters of the network (including treewidth, treedepth, and the aforementioned partial order width) do not yield fixed-parameter tractability for any of the three problems. We study the complexity-theoretic boundaries of tractability for three classical problems in the context of Hierarchical Task Network Planning: the validation of a provided plan, whether an executable plan exists, and whether a given state can be reached by some plan. We show that all three problems can be solved in polynomial time on primitive task networks of constant partial order width (and a generalization thereof), whereas for the latter two problems this holds only under a provably necessary restriction to the state space. Next, we obtain an algorithmic meta-theorem along with corresponding lower bounds to identify tight conditions under which general polynomial-time solvability results can be lifted from primitive to general task networks. Finally, we enrich our investigation by analyzing the parameterized complexity of the three considered problems, and show that (1) fixed-parameter tractability for all three problems can be achieved by replacing the partial order width with the vertex cover number of the network as the parameter, and (2) other classical graph-theoretic parameters of the network (including treewidth, treedepth, and the aforementioned partial order width) do not yield fixed-parameter tractability for any of the three problems. | 翻訳日:2024-01-26 14:32:59 公開日:2024-01-25 |
# マルチパラメトリックMRIによる脳腫瘍の低酸素化予測 Predicting Hypoxia in Brain Tumors from Multiparametric MRI ( http://arxiv.org/abs/2401.14171v1 ) ライセンス: Link先を確認 | Daniele Perlo and Georgia Kanli and Selma Boudissa and Olivier Keunen | (参考訳) 本研究では,マルチパラメトリック磁気共鳴画像(MRI)を用いた脳腫瘍の低酸素化予測法を提案する。
低酸素症は低酸素血症を特徴とし、予後不良を伴う悪性脳腫瘍の一般的な特徴である。
フルオロミソニダゾールポジトロントモグラフィ(FMISO PET)は、生体内で低酸素症を検出するための確立された方法であるが、高価で広く利用できない。
本研究は、FMISO PET信号の予測に、よりアクセシブルで費用対効果の高い画像モダリティであるMRIを用いることを提案する。
脳腫瘍患者からのmriとfmiso pet画像の対を含むリソースであるaclin 6684データセットでトレーニングされた深層学習モデル(dl)について検討した。
訓練されたモデルはMRIの特徴とFMISO PET信号との複雑な関係を効果的に学習し、MRIスキャンだけで低酸素の予測を可能にする。
その結果、予測されたFMISO PET信号と実際のFMISO PET信号の相関が強く、PSNRスコアが29.6以上、SSIMスコアが0.94以上となり、MRIが脳腫瘍の低酸素予知の候補となることが確認された。
このアプローチは、臨床的設定における低酸素検出のアクセシビリティを大幅に向上させ、よりタイムリーで標的とした治療の可能性を高める。 This research paper presents a novel approach to the prediction of hypoxia in brain tumors, using multi-parametric Magnetic Resonance Imaging (MRI). Hypoxia, a condition characterized by low oxygen levels, is a common feature of malignant brain tumors associated with poor prognosis. Fluoromisonidazole Positron Emission Tomography (FMISO PET) is a well-established method for detecting hypoxia in vivo, but it is expensive and not widely available. Our study proposes the use of MRI, a more accessible and cost-effective imaging modality, to predict FMISO PET signals. We investigate deep learning models (DL) trained on the ACRIN 6684 dataset, a resource that contains paired MRI and FMISO PET images from patients with brain tumors. Our trained models effectively learn the complex relationships between the MRI features and the corresponding FMISO PET signals, thereby enabling the prediction of hypoxia from MRI scans alone. The results show a strong correlation between the predicted and actual FMISO PET signals, with an overall PSNR score above 29.6 and a SSIM score greater than 0.94, confirming MRI as a promising option for hypoxia prediction in brain tumors. This approach could significantly improve the accessibility of hypoxia detection in clinical settings, with the potential for more timely and targeted treatments. | 翻訳日:2024-01-26 14:32:39 公開日:2024-01-25 |
# vivim:医療用ビデオオブジェクトセグメンテーションのためのビデオビジョンmamba Vivim: a Video Vision Mamba for Medical Video Object Segmentation ( http://arxiv.org/abs/2401.14168v1 ) ライセンス: Link先を確認 | Yijun Yang, Zhaohu Xing, Lei Zhu | (参考訳) 従来の畳み込みニューラルネットワークは受容場が限られているが、トランスフォーマーベースのネットワークは計算複雑性の観点から長期的な依存関係を構築するのに中途半端である。
このようなボトルネックは、ビデオ分析タスクで長いビデオシーケンスを処理する場合に大きな課題となる。
最近では、mambaで有名な効率的なハードウェアアウェアデザインのステートスペースモデル(ssm)が長いシーケンスモデリングで素晴らしい成果を上げており、多くの視覚タスクでディープニューラルネットワークの開発が容易になっている。
ビデオフレームにおける利用可能なヒントをよりよく捉えるため,本稿ではvivimという医療用ビデオオブジェクトセグメンテーションタスクのための汎用的なビデオビジョンmambaベースのフレームワークを提案する。
我々のビビムは、設計したテンポラルマンバブロックにより、長期時空間表現を様々なスケールのシーケンスに効果的に圧縮することができる。
既存のビデオレベルのトランスフォーマー方式と比較すると, 高速性能に優れたセグメンテーション性能を維持している。
胸部usデータセットに関する広範な実験は、vivimの有効性と効率を示している。
Vivimのコードは、https://github.com/scott-yjyang/Vivim.comで公開されている。 Traditional convolutional neural networks have a limited receptive field while transformer-based networks are mediocre in constructing long-term dependency from the perspective of computational complexity. Such the bottleneck poses a significant challenge when processing long video sequences in video analysis tasks. Very recently, the state space models (SSMs) with efficient hardware-aware designs, famous by Mamba, have exhibited impressive achievements in long sequence modeling, which facilitates the development of deep neural networks on many vision tasks. To better capture available cues in video frames, this paper presents a generic Video Vision Mamba-based framework for medical video object segmentation tasks, named Vivim. Our Vivim can effectively compress the long-term spatiotemporal representation into sequences at varying scales by our designed Temporal Mamba Block. Compared to existing video-level Transformer-based methods, our model maintains excellent segmentation results with better speed performance. Extensive experiments on the breast US dataset demonstrate the effectiveness and efficiency of our Vivim. The code for Vivim is available at: https://github.com/scott-yjyang/Vivim. | 翻訳日:2024-01-26 14:32:13 公開日:2024-01-25 |
# bayesprompt: debiased domain abstractionによる限定的推論による大規模事前学習言語モデルの提案 BayesPrompt: Prompting Large-Scale Pre-Trained Language Models on Few-shot Inference via Debiased Domain Abstraction ( http://arxiv.org/abs/2401.14166v1 ) ライセンス: Link先を確認 | Jiangmeng Li, Fei Song, Yifan Jin, Wenwen Qiang, Changwen Zheng, Fuchun Sun, Hui Xiong | (参考訳) 大規模事前学習言語モデル(PLM)に基づく新規かつ効果的な微調整パラダイムとして、プロンプトチューニングは下流タスクと事前学習対象とのギャップを減らすことを目的としている。
プロンプトチューニングはさまざまなタスクにおいて継続的な進歩をもたらしたが、このようなアプローチは依然として永続的な欠陥である。
分布分析の観点から、本現象の背後にある本質的な問題は、PLMに含まれる過度な概念的知識と、ターゲット下流領域に対する橋渡しされた知識であり、その結果、PLMは、普遍的な知識埋め込み空間において、対象ドメインに対応する知識分布を誤って配置する。
この目的のために,下流タスクの目標領域を偏りなく近似し,それらの領域を抽象化して識別的プロンプトを生成し,plmに対する非曖昧なガイダンスを提供する。
このような直観に導かれ、ドメイン無関係な知識からの干渉に対してドメイン識別情報を含むプロンプトを学ぶための、単純かつ効果的なアプローチ、すなわちベイズプロンプトを提案する。
bayesprompt は既知の分布を原始的に活用し、対象領域の偏りのある事実分布を近似し、さらに近似分布から特定の代表的特徴を均一にサンプリングし、plm の究極のプロンプトを生成する。
ドメイン適応に関する理論的洞察を提供する。
提案手法は,ベンチマーク上での最先端性能を実証的に達成する。 As a novel and effective fine-tuning paradigm based on large-scale pre-trained language models (PLMs), prompt-tuning aims to reduce the gap between downstream tasks and pre-training objectives. While prompt-tuning has yielded continuous advancements in various tasks, such an approach still remains a persistent defect: prompt-tuning methods fail to generalize to specific few-shot patterns. From the perspective of distribution analyses, we disclose that the intrinsic issues behind the phenomenon are the over-multitudinous conceptual knowledge contained in PLMs and the abridged knowledge for target downstream domains, which jointly result in that PLMs mis-locate the knowledge distributions corresponding to the target domains in the universal knowledge embedding space. To this end, we intuitively explore to approximate the unabridged target domains of downstream tasks in a debiased manner, and then abstract such domains to generate discriminative prompts, thereby providing the de-ambiguous guidance for PLMs. Guided by such an intuition, we propose a simple yet effective approach, namely BayesPrompt, to learn prompts that contain the domain discriminative information against the interference from domain-irrelevant knowledge. BayesPrompt primitively leverages known distributions to approximate the debiased factual distributions of target domains and further uniformly samples certain representative features from the approximated distributions to generate the ultimate prompts for PLMs. We provide theoretical insights with the connection to domain adaptation. Empirically, our method achieves state-of-the-art performance on benchmarks. | 翻訳日:2024-01-26 14:31:56 公開日:2024-01-25 |
# 多レベルデータに対するツリーベース多重計算手法の適用?
シミュレーション研究 Adapting tree-based multiple imputation methods for multi-level data? A simulation study ( http://arxiv.org/abs/2401.14161v1 ) ライセンス: Link先を確認 | Ketevan Gurtskaia, Jakob Schwerter and Philipp Doebler | (参考訳) 本研究はマルチレベルデータに対する多重計算(MI)手法の有効性を評価する。
これは、連鎖方程式(英語版)(mice)による従来の多重インプテーションの性能と、予測平均マッチングと極端な勾配ブースティングを伴う連鎖ランダムフォレストのような木に基づく手法を比較している。
クラスタメンバシップ用のダミー変数を含む適応バージョンもツリーベースのメソッドに含まれている。
クラスタサイズの違い (25 と 50 ) と欠落率 (10 % と 50 %) のシミュレーション階層データに対して, 予測バイアス, 統計パワー, I 型誤差率の評価を行った。
ランダムインターセプトモデルとランダムスロープモデルを用いて係数を推定する。
その結果、MICEは正確な拒絶率に好適であるが、極勾配ブースティングはバイアスを低減するのに有利であることがわかった。
さらに、研究により、バイアスレベルは異なるクラスタサイズで類似しているが、より少ないクラスタ(より低いパワー、より高いI型エラー)では拒絶率がより好ましい傾向にあることがわかった。
さらに、ツリーベースのメソッドにクラスタダミーを組み込むことで、レベル1変数の推定が改善されるが、レベル2変数では効果が低い。
データが複雑になり、MICEが遅すぎると、極端な勾配が階層データにとって良い代替手段となる。
キーワード:多重計算、マルチレベルデータ、MICE、MissRanger、mixgb This simulation study evaluates the effectiveness of multiple imputation (MI) techniques for multilevel data. It compares the performance of traditional Multiple Imputation by Chained Equations (MICE) with tree-based methods such as Chained Random Forests with Predictive Mean Matching and Extreme Gradient Boosting. Adapted versions that include dummy variables for cluster membership are also included for the tree-based methods. Methods are evaluated for coefficient estimation bias, statistical power, and type I error rates on simulated hierarchical data with different cluster sizes (25 and 50) and levels of missingness (10\% and 50\%). Coefficients are estimated using random intercept and random slope models. The results show that while MICE is preferred for accurate rejection rates, Extreme Gradient Boosting is advantageous for reducing bias. Furthermore, the study finds that bias levels are similar across different cluster sizes, but rejection rates tend to be less favorable with fewer clusters (lower power, higher type I error). In addition, the inclusion of cluster dummies in tree-based methods improves estimation for Level 1 variables, but is less effective for Level 2 variables. When data become too complex and MICE is too slow, extreme gradient boosting is a good alternative for hierarchical data. Keywords: Multiple imputation; multi-level data; MICE; missRanger; mixgb | 翻訳日:2024-01-26 14:31:27 公開日:2024-01-25 |
# Grounded SAM: 多様な視覚タスクのためのオープンワールドモデルを組み立てる Grounded SAM: Assembling Open-World Models for Diverse Visual Tasks ( http://arxiv.org/abs/2401.14159v1 ) ライセンス: Link先を確認 | Tianhe Ren, Shilong Liu, Ailing Zeng, Jing Lin, Kunchang Li, He Cao, Jiayu Chen, Xinyu Huang, Yukang Chen, Feng Yan, Zhaoyang Zeng, Hao Zhang, Feng Li, Jie Yang, Hongyang Li, Qing Jiang, Lei Zhang | (参考訳) オープンセットオブジェクト検出器としてGrounding DINOを用いて,セグメント別モデル(SAM)と組み合わせたGrounded SAMを紹介する。
この統合により任意のテキスト入力に基づいて任意の領域の検出とセグメンテーションが可能になり、様々なビジョンモデルを接続するための扉を開く。
図1に示すように、汎用的な Grounded SAM パイプラインを使用することで、幅広いビジョンタスクを実現することができる。
例えば、BLIPやRecognize Anythingといったモデルを導入することで、入力イメージのみに基づく自動アノテーションパイプラインを実現することができる。
さらに、Stable-Diffusionを組み込むことで、コントロール可能な画像編集が可能であり、OSXとの統合は、迅速な3Dモーション分析を容易にする。
Grounding DINO-BaseとSAM-Hugeのモデルを組み合わせたSegInW (Segmentation in the wild)ゼロショットベンチマークで48.7の平均APを達成した。 We introduce Grounded SAM, which uses Grounding DINO as an open-set object detector to combine with the segment anything model (SAM). This integration enables the detection and segmentation of any regions based on arbitrary text inputs and opens a door to connecting various vision models. As shown in Fig.1, a wide range of vision tasks can be achieved by using the versatile Grounded SAM pipeline. For example, an automatic annotation pipeline based solely on input images can be realized by incorporating models such as BLIP and Recognize Anything. Additionally, incorporating Stable-Diffusion allows for controllable image editing, while the integration of OSX facilitates promptable 3D human motion analysis. Grounded SAM also shows superior performance on open-vocabulary benchmarks, achieving 48.7 mean AP on SegInW (Segmentation in the wild) zero-shot benchmark with the combination of Grounding DINO-Base and SAM-Huge models. | 翻訳日:2024-01-26 14:31:04 公開日:2024-01-25 |
# グラフ異常検出における構造分布シフトの緩和 Alleviating Structural Distribution Shift in Graph Anomaly Detection ( http://arxiv.org/abs/2401.14155v1 ) ライセンス: Link先を確認 | Yuan Gao, Xiang Wang, Xiangnan He, Zhenguang Liu, Huamin Feng, Yongdong Zhang | (参考訳) グラフ異常検出(GAD)は、異常ノードと正常ノードの間の構造分布が異なるため、困難なバイナリ分類問題である。
さらに,様々な時間的要因と専門家のアノテーション嗜好により,構造分布シフト (structure distribution shift, sds) と呼ばれるトレーニングデータとテストデータによって異種性や相同性が変化する。
主流の手法はグラフニューラルネットワーク(gnns)に基づいて構築されており、同性愛者同士を集約することによる正規化の利点があるが、異常や一般化の貧弱なsds問題を無視している。
この作業はフィーチャービューから問題を解決します。
我々はSDSの度合いが異常ノードと正常ノードの間で異なることを観察する。
したがって、この問題に対処するためには、異常に対する高いヘテロフィリーに抵抗する一方で、正常をホモフィリーから学べることが重要である。
異種交配者の影響を緩和し, 不変にすることを制約する異常な特徴について検討する。
提案するフレームワークをグラフ分解ネットワーク(GDN)と呼ぶ。
2つのベンチマークデータセットで大規模な実験を行い、特にSDS環境では、トレーニングとテスト環境において、異常が大きく異なる構造分布を持つ場合において、提案フレームワークは、GADにおいて顕著なパフォーマンス向上を達成する。
コードはhttps://github.com/blacksingular/wsdm_gdnでオープンソースである。 Graph anomaly detection (GAD) is a challenging binary classification problem due to its different structural distribution between anomalies and normal nodes -- abnormal nodes are a minority, therefore holding high heterophily and low homophily compared to normal nodes. Furthermore, due to various time factors and the annotation preferences of human experts, the heterophily and homophily can change across training and testing data, which is called structural distribution shift (SDS) in this paper. The mainstream methods are built on graph neural networks (GNNs), benefiting the classification of normals from aggregating homophilous neighbors, yet ignoring the SDS issue for anomalies and suffering from poor generalization. This work solves the problem from a feature view. We observe that the degree of SDS varies between anomalies and normal nodes. Hence to address the issue, the key lies in resisting high heterophily for anomalies meanwhile benefiting the learning of normals from homophily. We tease out the anomaly features on which we constrain to mitigate the effect of heterophilous neighbors and make them invariant. We term our proposed framework as Graph Decomposition Network (GDN). Extensive experiments are conducted on two benchmark datasets, and the proposed framework achieves a remarkable performance boost in GAD, especially in an SDS environment where anomalies have largely different structural distribution across training and testing environments. Codes are open-sourced in https://github.com/blacksingular/wsdm_GDN. | 翻訳日:2024-01-26 14:30:47 公開日:2024-01-25 |
# amiシナリオ評価のためのnetlogoによるエージェントベースシミュレーション Agent-based Simulation with Netlogo to Evaluate AmI Scenarios ( http://arxiv.org/abs/2401.14153v1 ) ライセンス: Link先を確認 | J. Carbo, N. Sanchez, J. M. Molina | (参考訳) 本稿では,エージェントに基づくAmIシナリオを評価するためにエージェントベースシミュレーションを開発した。
多くのamiアプリケーションはエージェントによって実装されているが、それらを使う相対的な利点を評価するために既存の他の選択肢と比較されることはない。
netlogoで開発された提案シミュレーション環境は,2つの評価基準を用いてその効果を解析している。
第2に、コンテキスト情報の正しい使用により得られる時間節約を測定する。
そこで,提案されているエージェントアーキテクチャ,オントロジ,空港におけるamiサービスを提供する12ステッププロトコルをnetlogoシミュレーション環境を用いて評価した。
本研究は,アプリケーションドメインのスケーラビリティ問題を考慮したNetLogoモデルを用いているが,FIPAおよびBDI拡張を使用して,これまでの作業とJADE実装との整合性を実現する。
netlogoモデルでは、パスポート管理、航空会社のチェックインカウンター、搭乗ゲート、さまざまな種類のショッピングといった、特定の順序にある複数のゾーンをエージェントユーザーが通過する空港をシミュレートしている。
シミュレーションの初期データはランダムに生成され、モデルは実際の空港の近似にすぎないが、NetLogoエージェントによるアンビエント・インテリジェンスの使用の定義は、それらの最終開発に重要な貢献であるアンビエント・インテリジェンスを使用することの利点を評価する興味深い方法を開く。 In this paper an agent-based simulation is developed in order to evaluate an AmI scenario based on agents. Many AmI applications are implemented through agents but they are not compared to any other existing alternative in order to evaluate the relative benefits of using them. The proposal simulation environment developed in Netlogo analyse such benefits using two evaluation criteria: First, measuring agent satisfaction of different types of desires along the execution. Second, measuring time savings obtained through a correct use of context information. So, here, a previously suggested agent architecture, an ontology and a 12-steps protocol to provide AmI services in airports, is evaluated using a NetLogo simulation environment. The present work uses a NetLogo model considering scalability problems of this application domain but using FIPA and BDI extensions to be coherent with our previous works and our previous JADE implementation of them. The NetLogo model presented simulates an airport with agent users passing through several zones located in a specific order in a map: passport controls, check-in counters of airline companies, boarding gates, different types of shopping. Although initial data in simulations are generated randomly, and the model is just an approximation of real-world airports, the definition of this case of use of Ambient Intelligence through NetLogo agents opens an interesting way to evaluate the benefits of using Ambient Intelligence, which is a significant contribution to the final development of them. | 翻訳日:2024-01-26 14:30:20 公開日:2024-01-25 |
# 実践から真に学ぶ:強化学習による身体環境とのLLMの調整 True Knowledge Comes from Practice: Aligning LLMs with Embodied Environments via Reinforcement Learning ( http://arxiv.org/abs/2401.14151v1 ) ライセンス: Link先を確認 | Weihao Tan, Wentao Zhang, Shanqi Liu, Longtao Zheng, Xinrun Wang, Bo An | (参考訳) 多数のタスクにまたがるパフォーマンスにもかかわらず、LLMの知識と環境とのミスアライメントのため、大きな言語モデル(LLM)は単純な意思決定タスクの解決に失敗することが多い。
それとは対照的に、強化学習(RL)エージェントはスクラッチからポリシーを学ぶため、常に環境と整合するが、効率的な探索のために事前の知識を組み込むことは困難である。
このギャップを狭めるために,LLMを意思決定エージェントとして展開する新しい汎用オンラインフレームワークであるTWOSOMEを提案する。
まず、各有効な行動がLCMと協調して行動ポリシーを形成する確率を問う。
次に,ポリシーの安定性と堅牢性を高めるため,2つの正規化手法を提案し,4つの素早い設計原則を要約する。
最後に,PPOによって更新された低ランクアダプタ (LoRA) を備えた冷凍LDMをアクターと批評家が共有する,パラメータ効率のトレーニングアーキテクチャを設計する。
我々はTWOSOMEを評価するための広範囲な実験を行った。
一) 従来のrl法, ppo法, 即席チューニング法, saycan法と比較して, 古典的意思決定環境, 過剰調理, 模擬家庭環境, virtualhomeと比較して, 試料効率, 性能が有意に良好である。
ii) llms のオープンボキャブラリー機能により,twosome はタスクを検知する上で優れた一般化能力を示す。
三 当社の枠組みでは、オンラインPPOファインタニングにおけるLLMの本来の能力に大きな損失はない。 Despite the impressive performance across numerous tasks, large language models (LLMs) often fail in solving simple decision-making tasks due to the misalignment of the knowledge in LLMs with environments. On the contrary, reinforcement learning (RL) agents learn policies from scratch, which makes them always align with environments but difficult to incorporate prior knowledge for efficient explorations. To narrow the gap, we propose TWOSOME, a novel general online framework that deploys LLMs as decision-making agents to efficiently interact and align with embodied environments via RL without requiring any prepared datasets or prior knowledge of the environments. Firstly, we query the joint probabilities of each valid action with LLMs to form behavior policies. Then, to enhance the stability and robustness of the policies, we propose two normalization methods and summarize four prompt design principles. Finally, we design a novel parameter-efficient training architecture where the actor and critic share one frozen LLM equipped with low-rank adapters (LoRA) updated by PPO. We conduct extensive experiments to evaluate TWOSOME. i) TWOSOME exhibits significantly better sample efficiency and performance compared to the conventional RL method, PPO, and prompt tuning method, SayCan, in both classical decision-making environment, Overcooked, and simulated household environment, VirtualHome. ii) Benefiting from LLMs' open-vocabulary feature, TWOSOME shows superior generalization ability to unseen tasks. iii) Under our framework, there is no significant loss of the LLMs' original ability during online PPO finetuning. | 翻訳日:2024-01-26 14:29:55 公開日:2024-01-25 |
# Redditテキストと微調整長手モデルを用いた英語とルガンダにおける抑うつの重大度分類 Enhanced Labeling Technique for Reddit Text and Fine-Tuned Longformer Models for Classifying Depression Severity in English and Luganda ( http://arxiv.org/abs/2401.14240v1 ) ライセンス: Link先を確認 | Richard Kimera, Daniela N. Rim, Joseph Kirabira, Ubong Godwin Udomah, Heeyoul Choi | (参考訳) 抑うつは世界的な負担であり、制御すべき最も困難な精神疾患の1つです。
専門家は、beck depression inventory(bdi)アンケートを用いて早期に重症度を検出し、患者に適切な薬を投与し、その進行を阻害することができる。
スティグマティゼーションの恐れがあるため、多くの患者は、旅のさまざまな段階でアドバイスや援助を求めてRedditのようなソーシャルメディアプラットフォームに目を向ける。
この研究はredditからテキストを抽出して診断プロセスを容易にする。
テキストを分類するために提案されたラベル付けアプローチを採用し、その後longformerモデルを微調整する。
モデルの性能は、ナイーブベイズ、ランダムフォレスト、サポートベクターマシン、勾配ブースティングを含むベースラインモデルと比較される。
その結果,カスタムメイドのデータセットでは,longformerモデルが英語 (48%) とルーガンダ (45%) の両方の言語でベースラインモデルを上回ることがわかった。 Depression is a global burden and one of the most challenging mental health conditions to control. Experts can detect its severity early using the Beck Depression Inventory (BDI) questionnaire, administer appropriate medication to patients, and impede its progression. Due to the fear of potential stigmatization, many patients turn to social media platforms like Reddit for advice and assistance at various stages of their journey. This research extracts text from Reddit to facilitate the diagnostic process. It employs a proposed labeling approach to categorize the text and subsequently fine-tunes the Longformer model. The model's performance is compared against baseline models, including Naive Bayes, Random Forest, Support Vector Machines, and Gradient Boosting. Our findings reveal that the Longformer model outperforms the baseline models in both English (48%) and Luganda (45%) languages on a custom-made dataset. | 翻訳日:2024-01-26 14:22:58 公開日:2024-01-25 |
# unexplored: 画像分類におけるレイヤ調整の影響を理解する Exploring the Unexplored: Understanding the Impact of Layer Adjustments on Image Classification ( http://arxiv.org/abs/2401.14236v1 ) ライセンス: Link先を確認 | Haixia Liu, Tim Brailsford, James Goulding, Gavin Smith, and Larry Bull | (参考訳) 本稿では,ディープラーニングアーキテクチャの調整が画像分類におけるモデル性能に与える影響について検討する。
小規模な実験が最初の洞察を生み出すが、観測された傾向はデータセット全体と一致しない。
画像処理パイプラインでのフィルタリング操作は重要であり、前処理でより良い結果が得られる。
レイヤの選択と順序、およびフィルタ配置はモデルの性能に大きな影響を与えます。
この研究は、ディープラーニングモデルを最適化するための貴重な洞察を提供し、コラボレーションプラットフォームを含む将来の研究への道筋を提供する。 This paper investigates how adjustments to deep learning architectures impact model performance in image classification. Small-scale experiments generate initial insights although the trends observed are not consistent with the entire dataset. Filtering operations in the image processing pipeline are crucial, with image filtering before pre-processing yielding better results. The choice and order of layers as well as filter placement significantly impact model performance. This study provides valuable insights into optimizing deep learning models, with potential avenues for future research including collaborative platforms. | 翻訳日:2024-01-26 14:22:25 公開日:2024-01-25 |
# パラメータ効率の良い微調整法によるパラメータ行列の可搬性評価 Assessing the Portability of Parameter Matrices Trained by Parameter-Efficient Finetuning Methods ( http://arxiv.org/abs/2401.14228v1 ) ライセンス: Link先を確認 | Mohammed Sabry and Anya Belz | (参考訳) より大きな言語モデルのトレーニングコストが増大するにつれて、学習済みの知識の再利用への関心が高まっている。
トランスファーラーニング手法は、タスク固有の知識の再利用がその後のタスク固有の学習にどのように役立つかを示す。
本稿では,タスク固有の知識をあるモデルから別のモデルにエンコードする機能モジュール全体の移植について検討する。
我々は,パラメータ効率の微調整(PEFT)技術で訓練されたモジュールの可搬性をテストするために,感情分析を例として1,440のトレーニング/テストランを用いた研究を設計した。
我々は、様々なPEFT技術と異なる事前訓練されたホストモデルを含む幅広いシナリオでポータビリティをテストする。
移植モジュールの性能と等価モジュールの性能を比較した。
(i)スクラッチから、そして
(ii) ポートされたモジュールと同じ分布からサンプリングされたパラメータから。
移植したモジュールは2つの代替品よりはるかに優れているが,4つのPEFT技術の間には興味深い性能差がある。
PEFT手法により構成的モジュラーなパラメータ集合の形式でのタスク固有の知識は、非常に可搬性が高いが、その成功度はPEFTのタイプと、事前訓練されたモデルの創出と受入の違いに依存する。 As the cost of training ever larger language models has grown, so has the interest in reusing previously learnt knowledge. Transfer learning methods have shown how reusing non-task-specific knowledge can help in subsequent task-specific learning. In this paper, we investigate the inverse: porting whole functional modules that encode task-specific knowledge from one model to another. We designed a study comprising 1,440 training/testing runs to test the portability of modules trained by parameter-efficient finetuning (PEFT) techniques, using sentiment analysis as an example task. We test portability in a wide range of scenarios, involving different PEFT techniques and different pretrained host models, among other dimensions. We compare the performance of ported modules with that of equivalent modules trained (i) from scratch, and (ii) from parameters sampled from the same distribution as the ported module. We find that the ported modules far outperform the two alternatives tested, but that there are interesting performance differences between the four PEFT techniques. We conclude that task-specific knowledge in the form of structurally modular sets of parameters as produced by PEFT techniques is highly portable, but that degree of success depends on type of PEFT and on differences between originating and receiving pretrained models. | 翻訳日:2024-01-26 14:22:11 公開日:2024-01-25 |
# サブタスクの自動学習によるサンプル効率的な強化学習 Sample Efficient Reinforcement Learning by Automatically Learning to Compose Subtasks ( http://arxiv.org/abs/2401.14226v1 ) ライセンス: Link先を確認 | Shuai Han, Mehdi Dastani, Shihan Wang | (参考訳) サンプル効率の向上は、特に報酬が不足している環境において、強化学習(rl)の中心である。
近年のいくつかのアプローチでは、RLアルゴリズムへの統合が学習効率を大幅に向上させると主張される報酬関数を手作業で設計または学習した報酬構造として指定する手法が提案されている。
手動で設計された報酬構造は不正確さに苦しめられ、既存の自動学習法は複雑なタスクでは計算が難しいことが多い。
RLアルゴリズムにおける不正確なあるいは部分的な報酬構造の統合は、最適なポリシーを学習できない。
本研究では,サブタスクを表わすラベルの集合を考えると,サンプル効率のために報酬関数を自動的に構成できるRLアルゴリズムを提案する。
このようなタスクに関する最小限の知識を前提として、各状態における最適なサブタスクを選択する高レベルポリシーと、各サブタスクの完了を効率的に学習する低レベルポリシーを訓練する。
我々はこのアルゴリズムを様々なスパースワード環境において評価する。
実験の結果,タスクの難易度が増大するにつれて,本手法は最先端のベースラインを著しく上回ることがわかった。 Improving sample efficiency is central to Reinforcement Learning (RL), especially in environments where the rewards are sparse. Some recent approaches have proposed to specify reward functions as manually designed or learned reward structures whose integrations in the RL algorithms are claimed to significantly improve the learning efficiency. Manually designed reward structures can suffer from inaccuracy and existing automatically learning methods are often computationally intractable for complex tasks. The integration of inaccurate or partial reward structures in RL algorithms fail to learn optimal policies. In this work, we propose an RL algorithm that can automatically structure the reward function for sample efficiency, given a set of labels that signify subtasks. Given such minimal knowledge about the task, we train a high-level policy that selects optimal sub-tasks in each state together with a low-level policy that efficiently learns to complete each sub-task. We evaluate our algorithm in a variety of sparse-reward environments. The experiment results show that our approach significantly outperforms the state-of-art baselines as the difficulty of the task increases. | 翻訳日:2024-01-26 14:20:54 公開日:2024-01-25 |
# ベクトル値波動関数(質量的かつ質量的)に対するポアンカル\'e群のユニタリ表現の明示的形式と光子の局在と位置作用素への応用 The explicit form of the unitary representation of the Poincar\'e group for vector-valued wave functions (massive and massless), with applications to photon's localization and position operators ( http://arxiv.org/abs/2401.14217v1 ) ライセンス: Link先を確認 | Arkadiusz Jadczyk | (参考訳) 我々はポインカレ群のユニタリ表現の明示的な形式を幾何学的に導出し、それを用いて単純な偏光基底に光速ブーストを適用することで、可換成分を持つホートン・ベイリス光子位置作用素(hawton-baylis photon position operator)に終端する。
他のフォトンブースト固有モードに対して明示的な公式を与える。
運動量空間における光円錐上のアフィン接続について検討し、プライス接続が計量半対称であるのに対し、平坦なホートン・ベイリス接続は半対称ではないことを発見した。
最後に、閉ループ上に局在した光子状態のローカライズ可能性について議論し、非正規化された不適切な状態とワッシャー状領域上にスミアリングされた有限ノルム波パケットの両方が、可換成分を持つホートン・ベイリス作用素および非可換ジャウチ・ピロン・アムレインPOV測度に関して厳密に局所化されていることを示す。 We geometrically derive the explicit form of the Unitary representation of the Poincare group and use it to apply speed-of-light boosts to simple polarization basis to end up with Hawton-Baylis photon position operator with commuting components. We give explicit formulas for other photon boost eigenmodes. We investigate the underlying affine connections on the light cone in momentum space and find that while Pryce connection is metric semi-symmetric, the flat Hawton-Baylis connection is not semi-symmetric. Finally we discuss localizability of photon states localized on closed loops and show that photon states on the circle, both unnormalized improper states and finite norm wave packet smeared over washer-like regions are strictly localized with respect to Hawton-Baylis operators with commuting components and also with respect to the noncommutative Jauch-Piron-Amrein POV measure. | 翻訳日:2024-01-26 14:20:19 公開日:2024-01-25 |
# 明示的に表現する構文は予期しない状況の文間予測を改善する Explicitly Representing Syntax Improves Sentence-to-layout Prediction of Unexpected Situations ( http://arxiv.org/abs/2401.14212v1 ) ライセンス: Link先を確認 | Wolf Nuyts, Ruben Cartuyvels, Marie-Francine Moens | (参考訳) 自然言語文で視覚エンティティを認識し、2次元空間レイアウトに配置するには、言語と空間の合成理解が必要である。
このレイアウト予測のタスクは、画像の局所化と制御が可能なテキストと画像の合成において有用である。
この比較研究では,文の構文を暗黙的にあるいは明示的にエンコードする言語表現から,文が訓練中に見られるものと類似した実体関係について言及した場合に,レイアウトを予測できることが示されている。
構成理解をテストするために,訓練中に見当たらない要素や関係を記述した,文法的に正しい文とレイアウトのテストセットを収集した。
このテストセットの性能は大幅に低下し、現在のモデルはトレーニングデータの相関に依存しており、入力文の構造を理解するのに困難であることを示す。
本稿では,テキストに基づく2次元空間レイアウト予測タスクにおいて,入力文の構文構造をよりよく強制し,大きな性能向上を示す新しい構造損失関数を提案する。
この損失は、木のような構造が条件付けのモダリティの下にある他の世代タスクで使われる可能性がある。
コード、トレーニングされたモデル、USCOCO評価セットはgithub経由で提供される。 Recognizing visual entities in a natural language sentence and arranging them in a 2D spatial layout require a compositional understanding of language and space. This task of layout prediction is valuable in text-to-image synthesis as it allows localized and controlled in-painting of the image. In this comparative study it is shown that we can predict layouts from language representations that implicitly or explicitly encode sentence syntax, if the sentences mention similar entity-relationships to the ones seen during training. To test compositional understanding, we collect a test set of grammatically correct sentences and layouts describing compositions of entities and relations that unlikely have been seen during training. Performance on this test set substantially drops, showing that current models rely on correlations in the training data and have difficulties in understanding the structure of the input sentences. We propose a novel structural loss function that better enforces the syntactic structure of the input sentence and show large performance gains in the task of 2D spatial layout prediction conditioned on text. The loss has the potential to be used in other generation tasks where a tree-like structure underlies the conditioning modality. Code, trained models and the USCOCO evaluation set will be made available via github. | 翻訳日:2024-01-26 14:19:51 公開日:2024-01-25 |
# 適応重みクラスタリングとサーバ側蒸留によるコミュニケーション効率の良いフェデレーション学習 Communication-Efficient Federated Learning through Adaptive Weight Clustering and Server-Side Distillation ( http://arxiv.org/abs/2401.14211v1 ) ライセンス: Link先を確認 | Vasileios Tsouvalas. Aaqib Saeed, Tanir Ozcelebi and Nirvana Meratnia | (参考訳) フェデレートラーニング(FL)は、データプライバシを保持しながら、複数のデバイスにわたるディープニューラルネットワークの協調トレーニングを行うための有望なテクニックである。
潜在的な利点にもかかわらず、flはトレーニング中のサーバ-クライアント間通信の繰り返しによる過剰な通信コストによって妨げられている。
この課題に対処するために、スパーシフィケーションや重みクラスタリングのようなモデル圧縮技術が適用され、モデル集約スキームの変更や、モデル圧縮率の調整だけでなく、成長データに対するモデルの継続的な改善の可能性を制限するため、面倒なハイパーパラメータチューニングを必要とすることが多い。
本稿では,動的重みクラスタリングとサーバ側の知識蒸留を組み合わせた新しい手法であるFedCompressを提案する。
各種公開データセットの包括的評価を通じて,コミュニケーションコストや推論速度の観点から,ベースラインと比較して,アプローチの有効性を示す。
私たちは受け入れ次第、実装を公開します。 Federated Learning (FL) is a promising technique for the collaborative training of deep neural networks across multiple devices while preserving data privacy. Despite its potential benefits, FL is hindered by excessive communication costs due to repeated server-client communication during training. To address this challenge, model compression techniques, such as sparsification and weight clustering are applied, which often require modifying the underlying model aggregation schemes or involve cumbersome hyperparameter tuning, with the latter not only adjusts the model's compression rate but also limits model's potential for continuous improvement over growing data. In this paper, we propose FedCompress, a novel approach that combines dynamic weight clustering and server-side knowledge distillation to reduce communication costs while learning highly generalizable models. Through a comprehensive evaluation on diverse public datasets, we demonstrate the efficacy of our approach compared to baselines in terms of communication costs and inference speed. We will make our implementation public upon acceptance. | 翻訳日:2024-01-26 14:19:30 公開日:2024-01-25 |
# 深層学習と極度の統計の接点:地すべりハザード定義の定式化 At the junction between deep learning and statistics of extremes: formalizing the landslide hazard definition ( http://arxiv.org/abs/2401.14210v1 ) ライセンス: Link先を確認 | Ashok Dahal, Rapha\"el Huser, Luigi Lombardo | (参考訳) 最も広く採用されている地すべり災害の定義は、地すべりの場所(感受性)、脅威(強度)、頻度(回帰期間)に関する空間情報を組み合わせたものである。
広い範囲で作業する場合、通常は最初の2つの要素のみが考慮され、推定される。
それにもかかわらず、別々のモデルが標準を構成しており、周波数を調べることは稀である。
周波数と強度は相互に絡み合っており、より大きな事象が起こる頻度が少なく、逆もまた少ないため、互いに依存する。
しかし、多時期的な在庫や共同統計モデルが欠如しているため、このような特性を統一的ハザードモデルでモデル化することは常に困難であり、まだ試みられていない。
本研究では,斜面単位レベルでの地すべり危険を推定する統一モデルを構築し,そのギャップに対応する。
深層学習と極値理論によるモデルを組み合わせることで,ネパールで観測された30年間の降雨トリガー地すべりの在庫を分析し,複数回の回帰期間における地すべりの危険度を評価する。
また,このモデルを用いて,21世紀末までの異なる気候変動シナリオの下で,同じ回帰期間における地すべり災害を探索する。
その結果,提案モデルが良好に動作し,地すべり災害を統一的にモデル化できることがわかった。
地形学的には, 気候変動のシナリオ (ssp245 と ssp885) において, 地すべりの危険度はヒマラヤ中部地域とヒマラヤ中部地域では2倍まで上昇する傾向にあり, ヒマラヤ中部地域ではやや減少する傾向がみられた。 The most adopted definition of landslide hazard combines spatial information about landslide location (susceptibility), threat (intensity), and frequency (return period). Only the first two elements are usually considered and estimated when working over vast areas. Even then, separate models constitute the standard, with frequency being rarely investigated. Frequency and intensity are intertwined and depend on each other because larger events occur less frequently and vice versa. However, due to the lack of multi-temporal inventories and joint statistical models, modelling such properties via a unified hazard model has always been challenging and has yet to be attempted. Here, we develop a unified model to estimate landslide hazard at the slope unit level to address such gaps. We employed deep learning, combined with a model motivated by extreme-value theory to analyse an inventory of 30 years of observed rainfall-triggered landslides in Nepal and assess landslide hazard for multiple return periods. We also use our model to further explore landslide hazard for the same return periods under different climate change scenarios up to the end of the century. Our results show that the proposed model performs excellently and can be used to model landslide hazard in a unified manner. Geomorphologically, we find that under both climate change scenarios (SSP245 and SSP885), landslide hazard is likely to increase up to two times on average in the lower Himalayan regions while remaining the same in the middle Himalayan region whilst decreasing slightly in the upper Himalayan region areas. | 翻訳日:2024-01-26 14:19:14 公開日:2024-01-25 |
# 投射計測によるブラックホールからの量子情報回復 Quantum information recovery from black hole with projective measurement ( http://arxiv.org/abs/2401.14207v1 ) ライセンス: Link先を確認 | Ran Li, Jin Wang | (参考訳) 局所射影計測でヘイデン・プレスキル思考実験を行った。
元のモデルと比較して、この測定はブラックホールに量子日記を投げた後に放出されたホーキング放射に適用される。
このセットアップでは,ブラックホールからの情報回復,ブラックホールの最終状態の提案,吉田・キタエフプロトコルとペッツ回収マップの関係,デコヒーレンスの影響,復号プロトコルの量子シミュレーションなど,このモデルのさまざまな側面について検討した。
これらの側面は、量子ブラックホールの非摂動的性質に対する新たな洞察を与えるかもしれない。 We studied the Hayden-Preskill thought experiment with the local projective measurement. Compared to the original model, the measurement is applied on the Hawking radiation that was emitted after throwing the quantum diary into the black hole. Within this setup, we explored various aspects of this model, including the information recovery from the black hole, the relation to the black hole final state proposal, the relation between the Yoshida-Kitaev protocol and Petz recovery map, the effects of the decoherence, and the quantum simulations of the decoding protocols. These aspects may provide us new insights into the non-perturbative nature of quantum black holes. | 翻訳日:2024-01-26 14:18:43 公開日:2024-01-25 |
# 大腸癌ゲノム変異分類における肝CT所見の検討 Exploiting Liver CT scans in Colorectal Carcinoma genomics mutation classification ( http://arxiv.org/abs/2401.14206v1 ) ライセンス: Link先を確認 | Daniele Perlo and Luca Berton and Alessia Delpiano and Francesca Menchini and Stefano Tibaldi and Marco Grosso and Paolo Fonio | (参考訳) 肝は大腸直腸癌 (CRC) 患者の遠隔転移により最も関与する臓器であり, 個々の治療法を正しく設計するためには, 病変の変異状況を知る必要がある。
これまでのところ、ctスキャンで得られた腫瘍の画像を分析するための新しい人工知能ツールを使用して、腫瘍全体の分析を可能にする非侵襲的かつリアルタイムな方法を開発するための努力が行われている。
生検分析に基づく現在の医療ワークフローに対処するため,我々は,患者医用画像からの分類アプローチについて,DeepLearningに基づく最初の探索法を提案する。
提案します
一 利用可能なCTスキャンの小型データセットを管理するための固形パイプライン
二 プリエンプティブ患者のフォローアップのためのゲノム変異診断支援の基礎的研究
本手法はCT画像からCRC RAS変異ファミリーを0.73F1スコアで同定できる。 The liver is the most involved organ by distant metastasis in colon-rectal cancer (CRC) patients and it comes necessary to be aware of the mutational status of the lesions to correctly design the best individual treatment. So far, efforts have been made in order to develop non-invasive and real-time methods that permit the analysis of the whole tumor, using new artificial intelligence tools to analyze the tumor's image obtained by Computed Tomography (CT) scan. In order to address the current medical workflow, that is biopsy analysis-based, we propose the first DeepLearning-based exploration, to our knowledge, of such classification approach from the patient medical imaging. We propose i) a solid pipeline for managing undersized datasets of available CT scans and ii) a baseline study for genomics mutation diagnosis support for preemptive patient follow-up. Our method is able to identify CRC RAS mutation family from CT images with 0.73 F1 score. | 翻訳日:2024-01-26 14:18:33 公開日:2024-01-25 |
# MTRGL:マルチモーダル時間関係グラフ学習による時間相関の影響 MTRGL:Effective Temporal Correlation Discerning through Multi-modal Temporal Relational Graph Learning ( http://arxiv.org/abs/2401.14199v1 ) ライセンス: Link先を確認 | Junwei Su, Shan Wu, Jinhui Li | (参考訳) 本研究では,ペアトレーディングに着目し,ディープラーニングと金融市場アプリケーションのシナジーについて検討する。
この市場中立戦略は量的金融に不可欠であり、高度なディープラーニング技術に適している。
ペアトレーディングにおける重要な課題は、エンティティ間の時間的相関を識別することであり、多様なデータモダリティの統合を必要とする。
そこで我々は,MTRGL(Multi-modal Temporal Relation Graph Learning)という新しいフレームワークを導入する。
MTRGLは時系列データと離散特徴を時間グラフに結合し、メモリベースの時間グラフニューラルネットワークを使用する。
このアプローチは、経験的成功を示す時間グラフリンク予測タスクとして、時間相関識別を再構成する。
実世界のデータセットに関する我々の実験は、MTRGLの優れた性能を確認し、自動ペアトレーディング戦略の洗練におけるその約束を強調した。 In this study, we explore the synergy of deep learning and financial market applications, focusing on pair trading. This market-neutral strategy is integral to quantitative finance and is apt for advanced deep-learning techniques. A pivotal challenge in pair trading is discerning temporal correlations among entities, necessitating the integration of diverse data modalities. Addressing this, we introduce a novel framework, Multi-modal Temporal Relation Graph Learning (MTRGL). MTRGL combines time series data and discrete features into a temporal graph and employs a memory-based temporal graph neural network. This approach reframes temporal correlation identification as a temporal graph link prediction task, which has shown empirical success. Our experiments on real-world datasets confirm the superior performance of MTRGL, emphasizing its promise in refining automated pair trading strategies. | 翻訳日:2024-01-26 14:18:18 公開日:2024-01-25 |
# DeepSeek-Coder: 大規模言語モデルがプログラミングに出会ったとき - コードインテリジェンスの増加 DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence ( http://arxiv.org/abs/2401.14196v1 ) ライセンス: Link先を確認 | Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y.K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang | (参考訳) 大規模言語モデルの急速な開発は、ソフトウェア開発におけるコードインテリジェンスに革命をもたらした。
しかし、クローズドソースモデルの優位は広範な研究と開発を制限している。
これに対処するために、我々は2兆トークンでスクラッチからトレーニングされた、1.3bから33bまでのサイズのオープンソースのコードモデルであるdeepseek-coderシリーズを紹介します。
これらのモデルは高品質なプロジェクトレベルのコードコーパスで事前トレーニングされ、コード生成とインフィルリングを強化するために16kウィンドウのフィルイン・ザ・ブランクタスクを使用する。
広範な評価結果から,deepseek-coderは,複数のベンチマークをまたいだオープンソースコードモデル間の最先端のパフォーマンスを実現するだけでなく,codexやgpt-3.5といった既存のクローズドソースモデルを超えていることが示された。
さらに、DeepSeek-Coderモデルは、調査と制限なしの商用使用の両方を可能にするパーミッシブライセンス下にある。 The rapid development of large language models has revolutionized code intelligence in software development. However, the predominance of closed-source models has restricted extensive research and development. To address this, we introduce the DeepSeek-Coder series, a range of open-source code models with sizes from 1.3B to 33B, trained from scratch on 2 trillion tokens. These models are pre-trained on a high-quality project-level code corpus and employ a fill-in-the-blank task with a 16K window to enhance code generation and infilling. Our extensive evaluations demonstrate that DeepSeek-Coder not only achieves state-of-the-art performance among open-source code models across multiple benchmarks but also surpasses existing closed-source models like Codex and GPT-3.5. Furthermore, DeepSeek-Coder models are under a permissive license that allows for both research and unrestricted commercial use. | 翻訳日:2024-01-26 14:18:04 公開日:2024-01-25 |
# 言語処理タスクとしてのパラメータ効率の良い会話レコメンダシステム Parameter-Efficient Conversational Recommender System as a Language Processing Task ( http://arxiv.org/abs/2401.14194v1 ) ライセンス: Link先を確認 | Mathieu Ravaut, Hao Zhang, Lu Xu, Aixin Sun, Yong Liu | (参考訳) 会話レコメンデータシステム(CRS)は,自然言語会話を通じてユーザの好みを抽出し,関連項目をユーザに推薦することを目的としている。
先行研究では、項目の意味情報に外部知識グラフ、対話生成のための言語モデル、関連する項目のランキングに推奨モジュールを用いることが多い。
この複数のコンポーネントの組み合わせは、面倒なトレーニングプロセスに悩まされ、対話生成とアイテムレコメンデーションのセマンティックなミスアライメント問題を引き起こす。
本稿では、自然言語の項目を表現し、CRSを自然言語処理タスクとして定式化する。
したがって、事前学習された言語モデルの力を利用して、アイテムをエンコードし、会話を通じてユーザの意図を理解し、セマンティックマッチングを通じてアイテムレコメンデーションを行い、対話を生成する。
統一モデルとして、知識グラフのような非テキストメタデータに頼ることなく、PECRS(Parameter-Efficient CRS)を単一段階で最適化することができる。
2つのベンチマークCRSデータセットであるReDialとINSPIREDの実験は、レコメンデーションと会話におけるPECRSの有効性を実証している。
私たちのコードは、https://github.com/ravoxsg/ efficient_unified_crsで利用可能です。 Conversational recommender systems (CRS) aim to recommend relevant items to users by eliciting user preference through natural language conversation. Prior work often utilizes external knowledge graphs for items' semantic information, a language model for dialogue generation, and a recommendation module for ranking relevant items. This combination of multiple components suffers from a cumbersome training process, and leads to semantic misalignment issues between dialogue generation and item recommendation. In this paper, we represent items in natural language and formulate CRS as a natural language processing task. Accordingly, we leverage the power of pre-trained language models to encode items, understand user intent via conversation, perform item recommendation through semantic matching, and generate dialogues. As a unified model, our PECRS (Parameter-Efficient CRS), can be optimized in a single stage, without relying on non-textual metadata such as a knowledge graph. Experiments on two benchmark CRS datasets, ReDial and INSPIRED, demonstrate the effectiveness of PECRS on recommendation and conversation. Our code is available at: https://github.com/Ravoxsg/efficient_unified_crs. | 翻訳日:2024-01-26 14:17:43 公開日:2024-01-25 |
# 人工知能による悪性黒色腫の臨床診断 : 多施設共同研究から Clinical Melanoma Diagnosis with Artificial Intelligence: Insights from a Prospective Multicenter Study ( http://arxiv.org/abs/2401.14193v1 ) ライセンス: Link先を確認 | Lukas Heinlein, Roman C. Maron, Achim Hekler, Sarah Haggenm\"uller, Christoph Wies, Jochen S. Utikal, Friedegund Meier, Sarah Hobelsberger, Frank F. Gellrich, Mildred Sergon, Axel Hauschild, Lars E. French, Lucie Heinzerling, Justin G. Schlager, Kamran Ghoreschi, Max Schlaak, Franz J. Hilke, Gabriela Poch, S\"oren Korsing, Carola Berking, Markus V. Heppt, Michael Erdmann, Sebastian Haferkamp, Konstantin Drexler, Dirk Schadendorf, Wiebke Sondermann, Matthias Goebeler, Bastian Schilling, Eva Krieghoff-Henning, Titus J. Brinker | (参考訳) 世界中の有病率の高い致死性皮膚癌であるメラノーマの早期発見は、患者の予後を改善する。
振り返り研究において、人工知能(AI)はメラノーマの検出を促進するのに役立つことが証明されている。
しかし、これらの有望な結果を確認する有望な研究はほとんどない。
既存の研究は、サンプルサイズ、あまりにも均質なデータセット、または稀なメラノーマのサブタイプの包含性の欠如によって制限されており、aiとその一般化性を公平かつ徹底的に評価することを妨げる。
そこで我々は,8つの異なる病院,4つの異なるカメラセットアップ,まれなメラノーマサブタイプ,特別な解剖学的部位からなる外的異種テストセットにおいて,その診断精度を皮膚科医と比較し,メラノーマを検出するための確立されたオープンソースアンサンブルアルゴリズムである「全データがextである」(adae)を評価した。
我々は, 実検時間拡張(R-TTA, 複数角度から得られた病変の実際の写真提供, 予測平均化)によりアルゴリズムを進歩させ, その一般化能力を評価した。
総合すると、aiは皮膚科医(0.798, 95%信頼区間(ci) 0.779-0.814 vs. 0.781, 95% ci 0.760-0.802; p<0.001)よりも高い感度(0.921, 95% ci 0.900- 0.942 vs. 0.734, 95% ci 0.701-0.770; p<0.001)を得た。
このアルゴリズムはメラノーマ関連病変のみを含む異種データセットに対して有意なパフォーマンス上の優位性を示したため、AIは特に難治性症例の診断において皮膚科医を支援する可能性がある。 Early detection of melanoma, a potentially lethal type of skin cancer with high prevalence worldwide, improves patient prognosis. In retrospective studies, artificial intelligence (AI) has proven to be helpful for enhancing melanoma detection. However, there are few prospective studies confirming these promising results. Existing studies are limited by low sample sizes, too homogenous datasets, or lack of inclusion of rare melanoma subtypes, preventing a fair and thorough evaluation of AI and its generalizability, a crucial aspect for its application in the clinical setting. Therefore, we assessed 'All Data are Ext' (ADAE), an established open-source ensemble algorithm for detecting melanomas, by comparing its diagnostic accuracy to that of dermatologists on a prospectively collected, external, heterogeneous test set comprising eight distinct hospitals, four different camera setups, rare melanoma subtypes, and special anatomical sites. We advanced the algorithm with real test-time augmentation (R-TTA, i.e. providing real photographs of lesions taken from multiple angles and averaging the predictions), and evaluated its generalization capabilities. Overall, the AI showed higher balanced accuracy than dermatologists (0.798, 95% confidence interval (CI) 0.779-0.814 vs. 0.781, 95% CI 0.760-0.802; p<0.001), obtaining a higher sensitivity (0.921, 95% CI 0.900- 0.942 vs. 0.734, 95% CI 0.701-0.770; p<0.001) at the cost of a lower specificity (0.673, 95% CI 0.641-0.702 vs. 0.828, 95% CI 0.804-0.852; p<0.001). As the algorithm exhibited a significant performance advantage on our heterogeneous dataset exclusively comprising melanoma-suspicious lesions, AI may offer the potential to support dermatologists particularly in diagnosing challenging cases. | 翻訳日:2024-01-26 14:17:23 公開日:2024-01-25 |
# 一般人多様性:人間の知覚に相応しい多様性表現を学ぶ Generalized People Diversity: Learning a Human Perception-Aligned Diversity Representation for People Images ( http://arxiv.org/abs/2401.14322v1 ) ライセンス: Link先を確認 | Hansa Srinivasan, Candice Schumann, Aradhana Sinha, David Madras, Gbolahan Oluwafemi Olanubi, Alex Beutel, Susanna Ricco, Jilin Chen | (参考訳) 最近の文献では、1つか2つの属性を多様化し、高価な属性ラベルやビルディング分類器を必要とする傾向があります。
本研究では,より表現力の低いラベルのない方法で,人間の多様性概念に柔軟に適合する多様な人物画像ランキング手法を提案する。
Perception-Aligned Text- derived Human representation Space (PATHS) は、人間に関連する多様性のすべてのまたは多くの特徴を捉えることを目的としており、MMR(Maximal Marginal Relevance)ランキングアルゴリズムの表現空間として使われる場合、様々な種類の人に関連する多様性(障害、文化的な服装など)を明らかにすることができる。
PATHSは2段階に分かれている。
まず、事前訓練された画像テキストモデルから人物多様性表現を抽出するためにテキスト誘導方式を用いる。
次に、この表現は、人間の注釈者からの知覚判断に基づいて微調整され、人間が最も有益と考える人間関係の類似性の側面を捉える。
実験結果から,PATHS法は,ヒトのアノテータの左右評価により,ベースライン法よりも多様性が高いことが示された。 Capturing the diversity of people in images is challenging: recent literature tends to focus on diversifying one or two attributes, requiring expensive attribute labels or building classifiers. We introduce a diverse people image ranking method which more flexibly aligns with human notions of people diversity in a less prescriptive, label-free manner. The Perception-Aligned Text-derived Human representation Space (PATHS) aims to capture all or many relevant features of people-related diversity, and, when used as the representation space in the standard Maximal Marginal Relevance (MMR) ranking algorithm, is better able to surface a range of types of people-related diversity (e.g. disability, cultural attire). PATHS is created in two stages. First, a text-guided approach is used to extract a person-diversity representation from a pre-trained image-text model. Then this representation is fine-tuned on perception judgments from human annotators so that it captures the aspects of people-related similarity that humans find most salient. Empirical results show that the PATHS method achieves diversity better than baseline methods, according to side-by-side ratings from human annotators. | 翻訳日:2024-01-26 14:09:51 公開日:2024-01-25 |
# romansetu: ローマ字化による大規模言語モデルの多言語機能化の効率化 RomanSetu: Efficiently unlocking multilingual capabilities of Large Language Models models via Romanization ( http://arxiv.org/abs/2401.14280v1 ) ライセンス: Link先を確認 | Jaavid Aktar Husain, Raj Dabre, Aswanth Kumar, Ratish Puduppully, Anoop Kunchukuttan | (参考訳) 本研究では,Large Language Models(LLM)を英語以外の言語,特にラテン語以外のスクリプトに拡張するという課題に対処する。
本稿では,LLMのインタフェースとしてロマン化形式のテキストを利用する革新的なアプローチを提案し,その頻繁な非公式使用と共通トークンによる言語間アライメントの強化を仮定する。
ヒンディー語に焦点をあてて、ヒンディー語から英語への翻訳と感情分析のタスクを通じて、ロマナイズドテキストは、ネイティブテキストに比べて出生率の低いため推論効率を著しく向上するだけでなく、限定的な事前学習による競合性能も達成することを示した。
さらに、ロマライズされたテキストとネイティブテキストを組み合わせた新しいマルチスクリプトプロンプトアプローチにより、タスクパフォーマンスのさらなる向上が期待できる。
これらの発見は、llmアプリケーションの言語ギャップを埋めることにおけるローマ字化の可能性を示しており、将来の研究は、このアプローチをより多くの言語やタスクに拡張することを目的としている。 This study addresses the challenge of extending Large Language Models (LLMs) to non-English languages, specifically those using non-Latin scripts. We propose an innovative approach that utilizes the romanized form of text as an interface for LLMs, hypothesizing that its frequent informal use and shared tokens with English enhance cross-lingual alignment. Focusing on Hindi, we demonstrate through Hindi-to-English translation and sentiment analysis tasks that romanized text not only significantly improves inference efficiency due to its lower fertility compared to native text but also achieves competitive performance with limited pre-training. Additionally, our novel multi-script prompting approach, which combines romanized and native texts, shows promise in further enhancing task performance. These findings suggest the potential of romanization in bridging the language gap for LLM applications, with future work aimed at expanding this approach to more languages and tasks. | 翻訳日:2024-01-26 14:09:26 公開日:2024-01-25 |
# ZS4C: ChatGPT を用いた不完全コードスニペット用コンパイル可能コードのゼロショット合成 ZS4C: Zero-Shot Synthesis of Compilable Code for Incomplete Code Snippets using ChatGPT ( http://arxiv.org/abs/2401.14279v1 ) ライセンス: Link先を確認 | Azmain Kabir, Shaowei Wang, Yuan Tian, Tse-Hsun (Peter) Chen, Muhammad Asaduzzaman, Wenbin Zhang | (参考訳) Stack Overflowのような技術的疑問と回答(Q&A)サイトは、ソフトウェア開発者が知識を求める上で重要な情報源になっている。
しかしながら、Q&Aサイトのコードスニペットは通常、未解決の型と依存ライブラリが欠如しているため、コンパイルにはコンパイル不可能で意味的に不完全である。
以前のアプローチは、コンパイル可能なコードを合成するために設計されていないか、あるいは低いコンパイル成功率に悩まされている。
この問題に対処するために,Large Language Model (LLM) を用いた不完全なコードスニペットからコンパイル可能コードのゼロショット合成を行う軽量なアプローチであるZS4Cを提案する。
ZS4Cは2段階ある。
最初の段階では、ZS4CはLLM、すなわちChatGPTを使用して、与えられたコードスニペットの欠落したインポートステートメントを特定し、設計したタスク固有のプロンプトテンプレートを活用する。
第2段階では、ZS4CはChatGPTとコンパイラの協調作業を通じて、誤ったインポート文と構文エラーによるコンパイルエラーを修正する。
我々はZS4CをSnRに対するStatType-SOと呼ばれる広く使われているベンチマークで徹底的に評価した。
SnRと比較して、ZS4Cはコンパイル速度を63%から87.6%改善し、39.3%改善した。
平均すると、ZS4CはSnRよりも正確なインポートステートメントを推測でき、F1では6.6%改善されている。 Technical question and answering (Q&A) sites such as Stack Overflow have become an important source for software developers to seek knowledge. However, code snippets on Q&A sites are usually uncompilable and semantically incomplete for compilation due to unresolved types and missing dependent libraries, which raises the obstacle for users to reuse or analyze Q&A code snippets. Prior approaches either are not designed for synthesizing compilable code or suffer from a low compilation success rate. To address this problem, we propose ZS4C, a lightweight approach to perform zero-shot synthesis of compilable code from incomplete code snippets using Large Language Model (LLM). ZS4C operates in two stages. In the first stage, ZS4C utilizes an LLM, i.e., ChatGPT, to identify missing import statements for a given code snippet, leveraging our designed task-specific prompt template. In the second stage, ZS4C fixes compilation errors caused by incorrect import statements and syntax errors through collaborative work between ChatGPT and a compiler. We thoroughly evaluated ZS4C on a widely used benchmark called StatType-SO against the SOTA approach SnR. Compared with SnR, ZS4C improves the compilation rate from 63% to 87.6%, with a 39.3% improvement. On average, ZS4C can infer more accurate import statements than SnR, with an improvement of 6.6% in the F1. | 翻訳日:2024-01-26 14:09:04 公開日:2024-01-25 |
# 変圧器と皮質波:時間とともにコンテキストをプルするエンコーダ Transformers and Cortical Waves: Encoders for Pulling In Context Across Time ( http://arxiv.org/abs/2401.14267v1 ) ライセンス: Link先を確認 | Lyle Muller, Patricia S. Churchland, and Terrence J. Sejnowski | (参考訳) ChatGPTや他の大規模言語モデル(LLM)のようなトランスフォーマーネットワークの能力は、世界中の注目を集めている。
その性能の基礎となる重要な計算メカニズムは、文中の全ての単語を長い「エンコーディングベクトル」に変換することで、トランスフォーマーは自然数列における長距離の時間依存を学習できる。
具体的には、この符号化ベクトルに適用される「自己アテンション」は、入力列内の単語のペア間の関係を計算し、トランスフォーマーの時間的文脈を強化する。
神経活動の波は1つの皮質領域を横切るか、脳規模で複数の領域を横断するが、同様のエンコーディング原理を実装できることが示唆された。
最近の入力履歴を各瞬間に単一の空間パターンにカプセル化することで、皮質波は、トランスフォーマーで使われるのと同じ計算原理である知覚入力のシーケンスから時間的文脈を抽出することができる。 The capabilities of transformer networks such as ChatGPT and other Large Language Models (LLMs) have captured the world's attention. The crucial computational mechanism underlying their performance relies on transforming a complete input sequence - for example, all the words in a sentence into a long "encoding vector" - that allows transformers to learn long-range temporal dependencies in naturalistic sequences. Specifically, "self-attention" applied to this encoding vector enhances temporal context in transformers by computing associations between pairs of words in the input sequence. We suggest that waves of neural activity, traveling across single cortical regions or across multiple regions at the whole-brain scale, could implement a similar encoding principle. By encapsulating recent input history into a single spatial pattern at each moment in time, cortical waves may enable temporal context to be extracted from sequences of sensory inputs, the same computational principle used in transformers. | 翻訳日:2024-01-26 14:08:38 公開日:2024-01-25 |
# 保存法則と量子力学の基礎 Conservation laws and the foundations of quantum mechanics ( http://arxiv.org/abs/2401.14261v1 ) ライセンス: Link先を確認 | Yakir Aharonov, Sandu Popescu, Daniel Rohrlich | (参考訳) 最近の論文pnas, 118, e1921529118 (2021) では、統計的な特徴を持つ量子力学における保存法則の標準的な定義は完璧に有効であるが、自然の本質的な特徴を欠き、個々のケースにおける保存/非保存の問題に対処するために再検討する必要があると主張した。
具体的には, 統計的に保存されているにもかかわらず, 個々の場合においてエネルギーが保存されていないことを証明できる実験を行った。
しかし、これは憂慮すべきことであり、標準保存法によっては必要とされないものの、保存が守られない個別の事例がある場合、何かが間違っていなければならないと感じられた。
ここでは、その実験を再検討し、その結果は正しいが、それらを回避し、その状況において個別のケース保存を確保する方法があることを示す。
しかし、この解は非常に珍しいもので、量子力学の基本的な仮定の1つ、すなわち任意の量子状態が作成可能であり、時間全体論的で二重の非保存効果が伴う。
本研究は, 粒子の初期状態における生成段階の役割と, 保存法と参照枠の相互作用に新たな光を当てるものである。
また, 保全実験の完全な解析を行うと, 個々の事例に対して保存が従うと推測する。 In a recent paper, PNAS, 118, e1921529118 (2021), it was argued that while the standard definition of conservation laws in quantum mechanics, which is of a statistical character, is perfectly valid, it misses essential features of nature and it can and must be revisited to address the issue of conservation/non-conservation in individual cases. Specifically, in the above paper an experiment was presented in which it can be proven that in some individual cases energy is not conserved, despite being conserved statistically. It was felt however that this is worrisome, and that something must be wrong if there are individual instances in which conservation doesn't hold, even though this is not required by the standard conservation law. Here we revisit that experiment and show that although its results are correct, there is a way to circumvent them and ensure individual case conservation in that situation. The solution is however quite unusual, challenging one of the basic assumptions of quantum mechanics, namely that any quantum state can be prepared, and it involves a time-holistic, double non-conservation effect. Our results bring new light on the role of the preparation stage of the initial state of a particle and on the interplay of conservation laws and frames of reference. We also conjecture that when such a full analysis of any conservation experiment is performed, conservation is obeyed in every individual case. | 翻訳日:2024-01-26 14:08:21 公開日:2024-01-25 |
# 非平衡開量子系におけるMpemba効果 Mpemba effects in nonequilibrium open quantum systems ( http://arxiv.org/abs/2401.14259v1 ) ライセンス: Link先を確認 | Xuanhua Wang, Jin Wang | (参考訳) 元々は、Mpemba効果(MPE)は、低温のシステムよりも高温のシステムのより高速なアイシングを指す。
この概念は後に、ある系量の異常な崩壊から平衡状態へと一般化された。
本研究では,システムにそのような平衡状態が存在しない場合のシナリオを考察する。
代わりに、システムは2つの異なる浴槽と接触し、周囲の熱浴から一定のエネルギー注入によって持続する非平衡状態のみが存在する。
まず, 非平衡条件は, MPEが出現するパラメータ構造を劇的に拡大することができることを示す。
第2に, 2サイトフェルミオン系における量子相関の進化において, 異常なMPEと逆MPEが出現し, 非平衡条件がMPEを高速化あるいは遅らせることを示した。
第3に、非平衡誘起量子コヒーレンスが、従来のリンドブラジアンダイナミクスが捕獲に失敗したmpeの出現にかなりの寄与があることを示す。 Originally, the Mpemba effect (MPE) is referred to the faster icing of a higher-temperature system than a system of a lower temperature. This concept was later generalized to anomalous decays of certain system quantities to the equilibrium states. In this study, we investigate the scenario when a system has no such equilibrium state to approach. Instead, the system is put in contact with two different baths, and only a nonequilibrium state exists, sustained by constant energy injection from the surrounding thermal baths. Firstly, we show that the nonequilibrium conditions can dramatically enlarge the parameter regimes where the MPE emerges. Secondly, we demonstrate that the anomalous MPEs and inverse MPEs emerge in the evolution of quantum correlations in the two-site fermionic system and that nonequilibrium conditions can expedite or delay the MPEs. Thirdly, we show that the nonequilibrium-induced quantum coherence can have considerable contributions to the emergence of the MPE which the conventional Lindbladian dynamics fails to capture. | 翻訳日:2024-01-26 14:07:56 公開日:2024-01-25 |
# Sketch2NeRF:マルチビューのSketch-Guided Text-to-3D ジェネレーション Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation ( http://arxiv.org/abs/2401.14257v1 ) ライセンス: Link先を確認 | Minglin Chen and Longguang Wang and Weihao Yuan and Yukun Wang and Zhe Sheng and Yisheng He and Zilong Dong and Liefeng Bo and Yulan Guo | (参考訳) 近年,テキスト記述を用いた高忠実度3Dコンテンツ生成を実現している。
しかし、生成されたオブジェクトは確率的であり、きめ細かい制御がない。
スケッチは、そのような細かい制御を導入するための安価なアプローチを提供する。
それでも、これらのスケッチの抽象化と曖昧さのため、柔軟な制御を実現することは困難である。
本稿では,3d生成にスケッチ制御を追加するために,マルチビューのスケッチガイド付きテキストから3d生成フレームワーク(sketch2nerf)を提案する。
具体的には、トレーニング済みの2次元拡散モデル(例えば、安定拡散と制御ネット)を利用して、ニューラル放射場(NeRF)で表される3次元シーンの最適化を監督する。
我々は、NeRFを効果的に最適化するための新しい同期生成と再構成手法を提案する。
実験では,提案手法を評価するために,2種類のマルチビュースケッチデータセットを収集した。
本手法は,テキストプロンプトに高忠実さを保ちながら,微細なスケッチ制御により3次元一貫したコンテンツを合成できることを実証する。
その結果,スケッチの類似性やテキストのアライメントの観点から,最先端の性能が得られた。 Recently, text-to-3D approaches have achieved high-fidelity 3D content generation using text description. However, the generated objects are stochastic and lack fine-grained control. Sketches provide a cheap approach to introduce such fine-grained control. Nevertheless, it is challenging to achieve flexible control from these sketches due to their abstraction and ambiguity. In this paper, we present a multi-view sketch-guided text-to-3D generation framework (namely, Sketch2NeRF) to add sketch control to 3D generation. Specifically, our method leverages pretrained 2D diffusion models (e.g., Stable Diffusion and ControlNet) to supervise the optimization of a 3D scene represented by a neural radiance field (NeRF). We propose a novel synchronized generation and reconstruction method to effectively optimize the NeRF. In the experiments, we collected two kinds of multi-view sketch datasets to evaluate the proposed method. We demonstrate that our method can synthesize 3D consistent contents with fine-grained sketch control while being high-fidelity to text prompts. Extensive results show that our method achieves state-of-the-art performance in terms of sketch similarity and text alignment. | 翻訳日:2024-01-26 14:07:40 公開日:2024-01-25 |
# データセットシフトにロバストなプランクトン分類器の作成 Producing Plankton Classifiers that are Robust to Dataset Shift ( http://arxiv.org/abs/2401.14256v1 ) ライセンス: Link先を確認 | Cheng Chen, Sreenath Kyathanahally, Marta Reyes, Stefanie Merkli, Ewa Merz, Emanuele Francazi, Marvin Hoege, Francesco Pomati, Marco Baity-Jesi | (参考訳) 現代のプランクトン高スループットモニタリングは、水生態系における種認識のためのディープラーニング分類器に依存している。
名目上のパフォーマンスが満足できるにも関わらず、Dataset Shiftから大きな課題が発生し、デプロイメント中にパフォーマンスが低下する。
本研究では,zoolakeデータセットを,デプロイから10日間の手動アノテーション付きイメージに統合し,out-of-dataset(ood)パフォーマンスをベンチマークするテストセルとして機能する。
分析の結果,データセット内の条件で動作した分類器が,実際のシナリオで注目すべき障害に遭遇する事例が明らかになった。
例えば、名目テストの精度が92%のMobileNetは、OODの精度が77%である。
我々は,OOD性能低下につながる条件を体系的に検討し,新しいデータの分類において潜在的な落とし穴を識別するためのプリエンプティブアセスメント手法を提案し,分類に悪影響を及ぼすOOD画像の特徴を指摘する。
3段階のパイプラインを示す。
(i)OOD劣化を名目テスト性能と比較して同定する。
(ii)劣化原因の診断分析を行うこと、及び
三 解決策の提供
BEiTビジョントランスのアンサンブルは,OODロバスト性,幾何アンサンブル,回転型テストタイムアンサンブルに対応し,BEsTモデルと呼ばれる最もロバストなモデルとなっている。
エラーはコンテナクラスに集中して83%のOOD精度を達成する。
さらに、データセットシフトに対する感度が低く、プランクトンの存在量を十分に再現する。
提案するパイプラインは汎用プランクトン分類器に適用可能である。
重要な欠点を特定し,データセットシフトに対するモデル強化のための実用的な手順を提供することで,より信頼性の高いプランクトン分類技術の開発に寄与する。 Modern plankton high-throughput monitoring relies on deep learning classifiers for species recognition in water ecosystems. Despite satisfactory nominal performances, a significant challenge arises from Dataset Shift, which causes performances to drop during deployment. In our study, we integrate the ZooLake dataset with manually-annotated images from 10 independent days of deployment, serving as test cells to benchmark Out-Of-Dataset (OOD) performances. Our analysis reveals instances where classifiers, initially performing well in In-Dataset conditions, encounter notable failures in practical scenarios. For example, a MobileNet with a 92% nominal test accuracy shows a 77% OOD accuracy. We systematically investigate conditions leading to OOD performance drops and propose a preemptive assessment method to identify potential pitfalls when classifying new data, and pinpoint features in OOD images that adversely impact classification. We present a three-step pipeline: (i) identifying OOD degradation compared to nominal test performance, (ii) conducting a diagnostic analysis of degradation causes, and (iii) providing solutions. We find that ensembles of BEiT vision transformers, with targeted augmentations addressing OOD robustness, geometric ensembling, and rotation-based test-time augmentation, constitute the most robust model, which we call BEsT model. It achieves an 83% OOD accuracy, with errors concentrated on container classes. Moreover, it exhibits lower sensitivity to dataset shift, and reproduces well the plankton abundances. Our proposed pipeline is applicable to generic plankton classifiers, contingent on the availability of suitable test cells. By identifying critical shortcomings and offering practical procedures to fortify models against dataset shift, our study contributes to the development of more reliable plankton classification technologies. | 翻訳日:2024-01-26 14:07:22 公開日:2024-01-25 |
# 文法的進化とデータ拡張による乳癌診断の解釈解法 Interpretable Solutions for Breast Cancer Diagnosis with Grammatical Evolution and Data Augmentation ( http://arxiv.org/abs/2401.14255v1 ) ライセンス: Link先を確認 | Yumnah Hasan, Allan de Lima, Fatemeh Amerehi, Darian Reyes Fernandez de Bulnes, Patrick Healy, and Conor Ryan | (参考訳) 医療画像診断は機械学習(ML)モデルにますます依存している。
これは、非常に不均衡なデータセットによってしばしば妨げられるタスクであり、肯定的なケースは非常に稀である。
彼らの使用は、その限定的な解釈可能性によってさらに損なわれ、ますます重要になりつつある。
SHAPやLIMEのようなポストホックな解釈可能性技術は、いわゆるブラックボックスモデルでいくつかの成功を収めてきたが、本質的に理解可能なモデルの使用は、そのような取り組みをより実りあるものにしている。
本稿では, 比較的新しい合成データ生成手法であるSTEMを用いて, 文法進化(GE)が生み出すモデルを学習し, 本質的に理解可能なデータを生成する方法を示す。
STEMは、最近導入されたSynthetic Minority Oversampling Technique (SMOTE)、Edited Nearest Neighbour (ENN)、Mixupの組み合わせである。
本手法はDDSM(Digital Database for Screening Mammography)とウィスコンシン乳がん(WBC)データセットを用いてテストし,AUC(Area Under the Curve)の結果と,解釈可能性の異なる8種類の標準ML分類器の上位3つの性能分類器のアンサンブルを比較した。
GE由来のモデルは、解釈可能な解を維持しながら、最良のAUCを示すことを示す。 Medical imaging diagnosis increasingly relies on Machine Learning (ML) models. This is a task that is often hampered by severely imbalanced datasets, where positive cases can be quite rare. Their use is further compromised by their limited interpretability, which is becoming increasingly important. While post-hoc interpretability techniques such as SHAP and LIME have been used with some success on so-called black box models, the use of inherently understandable models makes such endeavors more fruitful. This paper addresses these issues by demonstrating how a relatively new synthetic data generation technique, STEM, can be used to produce data to train models produced by Grammatical Evolution (GE) that are inherently understandable. STEM is a recently introduced combination of the Synthetic Minority Oversampling Technique (SMOTE), Edited Nearest Neighbour (ENN), and Mixup; it has previously been successfully used to tackle both between class and within class imbalance issues. We test our technique on the Digital Database for Screening Mammography (DDSM) and the Wisconsin Breast Cancer (WBC) datasets and compare Area Under the Curve (AUC) results with an ensemble of the top three performing classifiers from a set of eight standard ML classifiers with varying degrees of interpretability. We demonstrate that the GE-derived models present the best AUC while still maintaining interpretable solutions. | 翻訳日:2024-01-26 14:06:50 公開日:2024-01-25 |
# ミッションTwitterプロフィールについて:選択的毒性行動の研究 On mission Twitter Profiles: A Study of Selective Toxic Behavior ( http://arxiv.org/abs/2401.14252v1 ) ライセンス: Link先を確認 | Hina Qayyum, Muhammad Ikram, Benjamin Zi Hao Zhao, an D. Wood, Nicolas Kourtellis, Mohamed Ali Kaafar | (参考訳) しばしば悪意ある団体から資金提供された、永続的なソーシャルメディア影響キャンペーンの議論は、勢いを増している。
これらのエンティティは、計測されたプロファイルを使用して、分割されたコンテンツと偽情報を広め、大衆の認識を形作る。
これらの計器式プロファイルの証拠は豊富だが、野生で発見するための識別方法はほとんどない。
検出を回避し、真に見せるために、計測されたプロファイルの小さなクラスタが無関係な議論を行い、真の目標から注意を逸らす。
この戦略的テーマの多様性は、特定のトピックに対する選択的な極性を隠蔽し、公共の信頼を育む。
本研究は「オンミッションプロファイル」と呼ばれる影響操作に使用される可能性のあるプロファイルの特徴付けを目的とした。
この作品の廃止は、内容の量と特定のテーマに対する毒性に焦点を当てている。
138kのtwitterまたはxから得られた縦断データ、プロファイル、および293mのツイートは、テーマの多様性に基づいたプロファイリングを可能にする。
高いテーマの多様性グループは、主に政治、健康、ニュースなどの特定のテーマに関する有害なコンテンツを「オンミッション」プロファイルとして分類する。
識別された `on-mission" プロファイルを使用して、未確認のラベル付きデータの分類器を設計する。線形SVMモデルを用いることで、最も多様なプロファイルの 80/20% の分割でそれをトレーニングし、テストする。分類器は欠陥のない100%の精度を達成し、これまで知られていなかった 'on-mission" プロファイルの発見を容易にする。 The argument for persistent social media influence campaigns, often funded by malicious entities, is gaining traction. These entities utilize instrumented profiles to disseminate divisive content and disinformation, shaping public perception. Despite ample evidence of these instrumented profiles, few identification methods exist to locate them in the wild. To evade detection and appear genuine, small clusters of instrumented profiles engage in unrelated discussions, diverting attention from their true goals. This strategic thematic diversity conceals their selective polarity towards certain topics and fosters public trust. This study aims to characterize profiles potentially used for influence operations, termed 'on-mission profiles,' relying solely on thematic content diversity within unlabeled data. Distinguishing this work is its focus on content volume and toxicity towards specific themes. Longitudinal data from 138K Twitter or X, profiles and 293M tweets enables profiling based on theme diversity. High thematic diversity groups predominantly produce toxic content concerning specific themes, like politics, health, and news classifying them as 'on-mission' profiles. Using the identified ``on-mission" profiles, we design a classifier for unseen, unlabeled data. Employing a linear SVM model, we train and test it on an 80/20% split of the most diverse profiles. The classifier achieves a flawless 100% accuracy, facilitating the discovery of previously unknown ``on-mission" profiles in the wild. | 翻訳日:2024-01-26 14:06:22 公開日:2024-01-25 |
# JUMP:ミニマル前処理によるニューロイメージングのためのマルチモーダル登録パイプライン JUMP: A joint multimodal registration pipeline for neuroimaging with minimal preprocessing ( http://arxiv.org/abs/2401.14250v1 ) ライセンス: Link先を確認 | Adria Casamitjana and Juan Eugenio Iglesias and Raul Tudela and Aida Ninerola-Baizan and Roser Sala-Llonch | (参考訳) 予備処理が最小限の神経画像モダリティの無バイアスかつ頑健なマルチモーダル登録のためのパイプラインを提案する。
典型的なマルチモーダル研究では、多様なオプションとハイパーパラメータを持つ複数の独立した処理パイプラインを使用する必要があるが、異なるイメージモダリティを共同で処理するための単一で構造化されたフレームワークを提案する。
最先端の学習技術を使用することで、高速な推論が可能となり、提案手法は大規模およびマルチコホートデータセットに適しており、セッション毎に様々なモダリティがある。
パイプラインは現在、構造MRI、静止状態fMRI、アミロイドPET画像で動作する。
事例制御研究において, 生体マーカーの予測能力を示し, 異なる画像モダリティ間の交叉モーダル関係について検討した。
コードはhttps: //github.com/acasamitjana/JUMPで確認できる。 We present a pipeline for unbiased and robust multimodal registration of neuroimaging modalities with minimal pre-processing. While typical multimodal studies need to use multiple independent processing pipelines, with diverse options and hyperparameters, we propose a single and structured framework to jointly process different image modalities. The use of state-of-the-art learning-based techniques enables fast inferences, which makes the presented method suitable for large-scale and/or multi-cohort datasets with a diverse number of modalities per session. The pipeline currently works with structural MRI, resting state fMRI and amyloid PET images. We show the predictive power of the derived biomarkers using in a case-control study and study the cross-modal relationship between different image modalities. The code can be found in https: //github.com/acasamitjana/JUMP. | 翻訳日:2024-01-26 14:05:55 公開日:2024-01-25 |
# 組織像における核インスタンス分割のためのセグメントオールモデルの一般化可能性について On generalisability of segment anything model for nuclear instance segmentation in histology images ( http://arxiv.org/abs/2401.14248v1 ) ライセンス: Link先を確認 | Kesi Xu, Lea Goetz, Nasir Rajpoot | (参考訳) 大規模で多様なデータセットで事前トレーニングされたsegment anything model(sam)は、オブジェクトのセグメンテーションタスクを目的とした、コンピュータビジョンにおける最初のプロンプト可能な基盤モデルである。
本研究では,ゼロショット学習と微調整による核インスタンスセグメンテーション性能のタスクにおいて,samを評価する。
我々はSAMを、特にモデル一般化可能性の文脈において、核インスタンス分割における他の代表的手法と比較する。
核インスタンスの自動セグメンテーションを実現するために,核画像から核インスタンスマスクを生成する場合のSAMの視覚的プロンプトとして,核検出モデルを用いて境界ボックスやヌクレの中心点を提供する。 Pre-trained on a large and diverse dataset, the segment anything model (SAM) is the first promptable foundation model in computer vision aiming at object segmentation tasks. In this work, we evaluate SAM for the task of nuclear instance segmentation performance with zero-shot learning and finetuning. We compare SAM with other representative methods in nuclear instance segmentation, especially in the context of model generalisability. To achieve automatic nuclear instance segmentation, we propose using a nuclei detection model to provide bounding boxes or central points of nu-clei as visual prompts for SAM in generating nuclear instance masks from histology images. | 翻訳日:2024-01-26 14:05:41 公開日:2024-01-25 |
# androidモバイルアプリケーションにおけるコントラクトの利用と進化 Contract Usage and Evolution in Android Mobile Applications ( http://arxiv.org/abs/2401.14244v1 ) ライセンス: Link先を確認 | David R. Ferreira, Alexandra Mendes, and Jo\~ao F. Ferreira | (参考訳) 形式的契約とアサーションは、事前条件、後条件、不変性を強制することによって、ソフトウェア品質を高める効果的な方法である。
これまでの研究は、従来のソフトウェア開発コンテキストにおける契約の価値を実証してきた。
しかし、モバイルアプリケーション開発、特にandroidアプリケーションにおけるコントラクトの採用と影響は、いまだに未調査のままである。
これに対処するため、我々は、javaまたはkotlinで書かれたandroidアプリケーションにおけるコントラクトの存在と使用について、最初の大規模な実証研究を行う。
条件付きランタイム例外、API、アノテーション、アサーションなどです。
F-Droidレポジトリから2,390のAndroidアプリケーションを解析し,51,749 KLOC以上を処理した。
1【契約の程度及び程度】
2)契約利用の進展,及び
3) 契約がプログラムの進化と継承の文脈で安全に使用されるかどうか。
私たちの発見には
1) ほとんどのアプリケーションは契約を規定していないが,アノテーションに基づくアプローチが最も普及している。
2) 契約を使用するアプリケーションは後続のバージョンで引き続き使用されるが,メソッドの数は契約数よりも高い速度で増加する。
3) アプリケーションが進化し、サブタイプ関係にある場合、潜在的に安全でない仕様の変更が多数あり、それは仕様の安定性の欠如を示している。
この結果から,JavaとKotlinのコントラクト仕様を標準化するライブラリや,より強いコントラクトの記述や,プログラムの進化と継承のコンテキストにおけるコントラクト違反の検出を支援するツールが望ましいことが示唆された。 Formal contracts and assertions are effective methods to enhance software quality by enforcing preconditions, postconditions, and invariants. Previous research has demonstrated the value of contracts in traditional software development contexts. However, the adoption and impact of contracts in the context of mobile application development, particularly of Android applications, remain unexplored. To address this, we present the first large-scale empirical study on the presence and use of contracts in Android applications, written in Java or Kotlin. We consider different types of contract elements divided into five categories: conditional runtime exceptions, APIs, annotations, assertions, and other. We analyzed 2,390 Android applications from the F-Droid repository and processed more than 51,749 KLOC to determine 1) how and to what extent contracts are used, 2) how contract usage evolves, and 3) whether contracts are used safely in the context of program evolution and inheritance. Our findings include: 1) although most applications do not specify contracts, annotation-based approaches are the most popular among practitioners; 2) applications that use contracts continue to use them in later versions, but the number of methods increases at a higher rate than the number of contracts; and 3) there are many potentially unsafe specification changes when applications evolve and in subtyping relationships, which indicates a lack of specification stability. Our findings show that it would be desirable to have libraries that standardize contract specifications in Java and Kotlin, and tools that aid practitioners in writing stronger contracts and in detecting contract violations in the context of program evolution and inheritance. | 翻訳日:2024-01-26 14:05:26 公開日:2024-01-25 |
# 熱状態の変分ニューラルネットワークとテンソルネットワーク近似 Variational Neural and Tensor Network Approximations of Thermal States ( http://arxiv.org/abs/2401.14243v1 ) ライセンス: Link先を確認 | Sirui Lu, Giacomo Giudice, J. Ignacio Cirac | (参考訳) 本稿では,修正自由エネルギーの最小化に基づく有限温度量子多体系近似のための変分モンテカルロアルゴリズムを提案する。
私たちは数値最適化のために変分 ans\"atze として、テンソルネットワークとニューラルネットワークの両方の様々な試行状態を採用しています。
上述のクラスにおける1次元問題と2次元問題の両方に対する異なる構成をベンチマークし比較し、最大 \(N=100\) スピンからなるシステムについて述べる。
一つの次元において優れた結果が得られたにもかかわらず、この数値 ans\"atze はより挑戦的な2次元システムに取り組むための表現論的制限を持つことが示唆された。 We introduce a variational Monte Carlo algorithm for approximating finite-temperature quantum many-body systems, based on the minimization of a modified free energy. We employ a variety of trial states -- both tensor networks as well as neural networks -- as variational ans\"atze for our numerical optimization. We benchmark and compare different constructions in the above classes, both for one- and two-dimensional problems, with systems made of up to \(N=100\) spins. Despite excellent results in one dimension, our results suggest that the numerical ans\"atze employed have certain expressive limitations for tackling more challenging two-dimensional systems. | 翻訳日:2024-01-26 14:05:04 公開日:2024-01-25 |
# コード大言語モデルの自然言語能力の向上 Improving Natural Language Capability of Code Large Language Model ( http://arxiv.org/abs/2401.14242v1 ) ライセンス: Link先を確認 | Wei Li and Daoguang Zan and Bei Guan and Ailun Yu and Xiaolin Chen and Yongji Wang | (参考訳) コード大言語モデル(Code LLM)は、コード生成において顕著なパフォーマンスを示している。
それにもかかわらず、既存のほとんどの研究はプログラミング能力の観点からコードLLMを強化することに重点を置いている。
そこで我々は,このギャップを埋めるために,ユーザの自然言語要件からキーフレーズを抽出するアテンション抽出器と,抽出されたフレーズを利用してターゲットコードを生成するアテンションコーダという2つのモジュールからなる新しいフレームワークを提案する。
このフレームワークは、従来の自然言語処理ツールにコードllmをシームレスに統合することで、革新的なアイデアを開拓する。
フレームワークの有効性を検証するため、5つの自然言語をカバーするMultiNL-Hという新しいコード生成ベンチマークを構築した。
広範な実験結果から,提案手法の有効性が示された。 Code large language models (Code LLMs) have demonstrated remarkable performance in code generation. Nonetheless, most existing works focus on boosting code LLMs from the perspective of programming capabilities, while their natural language capabilities receive less attention. To fill this gap, we thus propose a novel framework, comprising two modules: AttentionExtractor, which is responsible for extracting key phrases from the user's natural language requirements, and AttentionCoder, which leverages these extracted phrases to generate target code to solve the requirement. This framework pioneers an innovative idea by seamlessly integrating code LLMs with traditional natural language processing tools. To validate the effectiveness of the framework, we craft a new code generation benchmark, called MultiNL-H, covering five natural languages. Extensive experimental results demonstrate the effectiveness of our proposed framework. | 翻訳日:2024-01-26 14:04:50 公開日:2024-01-25 |
# 2次元量子環の光イオン化断面積に対する回転効果 Rotating effects on the photoionization cross-section of a 2D quantum ring ( http://arxiv.org/abs/2401.14333v1 ) ライセンス: Link先を確認 | Carlos Magno O. Pereira, Frankbelson dos S. Azevedo, Lu\'is Fernando C. Pereira, Edilberto O. Silva | (参考訳) 本稿では、Aharonov-Bohm(AB)効果と均一磁場を考慮した、回転フレーム内の荷電粒子の非相対論的量子運動について検討する。
本分析では,運動方程式と対応する半径方程式を導出してシステムを記述する。
結果のラジアル方程式を解くことで固有値と固有関数を決定でき、エネルギー準位を明確に表現できる。
さらに, 回転がエネルギーレベルと光学特性に与える影響についても数値解析を行った。
具体的には,光電離断面積(PCS)を回転の影響を受けずに評価する。
システムの光イオン化過程における回転の影響を明らかにするため,本質的な物理特性の魅力的な可視化を行うグラフィックスを提案する。 In this letter, we investigate the nonrelativistic quantum motion of a charged particle within a rotating frame, taking into account the Aharonov-Bohm (AB) effect and a uniform magnetic field. Our analysis entails the derivation of the equation of motion and the corresponding radial equation to describe the system. Solving the resulting radial equation enables us to determine the eigenvalues and eigenfunctions, providing a clear expression for the energy levels. Furthermore, our numerical analysis highlights the substantial influence of rotation on both energy levels and optical properties. Specifically, we evaluate the photoionization cross-section (PCS) with and without the effects of rotation. To elucidate the impact of rotation on the photoionization process of the system, we present graphics that offer an appealing visualization of the intrinsic nature of the physics involved. | 翻訳日:2024-01-26 14:00:14 公開日:2024-01-25 |
# SunBlock: IoTシステムのクラウドレス保護 SunBlock: Cloudless Protection for IoT Systems ( http://arxiv.org/abs/2401.14332v1 ) ライセンス: Link先を確認 | Vadim Safronov, Anna Maria Mandalari, Daniel J. Dubois, David Choffnes, Hamed Haddadi | (参考訳) 家庭におけるiot(internet of things, モノのインターネット)デバイスの増加に伴い、潜在的な情報漏洩チャネルの数や、関連するセキュリティの脅威やプライバシーのリスクが増加している。
未保護のホームネットワークにおけるiotデバイスへの攻撃の長い歴史にもかかわらず、これらの攻撃の正確かつ迅速な検出と防止の問題はいまだに未解決である。
多くの既存のIoT保護ソリューションはクラウドベースであり、時には非効率であり、コンシューマデータを未知のサードパーティと共有する可能性がある。
本稿では,従来のルールに基づくトラフィックフィルタリングアルゴリズムと組み合わせたAIツールを用いて,家庭ルータ上でのIoTの効果的な脅威検出の可能性を検討する。
この結果から,機械学習やトラフィックフィルタリングロジックによるルータのハードウェアリソースのわずかな増加により,当社のソリューションを具備した一般的なホームルータは,リスクを効果的に検出し,一般的なホームIoTネットワークを保護し,既存のポピュラーなソリューションと同等あるいは同等に動作し,良質なIoT機能に影響を与えず,クラウドサービスやサードパーティに依存しない。 With an increasing number of Internet of Things (IoT) devices present in homes, there is a rise in the number of potential information leakage channels and their associated security threats and privacy risks. Despite a long history of attacks on IoT devices in unprotected home networks, the problem of accurate, rapid detection and prevention of such attacks remains open. Many existing IoT protection solutions are cloud-based, sometimes ineffective, and might share consumer data with unknown third parties. This paper investigates the potential for effective IoT threat detection locally, on a home router, using AI tools combined with classic rule-based traffic-filtering algorithms. Our results show that with a slight rise of router hardware resources caused by machine learning and traffic filtering logic, a typical home router instrumented with our solution is able to effectively detect risks and protect a typical home IoT network, equaling or outperforming existing popular solutions, without any effects on benign IoT functionality, and without relying on cloud services and third parties. | 翻訳日:2024-01-26 14:00:01 公開日:2024-01-25 |
# 真空1光子重ね合わせにより誘起される3量子純状態における三分子絡み合いと三分子ステアリング Tripartite entanglement and tripartite steering in three-qubit pure states induced by vacuum-one-photon superpositions ( http://arxiv.org/abs/2401.14328v1 ) ライセンス: Link先を確認 | Jian Wang, Huan Liu, Xue-feng Zhan and Xue-xiang Xu | (参考訳) 可変パラメータの$T$と真空一光子重ね合わせにより誘導されるトリッターを$\left\vert 0\right\rangle +\alpha \left\vert 1\right\rangle $ with $\alpha =\left\vert \alpha \right\vert e^{i\phi }$とすることで、3ビット純状態のクラスを生成する。
これらの状態は $\left\vert \psi \right\rangle _{123}=c_{0}\left\vert 000\right\rangle +c_{1}\left\vert 100\right\rangle +c_{2}\left\vert 010\right\rangle +c_{3}\left\vert 001\right\rangle $ の形をとる。
係数 (c_{0}$、$c_{1}$、$c_{2}$、$c_{3}$) は相互作用パラメータ (\left\vert \alpha \right\vert $、$\phi $、$t$) によって操作できる。
Xie と Eberly の業績[Phys. Rev. Lett. 127, 040403 (2021)] に則って、この共起三角形測度を用いて、$\left\vert \psi \right\rangle _{123}$ の真の三部体絡みについて検討する。
Hao et al. の研究 (Phys. Lett. 128, 120402 (2021)] に基づき、不確実性関係の基準に基づく特定の測定の下で、$\left\vert \psi \right\rangle _{123} の三部式ステアリングについて検討する。
異なるパラメータ空間間で異なるステアビリティを示す9つの潜在的構成を同定する。
注意すべきは、状態 $% \left\vert \psi \right\rangle _{123}$ は絡み合いを示すが、ステアリングはパラメータ空間のかなりの部分では維持できないことである。 Utilizing a tritter with variable parameter $T$ and induced by vacuum-one-photon superpositions $\left\vert 0\right\rangle +\alpha \left\vert 1\right\rangle $ with $\alpha =\left\vert \alpha \right\vert e^{i\phi }$, we generate a class of three-qubit pure states. These states take the form of $\left\vert \psi \right\rangle _{123}=c_{0}\left\vert 000\right\rangle +c_{1}\left\vert 100\right\rangle +c_{2}\left\vert 010\right\rangle +c_{3}\left\vert 001\right\rangle $. The coefficients ($ c_{0}$, $c_{1}$, $c_{2}$, and $c_{3}$) can be manipulated through interaction parameters ($\left\vert \alpha \right\vert $, $\phi $, and $T$). In line with Xie and Eberly's work[Phys. Rev. Lett. 127, 040403 (2021)], we investigate the genuine tripartite entanglement for $\left\vert \psi \right\rangle _{123}$ using the concurrence triangle measure. Drawing on Hao et al.'s research [Phys. Rev. Lett. 128, 120402 (2021)], we examine tripartite steering for $\left\vert \psi \right\rangle _{123}$ under certain measurements based on the uncertainty relations criterion. We identify nine potential configurations exhibiting varying steerability across different parameter spaces. It is important to highlight that while the state $% \left\vert \psi \right\rangle _{123}$ exhibits entanglement, steering remains unattainable in a substantial portion of the parameter space. | 翻訳日:2024-01-26 13:59:40 公開日:2024-01-25 |
# 過去の情報を解き放つ:協調的な鳥の目視予測における時間的埋め込み Unlocking Past Information: Temporal Embeddings in Cooperative Bird's Eye View Prediction ( http://arxiv.org/abs/2401.14325v1 ) ライセンス: Link先を確認 | Dominik R\"o{\ss}le and Jeremias Gerner and Klaus Bogenberger and Daniel Cremers and Stefanie Schmidtner and Torsten Sch\"on | (参考訳) Bird's Eye View(BEV)の正確かつ包括的なセマンティックセマンティックセマンティックセマンティクスは、自律運転における安全で前向きなナビゲーションを保証するために不可欠である。
協調認識は単一エージェントシステムの検出能力を上回るが、協調認識におけるカメラベースアルゴリズムは、歴史的観測から得られた貴重な情報を無視している。
この制限は、センサーの故障やコミュニケーションの問題の間、協調的な知覚が単一エージェントの知覚に逆戻りし、性能低下と不完全なBEVセグメンテーションマップをもたらす。
本稿では,歴史的手がかりを現在の観測に取り入れた時間モジュールであるTempCoBEVを紹介し,BEVマップセグメンテーションの品質と信頼性を向上させる。
本稿では,BEVマップセグメンテーションの関連特性を優先する時間情報を効果的に統合するための重要誘導型アテンションアーキテクチャを提案する。
TempCoBEVは、最先端のカメラベースの協調認識モデルにシームレスに統合される独立した時間モジュールである。
我々は、TempCoBEVが現在および将来のBEVマップセグメンテーションを予測する際に、特に通信障害を伴うシナリオにおいて、非時間モデルよりも優れた性能を発揮するOPV2Vデータセットに関する広範な実験を通して示す。
我々は,TempCoBEVの有効性と,現在のBEVマップに歴史的手がかりを統合する能力を示し,最適な通信条件下での予測を最大2%,通信障害下での予測を最大19%改善する。
コードはgithubで公開されている。 Accurate and comprehensive semantic segmentation of Bird's Eye View (BEV) is essential for ensuring safe and proactive navigation in autonomous driving. Although cooperative perception has exceeded the detection capabilities of single-agent systems, prevalent camera-based algorithms in cooperative perception neglect valuable information derived from historical observations. This limitation becomes critical during sensor failures or communication issues as cooperative perception reverts to single-agent perception, leading to degraded performance and incomplete BEV segmentation maps. This paper introduces TempCoBEV, a temporal module designed to incorporate historical cues into current observations, thereby improving the quality and reliability of BEV map segmentations. We propose an importance-guided attention architecture to effectively integrate temporal information that prioritizes relevant properties for BEV map segmentation. TempCoBEV is an independent temporal module that seamlessly integrates into state-of-the-art camera-based cooperative perception models. We demonstrate through extensive experiments on the OPV2V dataset that TempCoBEV performs better than non-temporal models in predicting current and future BEV map segmentations, particularly in scenarios involving communication failures. We show the efficacy of TempCoBEV and its capability to integrate historical cues into the current BEV map, improving predictions under optimal communication conditions by up to 2% and under communication failures by up to 19%. The code will be published on GitHub. | 翻訳日:2024-01-26 13:58:54 公開日:2024-01-25 |
# アーキテクチャモデリングと形式的プログラム分析を組み合わせたソフトウェア正しさの定量化 Quantifying Software Correctness by Combining Architecture Modeling and Formal Program Analysis ( http://arxiv.org/abs/2401.14320v1 ) ライセンス: Link先を確認 | Florian Lanzinger, Christian Martin, Frederik Reiche, Samuel Teuber, Robert Heinrich, Alexander Weigl | (参考訳) ほとんどの形式的手法は、ソフトウェアシステムの正しさを二分決定と見なす。
しかし、複雑なシステムの正確性を証明することは、複数のコンポーネント、利用シナリオ、環境から構成されているため困難である。
提案するQuACは,ソフトウェアアーキテクチャモデリングと帰納的検証を組み合わせることで,サービス指向ソフトウェアシステムの正しさを定量化するモジュール方式である。
私たちのアプローチは、サービス指向アーキテクチャのモデルとシステムの確率論的利用シナリオに基づいています。
単一のサービスの正確性はカバレッジ領域によって近似される。これは、そのサービスの入力が誤って実行されないことを証明した公式である。
カバレッジ領域は、形式的検証、専門家の推定、テストなど、さまざまな分析の組み合わせによって決定することができる。
カバレッジ領域とソフトウェアモデルは、確率的プログラムに結合される。
これにより、特定の使用状況下では、そのカバレッジ領域外ではサービスが呼び出されない確率を計算できる。
カバレッジ領域が十分に大きい場合、100%カバレッジを取得しようとする代わりに、実行時の検証やテストのアプローチが、カバレッジ領域外のインプットに使用される可能性がある。
また,モデリングツールのPalladioと推論検証ツールのKeYを用いて,Java用QuACの実装を提案する。
エネルギーシステムのソフトウェアシミュレーションに適用することにより,そのユーザビリティを実証する。 Most formal methods see the correctness of a software system as a binary decision. However, proving the correctness of complex systems completely is difficult because they are composed of multiple components, usage scenarios, and environments. We present QuAC, a modular approach for quantifying the correctness of service-oriented software systems by combining software architecture modeling with deductive verification. Our approach is based on a model of the service-oriented architecture and the probabilistic usage scenarios of the system. The correctness of a single service is approximated by a coverage region, which is a formula describing which inputs for that service are proven to not lead to an erroneous execution. The coverage regions can be determined by a combination of various analyses, e.g., formal verification, expert estimations, or testing. The coverage regions and the software model are then combined into a probabilistic program. From this, we can compute the probability that under a given usage profile no service is called outside its coverage region. If the coverage region is large enough, then instead of attempting to get 100% coverage, which may be prohibitively expensive, run-time verification or testing approaches may be used to deal with inputs outside the coverage region. We also present an implementation of QuAC for Java using the modeling tool Palladio and the deductive verification tool KeY. We demonstrate its usability by applying it to a software simulation of an energy system. | 翻訳日:2024-01-26 13:58:28 公開日:2024-01-25 |
# マルチテスト:マルチセンサー融合知覚システムをテストするための物理認識オブジェクト挿入 MultiTest: Physical-Aware Object Insertion for Testing Multi-sensor Fusion Perception Systems ( http://arxiv.org/abs/2401.14314v1 ) ライセンス: Link先を確認 | Xinyu Gao, Zhijie Wang, Yang Feng, Lei Ma, Zhenyu Chen, Baowen Xu | (参考訳) マルチセンサー融合は、自動運転車や自動ロボットアームなど、多くの安全クリティカルなタスクや応用に取り組む上で重要な技術である。
データ駆動人工知能(AI)の継続的な進歩により、複雑な外部環境を検知し理解するMCFのポテンシャルはさらに増幅され、インテリジェントシステム、特にその知覚システムに大きな影響を与えている。
従来のソフトウェアと同様に、AI対応のMSFシステムにも適切なテストが必要である。
しかし、既存のテスト方法は、主に単一センサーの知覚システム(イメージ/ポイントのクラウドベースの物体検出システムなど)に集中している。
msfシステムのためのマルチモーダルテストケースの生成に重点が置かれていない。
これらの制約に対処するために、複雑なMSF認識システムのための適合性誘導型メタモルフィックテスト手法であるMultiTestを設計、実装する。
MultiTestは物理的なアプローチを採用し、現実的なマルチモーダルオブジェクトインスタンスを合成し、背景画像や点雲の重要な位置に挿入する。
適合度指標は、テスト生成プロセスのガイドと促進のために設計されている。
我々は,(1) 生成したテストケースのリアリズム,(2) 故障検出機能,(3) 性能改善の観点から,MultiTestを評価するための5つのSOTA認識システムを用いた広範囲な実験を行った。
その結果,MultiTestは現実的かつモダリティに一貫性のあるテストデータを生成し,テスト中のMSFシステムの数百の障害を効果的に検出できることがわかった。
さらに、MultiTestが生成したテストケースでMSFシステムを再トレーニングすることで、システムの堅牢性を向上させることができる。 Multi-sensor fusion stands as a pivotal technique in addressing numerous safety-critical tasks and applications, e.g., self-driving cars and automated robotic arms. With the continuous advancement in data-driven artificial intelligence (AI), MSF's potential for sensing and understanding intricate external environments has been further amplified, bringing a profound impact on intelligent systems and specifically on their perception systems. Similar to traditional software, adequate testing is also required for AI-enabled MSF systems. Yet, existing testing methods primarily concentrate on single-sensor perception systems (e.g., image-/point cloud-based object detection systems). There remains a lack of emphasis on generating multi-modal test cases for MSF systems. To address these limitations, we design and implement MultiTest, a fitness-guided metamorphic testing method for complex MSF perception systems. MultiTest employs a physical-aware approach to synthesize realistic multi-modal object instances and insert them into critical positions of background images and point clouds. A fitness metric is designed to guide and boost the test generation process. We conduct extensive experiments with five SOTA perception systems to evaluate MultiTest from the perspectives of: (1) generated test cases' realism, (2) fault detection capabilities, and (3) performance improvement. The results show that MultiTest can generate realistic and modality-consistent test data and effectively detect hundreds of diverse faults of an MSF system under test. Moreover, retraining an MSF system on the test cases generated by MultiTest can improve the system's robustness. | 翻訳日:2024-01-26 13:58:07 公開日:2024-01-25 |
# 『all of me』:spotifyの公開プレイリストからユーザーの属性をマイニングする "All of Me": Mining Users' Attributes from their Public Spotify Playlists ( http://arxiv.org/abs/2401.14296v1 ) ライセンス: Link先を確認 | Pier Paolo Tricomi, Luca Pajola, Luca Pasa, Mauro Conti | (参考訳) デジタル音楽ストリーミングの時代、Spotifyのようなプラットフォーム上のプレイリストは個人の音楽体験の不可欠な部分となっている。
人々は自身のプレイリストを作成し、公開し、音楽の好みを表現し、お気に入りのアーティストの発見を促進し、社会的つながりを育む。
これらのパブリックアクセス可能なプレイリストは単なる音楽的嗜好の境界を超越し、ユーザの属性やアイデンティティに関する豊富な洞察の源として機能する。
例えば、高齢者の好みはフランク・シナトラに傾き、ビリー・アイリッシュは10代の若者に好まれる選択である。
これらのプレイリストは、音楽的アイデンティティの多様性と進化の様相の窓となる。
本研究では,Spotify利用者の属性とパブリックプレイリストとの関係について検討する。
特に,人口統計,習慣,性格特性など,ユーザの個人属性に関連付けられた繰り返し音楽的特徴の同定に着目する。
この目的のために、我々は739人のspotifyユーザーが参加するオンライン調査を行い、20万以上のユニーク曲と5万5000人のアーティストを含む公開プレイリスト10,286のデータセットを作成した。
広範な統計分析を通じて、まずユーザーのSpotifyプレイリストと実際の属性との深い関係を評価する。
例えば、オープン性が高い個人は多様なアーティストをフィーチャーしたプレイリストを作ることが多いが、女性ユーザーはポップやkポップのジャンルを好む。
これら観測された関連に基づいて、ユーザの属性の正確な予測モデルを作成し、これらの属性のベースラインを上回る新しいdeepsetアプリケーションを示します。 In the age of digital music streaming, playlists on platforms like Spotify have become an integral part of individuals' musical experiences. People create and publicly share their own playlists to express their musical tastes, promote the discovery of their favorite artists, and foster social connections. These publicly accessible playlists transcend the boundaries of mere musical preferences: they serve as sources of rich insights into users' attributes and identities. For example, the musical preferences of elderly individuals may lean more towards Frank Sinatra, while Billie Eilish remains a favored choice among teenagers. These playlists thus become windows into the diverse and evolving facets of one's musical identity. In this work, we investigate the relationship between Spotify users' attributes and their public playlists. In particular, we focus on identifying recurring musical characteristics associated with users' individual attributes, such as demographics, habits, or personality traits. To this end, we conducted an online survey involving 739 Spotify users, yielding a dataset of 10,286 publicly shared playlists encompassing over 200,000 unique songs and 55,000 artists. Through extensive statistical analyses, we first assess a deep connection between a user's Spotify playlists and their real-life attributes. For instance, we found individuals high in openness often create playlists featuring a diverse array of artists, while female users prefer Pop and K-pop music genres. Building upon these observed associations, we create accurate predictive models for users' attributes, presenting a novel DeepSet application that outperforms baselines in most of these users' attributes. | 翻訳日:2024-01-26 13:57:40 公開日:2024-01-25 |
# 推論のトポロジー:思考の連鎖、木、グラフの謎化 Topologies of Reasoning: Demystifying Chains, Trees, and Graphs of Thoughts ( http://arxiv.org/abs/2401.14295v1 ) ライセンス: Link先を確認 | Maciej Besta, Florim Memedi, Zhenyu Zhang, Robert Gerstenberger, Nils Blach, Piotr Nyczyk, Marcin Copik, Grzegorz Kwa\'sniewski, J\"urgen M\"uller, Lukas Gianinazzi, Ales Kubicek, Hubert Niewiadomski, Onur Mutlu, Torsten Hoefler | (参考訳) 自然言語処理(NLP)の分野は近年大きく進歩しており、革新的なプロンプト技術による大規模言語モデル(LLM)のパフォーマンス向上に特化している。
これらのうち、構造と組み合わされた素早いエンジニアリングは有望なパラダイムとして現れており、図のような構造によってLLM推論全体を導出するChain-of-Thought、Tree of Thoughts、Graph of Thoughtsといった設計がされている。
多数の例で示されるように、このパラダイムは論理的、数学的推論から計画的、創造的な執筆まで、多くのタスクを解決できるllmの能力を大幅に向上させる。
そこで我々は, この成長分野の理解を深め, 今後の発展への道を開くために, LLM推論を効果的かつ効率的に行うための一般的な青写真を作成する。
そこで本研究では,実行パイプラインの詳細な分析を行い,概念の明確化と明確化を行う。
次に、構造強化LPM推論スキームの最初の分類法を構築する。
我々は,活用構造の基本クラスを特定することに集中し,これらの構造の表現,これらの構造で実行されるアルゴリズム,その他多くのものを分析する。
これらの構造を推論トポロジー(英語版)と呼び、それらの表現は LLM の文脈に含まれるため、空間の次数になる。
本研究は,提案した分類法を用いて既存のプロンプト方式と比較し,特定の設計選択が性能とコストの異なるパターンにどのように寄与するかを論じる。
また、理論的な基盤、知識ベースなどのLLMエコシステムの他の部分との関係、関連する研究課題についても概説する。
私たちの仕事は将来的な技術進歩に役立つだろう。 The field of natural language processing (NLP) has witnessed significant progress in recent years, with a notable focus on improving large language models' (LLM) performance through innovative prompting techniques. Among these, prompt engineering coupled with structures has emerged as a promising paradigm, with designs such as Chain-of-Thought, Tree of Thoughts, or Graph of Thoughts, in which the overall LLM reasoning is guided by a structure such as a graph. As illustrated with numerous examples, this paradigm significantly enhances the LLM's capability to solve numerous tasks, ranging from logical or mathematical reasoning to planning or creative writing. To facilitate the understanding of this growing field and pave the way for future developments, we devise a general blueprint for effective and efficient LLM reasoning schemes. For this, we conduct an in-depth analysis of the prompt execution pipeline, clarifying and clearly defining different concepts. We then build the first taxonomy of structure-enhanced LLM reasoning schemes. We focus on identifying fundamental classes of harnessed structures, and we analyze the representations of these structures, algorithms executed with these structures, and many others. We refer to these structures as reasoning topologies, because their representation becomes to a degree spatial, as they are contained within the LLM context. Our study compares existing prompting schemes using the proposed taxonomy, discussing how certain design choices lead to different patterns in performance and cost. We also outline theoretical underpinnings, relationships between prompting and others parts of the LLM ecosystem such as knowledge bases, and the associated research challenges. Our work will help to advance future prompt engineering techniques. | 翻訳日:2024-01-26 13:57:13 公開日:2024-01-25 |
# ast-2:単層および複層2次元音響ソフト触覚皮膚 AST-2: Single and bi-layered 2-D acoustic soft tactile skin ( http://arxiv.org/abs/2401.14292v1 ) ライセンス: Link先を確認 | Vishnu Rajendran, Simon Parsons and Amir Ghalamzan E | (参考訳) 本稿では,2次元触覚特性推定の精度向上を主目的とし,アコースティックソフト触覚(ast)皮膚の革新的かつ費用対効果の高い設計を提案する。
既存の課題は、コスト効率の良い解を用いて、特に接触形状特性に関する正確な触覚特徴の推定を達成することである。
知覚面下の2層に専用音響チャネルを介して音響エネルギーを活用し、振幅変調を解析することにより、感覚面上の相互作用を効果的にデコードし、触覚特徴推定を改善することができると仮定する。
私たちのアプローチでは、音響信号を発信し受信するハードウェアコンポーネントを分離し、モジュラーでカスタマイズ可能なスキンデザインを実現します。
この新規設計の有効性を実証し, 接触正規力(MAE < 0.8 N), 2次元接触局所化(MAE < 0.7 mm), 接触表面径(MAE < 0.3 mm)を推定した。
結論として、ASTスキンは革新的な設計とモジュラーアーキテクチャを持ち、触覚的特徴推定の課題に対処することに成功した。
その結果,様々な触覚特性を正確に推定する能力を示し,ロボットアプリケーションの実用的で費用対効果の高いソリューションとなった。 This paper aims to present an innovative and cost-effective design for Acoustic Soft Tactile (AST) Skin, with the primary goal of significantly enhancing the accuracy of 2-D tactile feature estimation. The existing challenge lies in achieving precise tactile feature estimation, especially concerning contact geometry characteristics, using cost-effective solutions. We hypothesise that by harnessing acoustic energy through dedicated acoustic channels in 2 layers beneath the sensing surface and analysing amplitude modulation, we can effectively decode interactions on the sensory surface, thereby improving tactile feature estimation. Our approach involves the distinct separation of hardware components responsible for emitting and receiving acoustic signals, resulting in a modular and highly customizable skin design. Practical tests demonstrate the effectiveness of this novel design, achieving remarkable precision in estimating contact normal forces (MAE < 0.8 N), 2D contact localisation (MAE < 0.7 mm), and contact surface diameter (MAE < 0.3 mm). In conclusion, the AST skin, with its innovative design and modular architecture, successfully addresses the challenge of tactile feature estimation. The presented results showcase its ability to precisely estimate various tactile features, making it a practical and cost-effective solution for robotic applications. | 翻訳日:2024-01-26 13:56:42 公開日:2024-01-25 |
# 原子格子スケールでの時間分解物質科学のための量子電磁計 Quantum Electrometer for Time-Resolved Material Science at the Atomic Lattice Scale ( http://arxiv.org/abs/2401.14290v1 ) ライセンス: Link先を確認 | Gregor Pieplow, Cem G\"uney Torun, Joseph H. D. Munns, Franziska Marie Herrmann, Andreas Thies, Tommaso Pregnolato, and Tim Schr\"oder | (参考訳) 個々の電荷の検出は、基本物質科学や低ノイズで動作する古典的・量子的な高性能技術の発展において重要な役割を担っている。
しかし, 格子スケールでの分解電荷の時間分解は, 今のところ行われていない。
ここでは, 非線形スターク応答を有する固体材料に埋没した光学活性スピン欠陥の分光を利用して, 電磁計の開発について述べる。
量子技術応用のための広く利用されているプラットフォームであるダイヤモンドへのアプローチの適用により、電荷トラップの局所化、輸送力学とノイズ発生への影響の定量化、関連する材料特性の分析、材料最適化戦略の開発に成功した。 The detection of individual charges plays a crucial role in fundamental material science and the advancement of classical and quantum high-performance technologies that operate with low noise. However, resolving charges at the lattice scale in a time-resolved manner has not been achieved so far. Here, we present the development of an electrometer, leveraging on the spectroscopy of an optically-active spin defect embedded in a solid-state material with a non-linear Stark response. By applying our approach to diamond, a widely used platform for quantum technology applications, we successfully localize charge traps, quantify their impact on transport dynamics and noise generation, analyze relevant material properties, and develop strategies for material optimization. | 翻訳日:2024-01-26 13:56:01 公開日:2024-01-25 |
# pour-net : 低数pet減衰マップ生成のための人口優先型プレゼンテーションネットワーク POUR-Net: A Population-Prior-Aided Over-Under-Representation Network for Low-Count PET Attenuation Map Generation ( http://arxiv.org/abs/2401.14285v1 ) ライセンス: Link先を確認 | Bo Zhou, Jun Hou, Tianqi Chen, Yinchi Zhou, Xiongchao Chen, Huidong Xie, Qiong Liu, Xueqi Guo, Yu-Jung Tsai, Vladimir Y. Panin, Takuya Toyonaga, James S. Duncan, Chi Liu | (参考訳) 低線量PETはPETイメージングにおける放射線被曝を最小化する貴重な手段を提供する。
しかし,PETの減衰補正にはCTスキャンを併用して減衰マップ(u-map)を作成できるのが一般的である。
この懸念に対処し,低線量PET試験における放射線被曝の軽減を図るため,低線量PETによる高品質減衰マップ生成を目的とした,革新的な人口優先型過剰下地表現ネットワークPOUR-Netを提案する。
第一に、POUR-Netは、低解像度の抽象化と細部の両方の機能を含む効率的な特徴抽出を容易にするために、オーバーアンダー表現ネットワーク(OUR-Net)を導入し、フル解像度レベルでの深部生成を支援する。
次に、包括的ct由来のu-mapデータセットを利用した人口優先生成機械(ppgm)であるour-netを補完する。
OUR-NetとPPGMをカスケードフレームワークに統合することで、$\mu$-mapの生成を反復的に洗練し、高品質な$\mu$-mapを生産することができる。
実験結果はPOUR-Netの有効性を裏付けるもので, 従来のベースライン法よりも高い精度でCTフリーの低数PET減衰補正を行う上で有望な解であることを示している。 Low-dose PET offers a valuable means of minimizing radiation exposure in PET imaging. However, the prevalent practice of employing additional CT scans for generating attenuation maps (u-map) for PET attenuation correction significantly elevates radiation doses. To address this concern and further mitigate radiation exposure in low-dose PET exams, we propose POUR-Net - an innovative population-prior-aided over-under-representation network that aims for high-quality attenuation map generation from low-dose PET. First, POUR-Net incorporates an over-under-representation network (OUR-Net) to facilitate efficient feature extraction, encompassing both low-resolution abstracted and fine-detail features, for assisting deep generation on the full-resolution level. Second, complementing OUR-Net, a population prior generation machine (PPGM) utilizing a comprehensive CT-derived u-map dataset, provides additional prior information to aid OUR-Net generation. The integration of OUR-Net and PPGM within a cascade framework enables iterative refinement of $\mu$-map generation, resulting in the production of high-quality $\mu$-maps. Experimental results underscore the effectiveness of POUR-Net, showing it as a promising solution for accurate CT-free low-count PET attenuation correction, which also surpasses the performance of previous baseline methods. | 翻訳日:2024-01-26 13:55:15 公開日:2024-01-25 |
# ブリッジング教育と開発:対話型学習プラットフォームとしてのIDE Bridging Education and Development: IDEs as Interactive Learning Platforms ( http://arxiv.org/abs/2401.14284v1 ) ライセンス: Link先を確認 | Anastasiia Birillo, Maria Tigina, Zarina Kurbatova, Anna Potriasaeva, Ilya Vlasov, Valerii Ovchinnikov, Igor Gerasimov | (参考訳) 本稿ではJetBrains Academy Pluginを通じてIntelliJベースのIDE向けに実装されたIDEコースのプログラミング教育に対する新しいアプローチを紹介する。
このアプローチの主な目的は、すべての理論と実践材料を専門的なIDEに移すことによって、学生を産業技術に慣れさせることである。
このアプローチにより、学生は学習プロセスに完全に統合されたモダンな産業ツールをすぐに使用できる。
私たちはすでに40以上のコースでこのアプローチを適用しており、kotlin、java、c++、pythonなど、さまざまなプログラミング言語でプラグイン開発、アルゴリズム、データ分析、言語習得など、さまざまなトピックの学生をうまく教育しています。
論文とともに、私たちはコミュニティに新しい学習方法と準備が整ったコースのセットを提供するだけでなく、プラグインを使い始めるための教育者を支援する有用なリソースの収集も提供しています。
最後に、IDE内アプローチが複雑なトピックを簡単にカバーする方法を示すIDEプラグイン開発コースについて詳しく説明する。 In this work, we introduce a novel approach to programming education - in-IDE courses implemented for IntelliJ-based IDEs via the JetBrains Academy Plugin. The primary objective of this approach is to address the challenge of familiarizing students with industrial technologies by moving all theory and practical materials to a professional IDE. This approach allows students to immediately use modern industrial tools as they are fully integrated into the learning process. We have already applied this approach in over 40 courses, and it successfully educates students across diverse topics such as Plugin Development, Algorithms, Data Analysis, and Language mastery in various programming languages, including Kotlin, Java, C++, and Python. Along with the paper, we are providing the community not only with a new way of learning and a set of ready-made courses but also a collection of helpful resources to assist educators in getting started with the plugin. Finally, we describe in detail an IDE plugin development course that demonstrates how the in-IDE approach covers complex topics easily. | 翻訳日:2024-01-26 13:53:58 公開日:2024-01-25 |
# 近似ベイズ最適予測による情報漏洩検出 Information Leakage Detection through Approximate Bayes-optimal Prediction ( http://arxiv.org/abs/2401.14283v1 ) ライセンス: Link先を確認 | Pritha Gupta, Marcel Wever, and Eyke H\"ullermeier | (参考訳) 今日のデータ駆動の世界では、公開情報の普及は情報漏洩(IL)の課題を増し、セキュリティ上の懸念が高まる。
ilは、システムの監視可能な情報を介して、意図せず秘密の(センシティブな)情報を不正な当事者に暴露する。
il検出のための可観測情報と秘密情報の間の相互情報(mi)を推定する従来の統計的アプローチは、次元の呪い、収束、計算複雑性、mi推定といった課題に直面している。
さらに、新しい教師付き機械学習(ML)手法は有効ではあるが、バイナリシステムに敏感な情報に限定され、包括的な理論的枠組みが欠如している。
これらの限界に対処するために,統計的学習理論と情報理論を用いた理論的枠組みを確立し,ilの定量化と検出を行う。
ベイズ予測器のログロスと精度を近似してmiを正確に推定できることを実証する。
ベイズ予測器は一般的には未知であるため、自動機械学習(AutoML)の助けを借りて近似することを提案する。
まず,多変量正規分布(MVN)と既知のMIを用いた合成データセットを用いて,現在のベースラインに対するMI推定手法を比較した。
第2に,一方の統計的検査を用いてILの検出を行い,ホルム・ボンフェロニ補正を用いて検出決定の信頼性を高める。
本研究では,実世界のデータセット上でのIL検出性能を評価し,ベイズ予測器のログロス推定の有効性を明らかにするとともに,合成データセット上でMIを効果的に推定し,ILを正確に検出する手法を提案する。 In today's data-driven world, the proliferation of publicly available information intensifies the challenge of information leakage (IL), raising security concerns. IL involves unintentionally exposing secret (sensitive) information to unauthorized parties via systems' observable information. Conventional statistical approaches, which estimate mutual information (MI) between observable and secret information for detecting IL, face challenges such as the curse of dimensionality, convergence, computational complexity, and MI misestimation. Furthermore, emerging supervised machine learning (ML) methods, though effective, are limited to binary system-sensitive information and lack a comprehensive theoretical framework. To address these limitations, we establish a theoretical framework using statistical learning theory and information theory to accurately quantify and detect IL. We demonstrate that MI can be accurately estimated by approximating the log-loss and accuracy of the Bayes predictor. As the Bayes predictor is typically unknown in practice, we propose to approximate it with the help of automated machine learning (AutoML). First, we compare our MI estimation approaches against current baselines, using synthetic data sets generated using the multivariate normal (MVN) distribution with known MI. Second, we introduce a cut-off technique using one-sided statistical tests to detect IL, employing the Holm-Bonferroni correction to increase confidence in detection decisions. Our study evaluates IL detection performance on real-world data sets, highlighting the effectiveness of the Bayes predictor's log-loss estimation, and finds our proposed method to effectively estimate MI on synthetic data sets and thus detect ILs accurately. | 翻訳日:2024-01-26 13:53:28 公開日:2024-01-25 |
# 傾斜相互作用を伴うスピン鎖の異常局在 Anomalous localization in spin-chain with tilted interactions ( http://arxiv.org/abs/2401.14369v1 ) ライセンス: Link先を確認 | Arindam Mallick and Jakub Zakrzewski | (参考訳) 不均一相互作用を有する無秩序スピン鎖の局在特性について検討した。
特に、異なる相互作用範囲を持つ系の連鎖に沿って線形に成長する相互作用強度を考える。
正確な対角化を用いて、ヒルベルト空間の局所化体積を定量化できるすべての固有状態の参加率を求める。
驚くべきことに、局在の体積は相互作用範囲と非単調に変化する。
無限相互作用範囲のモデルは、スタッガード形式論における格子ゲージ理論のシュウィンガーモデルに似ている。
研究されたモデルは最先端の冷間原子デバイスで実装され、無障害閉じ込め現象の隠れた特徴を明らかにすることができる。 The localization properties of a disorder-free spin chain with inhomogeneous interactions are studied. In particular, we consider interaction strength growing linearly along the chain for systems with different interaction ranges. Using exact diagonalization we find the participation ratio of all eigenstates which allows us to quantify the localization volume in the Hilbert space. Surprisingly the localization volume changes nonmonotonically with the interaction range. The model for the infinite interaction range resembles the Schwinger model of lattice gauge theory in staggered formalism. The model studied may be implemented in state-of-the-art cold atomic devices and could reveal hidden features in disorder-free confinement phenomena. | 翻訳日:2024-01-26 13:45:35 公開日:2024-01-25 |
# 熱力学限界における2次元および3次元多体量子系のスペクトルギャップ Spectral Gaps of 2D and 3D Many-body Quantum Systems in the Thermodynamic Limit ( http://arxiv.org/abs/2401.14368v1 ) ライセンス: Link先を確認 | Illya V. Lukin, Andrii G. Sotnikov, Jacob M. Leamer, Alicia B. Magann, Denys I. Bondar | (参考訳) 量子多体系のスペクトル計算を高速化する新たな可能性を開くために,スペクトルギャップの表現を提案する。
我々はテンソルネットワークシミュレーションの文脈でそのような可能性の1つを開発し実証する。
提案手法は,広く用いられているSimple Update法の微修正しか必要とせず,他の手法と比較して計算量的に軽量である。
2次元および3次元横場イジングモデルのスペクトルギャップを計算し、以前に報告された摂動理論の結果と強い一致を求める。 We present an expression for the spectral gap, opening up new possibilities for performing and accelerating spectral calculations of quantum many-body systems. We develop and demonstrate one such possibility in the context of tensor network simulations. Our approach requires only minor modifications of the widely used Simple Update method and is computationally lightweight relative to other approaches. We validate it by computing spectral gaps of the 2D and 3D transverse-field Ising models and find strong agreement with previously reported perturbation theory results. | 翻訳日:2024-01-26 13:45:25 公開日:2024-01-25 |
# Genie: コンテンツを取り巻くデータセット生成における人間親の獲得 Genie: Achieving Human Parity in Content-Grounded Datasets Generation ( http://arxiv.org/abs/2401.14367v1 ) ライセンス: Link先を確認 | Asaf Yehudai, Boaz Carmeli, Yosi Mass, Ofir Arviv, Nathaniel Mills, Assaf Toledo, Eyal Shnarch, Leshem Choshen | (参考訳) コンテンツ生成タスクの高品質なデータ不足は、これらのタスクを前進させる大きな障害として認識されている。
そこで本稿では,高品質コンテンツ接地データの自動生成手法であるgenieを提案する。
3つの段階からなる。
(a)内容準備
b) 生成: コンテンツからタスク固有の例を作成する(例えば、質問応答ペアや要約)。
(c) 生成されたデータの質と忠実性の確保を目的としたフィルタリング機構。
本稿では,3つの大規模合成データの生成,願望,長文質問回答(LFQA),要約,情報抽出について紹介する。
人間の評価では、生成したデータは自然で高品質であることが判明した。
さらに、データに基づいてトレーニングされたモデルと、人間の手書きデータ(LFQAはELI5、ASQA、SummarizationはCNN-DailyMail)でトレーニングされたモデルを比較する。
私たちのモデルは、人間が生成したデータに基づいてトレーニングされたモデルと同等か、あるいは優れています。
最後に,医療領域内のlfqaデータの作成に本手法を適用し,他の領域でトレーニングされたモデルと比較した。 The lack of high-quality data for content-grounded generation tasks has been identified as a major obstacle to advancing these tasks. To address this gap, we propose Genie, a novel method for automatically generating high-quality content-grounded data. It consists of three stages: (a) Content Preparation, (b) Generation: creating task-specific examples from the content (e.g., question-answer pairs or summaries). (c) Filtering mechanism aiming to ensure the quality and faithfulness of the generated data. We showcase this methodology by generating three large-scale synthetic data, making wishes, for Long-Form Question-Answering (LFQA), summarization, and information extraction. In a human evaluation, our generated data was found to be natural and of high quality. Furthermore, we compare models trained on our data with models trained on human-written data -- ELI5 and ASQA for LFQA and CNN-DailyMail for Summarization. We show that our models are on par with or outperforming models trained on human-generated data and consistently outperforming them in faithfulness. Finally, we applied our method to create LFQA data within the medical domain and compared a model trained on it with models trained on other domains. | 翻訳日:2024-01-26 13:45:15 公開日:2024-01-25 |
# タイピングセラピー: メンタルヘルス支援のための大規模言語モデルチャットボットの経験 The Typing Cure: Experiences with Large Language Model Chatbots for Mental Health Support ( http://arxiv.org/abs/2401.14362v1 ) ライセンス: Link先を確認 | Inhwa Song, Sachin R. Pendse, Neha Kumar, Munmun De Choudhury | (参考訳) 重度の苦痛を経験する人々は、メンタルヘルス支援ツールとしてLarge Language Model (LLM)チャットボットをますます使います。
ソーシャルメディア上での議論では、エンゲージメントがいかに命を救うかが述べられているが、汎用のllmチャットボットもまた、責任を持って設計されていない場合にユーザーの福祉を危険にさらすリスクがあることを示唆している。
本研究では,llmチャットボットを用いた精神保健支援者の生活経験について検討した。
グローバルに多様なバックグラウンドを持つ21人の個人によるインタビューに基づいて、チャットボットに対するユニークなサポートロールの作り方を分析し、日々のケアのギャップを埋め、チャットボットからのサポートを求める際の文化的制限をナビゲートします。
我々は,効果的な支援に関する心理療法文献の分析を基礎にし,治療アライメントの概念を導入し,あるいは精神保健の文脈におけるaiと治療の価値観を一致させる。
本研究は,LLMチャットボットと他のAIメンタルヘルス支援ツールの倫理的,効果的な利用方法を提案する。 People experiencing severe distress increasingly use Large Language Model (LLM) chatbots as mental health support tools. Discussions on social media have described how engagements were lifesaving for some, but evidence suggests that general-purpose LLM chatbots also have notable risks that could endanger the welfare of users if not designed responsibly. In this study, we investigate the lived experiences of people who have used LLM chatbots for mental health support. We build on interviews with 21 individuals from globally diverse backgrounds to analyze how users create unique support roles for their chatbots, fill in gaps in everyday care, and navigate associated cultural limitations when seeking support from chatbots. We ground our analysis in psychotherapy literature around effective support, and introduce the concept of therapeutic alignment, or aligning AI with therapeutic values for mental health contexts. Our study offers recommendations for how designers can approach the ethical and effective use of LLM chatbots and other AI mental health support tools in mental health care. | 翻訳日:2024-01-26 13:44:55 公開日:2024-01-25 |
# MoE-Infinity: 効率的なMoEサービングのためのアクティベーションアウェア専門家のオフロード MoE-Infinity: Activation-Aware Expert Offloading for Efficient MoE Serving ( http://arxiv.org/abs/2401.14361v1 ) ライセンス: Link先を確認 | Leyang Xue, Yao Fu, Zhan Lu, Luo Mai, Mahesh Marina | (参考訳) 本稿では,アクティベーション・アウェア・エキスパートのオフロードを実現する,コスト効率の高いmoeサービスシステムであるmoe-infinityを提案する。
moe-infinityはシーケンスレベルのエキスパートアクティベーショントレースを特徴とし、スパースアクティベーションを識別し、moe推論の時間的局所性をキャプチャする新しいアプローチである。
これらのトレースを分析することで、moe-infinityは新しいアクティベーション・アウェアの専門家によるプリフェッチとキャッシングを実行し、コストパフォーマンスを改善するために通常オフロードの専門家に関連するレイテンシオーバーヘッドを大幅に削減する。
クラスタでの大規模な実験によると、MoE-Infinityは既存のシステムやアプローチよりも優れており、レイテンシが420倍、デプロイメントコストがさまざまなMoEの8倍以上削減されている。
MoE-Infinityのソースコードはhttps://github.com/TorchMoE/MoE-Infinityで公開されている。 This paper presents MoE-Infinity, a cost-efficient mixture-of-expert (MoE) serving system that realizes activation-aware expert offloading. MoE-Infinity features sequence-level expert activation tracing, a new approach adept at identifying sparse activations and capturing the temporal locality of MoE inference. By analyzing these traces, MoE-Infinity performs novel activation-aware expert prefetching and caching, substantially reducing the latency overheads usually associated with offloading experts for improved cost performance. Extensive experiments in a cluster show that MoE-Infinity outperforms numerous existing systems and approaches, reducing latency by 4 - 20X and decreasing deployment costs by over 8X for various MoEs. MoE-Infinity's source code is publicly available at https://github.com/TorchMoE/MoE-Infinity | 翻訳日:2024-01-26 13:44:38 公開日:2024-01-25 |
# 雑音性ベンガルテキストの感性分析におけるノイズ低減法の比較分析 A Comparative Analysis of Noise Reduction Methods in Sentiment Analysis on Noisy Bengali Texts ( http://arxiv.org/abs/2401.14360v1 ) ライセンス: Link先を確認 | Kazi Toufique Elahi, Tasnuva Binte Rahman, Shakil Shahriar, Samir Sarker, Md. Tanvir Rouf Shawon, G. M. Shahariar | (参考訳) ベンガル語は限られた資源を持つ言語と考えられているが、感情分析は文学における広範な研究の対象となっている。
それにもかかわらず、特に騒がしいベンガル語のテキストの領域で感情分析の探求が不足している。
本稿では,約15kの雑音ベンガルテキストからなる既存の感情分析データセットに含まれる10種類のノイズを手作業で識別するデータセット(nc-sentnob)を提案する。
まず,入力ノイズのテキストからノイズタイプを識別し,これをマルチラベル分類タスクとして扱う。
そこで本研究では,感情分析を行う前にノイズを緩和するためのベースライン雑音低減手法を提案する。
最後に,ノイズと雑音を再現したテキストを用いた微調整感情分析モデルの性能評価を行い,比較を行った。
実験結果から, 使用したノイズ低減法は不十分であり, 将来の研究でより適切なノイズ低減法の必要性が示唆された。
我々はこの論文で提示された実装とデータセットをhttps://github.com/ktoufiquee/A-Comparative-Analysis-of-Noise-reduction-Methods-in-Sentiment-on-Nois y-Bengali-Textsで公開しました。 While Bengali is considered a language with limited resources, sentiment analysis has been a subject of extensive research in the literature. Nevertheless, there is a scarcity of exploration into sentiment analysis specifically in the realm of noisy Bengali texts. In this paper, we introduce a dataset (NC-SentNoB) that we annotated manually to identify ten different types of noise found in a pre-existing sentiment analysis dataset comprising of around 15K noisy Bengali texts. At first, given an input noisy text, we identify the noise type, addressing this as a multi-label classification task. Then, we introduce baseline noise reduction methods to alleviate noise prior to conducting sentiment analysis. Finally, we assess the performance of fine-tuned sentiment analysis models with both noisy and noise-reduced texts to make comparisons. The experimental findings indicate that the noise reduction methods utilized are not satisfactory, highlighting the need for more suitable noise reduction methods in future research endeavors. We have made the implementation and dataset presented in this paper publicly available at https://github.com/ktoufiquee/A-Comparative-Analysis-of-Noise-Reduction-Methods-in-Sentiment-Analysi s-on-Noisy-Bengali-Texts | 翻訳日:2024-01-26 13:44:21 公開日:2024-01-25 |
# 可視性と特徴拡張点表現を用いたロバスト一般化可能放射場学習 Learning Robust Generalizable Radiance Field with Visibility and Feature Augmented Point Representation ( http://arxiv.org/abs/2401.14354v1 ) ライセンス: Link先を確認 | Jiaxu Wang, Ziyi Zhang, Renjing Xu | (参考訳) 本稿では、一般化可能なニューラル放射場(NeRF)のための新しいパラダイムを提案する。
従来の一般的なNeRF法は、画像ベースのニューラルネットワークレンダリングと多視点ステレオ技術を組み合わせて一般化し、3つの問題に悩まされている。
まず、オクルージョンはしばしば一貫性のない特徴マッチングをもたらす。
そして、サンプル点の個々のプロセスと粗い特徴集約により、幾何学的不連続性や局所的な鋭い形状の歪みやアーチファクトを提供する。
第3に、ソースビューがターゲットビューに不十分な場合には、イメージベースの表現が深刻な劣化を経験する。
そこで我々は,画像ベースのレンダリングではなく,点ベースに基づく一般化可能なニューラルフィールドを構成する最初のパラダイムを提案し,これを一般化可能なニューラルポイントフィールド(GPF)と呼ぶ。
我々のアプローチは、幾何的先行性によって鮮度を明示的にモデル化し、それらをニューラル特徴で拡張する。
レンダリング速度と再構成品質の両方を改善するために,新しい非一様ログサンプリング手法を提案する。
さらに,特徴集約機能を備えた学習可能なカーネルを空間的に拡張し,地理的に異なる場所での歪みを緩和する。
また,表現の操作も容易である。
実験によって、我々のモデルは、一般化と微調整の2つの設定において、3つのデータセット上の全ての対応するデータやベンチマークよりも優れたジオメトリ、ビュー構成、レンダリング品質を提供できることが分かりました。 This paper introduces a novel paradigm for the generalizable neural radiance field (NeRF). Previous generic NeRF methods combine multiview stereo techniques with image-based neural rendering for generalization, yielding impressive results, while suffering from three issues. First, occlusions often result in inconsistent feature matching. Then, they deliver distortions and artifacts in geometric discontinuities and locally sharp shapes due to their individual process of sampled points and rough feature aggregation. Third, their image-based representations experience severe degradations when source views are not near enough to the target view. To address challenges, we propose the first paradigm that constructs the generalizable neural field based on point-based rather than image-based rendering, which we call the Generalizable neural Point Field (GPF). Our approach explicitly models visibilities by geometric priors and augments them with neural features. We propose a novel nonuniform log sampling strategy to improve both rendering speed and reconstruction quality. Moreover, we present a learnable kernel spatially augmented with features for feature aggregations, mitigating distortions at places with drastically varying geometries. Besides, our representation can be easily manipulated. Experiments show that our model can deliver better geometries, view consistencies, and rendering quality than all counterparts and benchmarks on three datasets in both generalization and finetuning settings, preliminarily proving the potential of the new paradigm for generalizable NeRF. | 翻訳日:2024-01-26 13:44:03 公開日:2024-01-25 |
# serverlessllm: 大規模言語モデルのためのローカル性向上型サーバレス推論 ServerlessLLM: Locality-Enhanced Serverless Inference for Large Language Models ( http://arxiv.org/abs/2401.14351v1 ) ライセンス: Link先を確認 | Yao Fu, Leyang Xue, Yeqi Huang, Andrei-Octavian Brabete, Dmitrii Ustiugov, Yuvraj Patel, Luo Mai | (参考訳) 本稿では,Large Language Models (LLM) のための局所性強化型サーバレス推論システムであるServerlessLLMを提案する。
ServerlessLLMはGPUサーバで利用可能なストレージとメモリデバイスの容量と帯域幅を利用して、コストのかかるリモートチェックポイントダウンロードを削減し、効率的なチェックポイントローディングを実現する。
serverlessllmは3つの大きな貢献によってこれを達成する。
i) 高速LCMチェックポイントローディングを, 効率的なマルチ層チェックポイントローディングシステムと組み合わせた, 新規なロード最適化チェックポイントフォーマット設計による。
(ii)ローカリティ駆動型LLM推論とライブマイグレーションにより、ServerlessLLMは、進行中のLLM推論の低レイテンシを保ちながら、ローカリティ駆動型サーバアロケーションを効果的に実現できる。
3)ローカリティ対応サーバアロケーションにより、ServerlessLLMはクラスタ内の各サーバの状態を評価し、モデル起動時間を効果的にスケジュールし、ローカルチェックポイントの配置に乗れるようにする。
マイクロベンチマークや実世界のトレースを含む包括的実験により、ServerlessLLMは、さまざまなLLM推論ワークロードを実行する場合、最新システムの10~200倍のレイテンシ性能を達成しています。 This paper presents ServerlessLLM, a locality-enhanced serverless inference system for Large Language Models (LLMs). ServerlessLLM exploits the substantial capacity and bandwidth of storage and memory devices available on GPU servers, thereby reducing costly remote checkpoint downloads and achieving efficient checkpoint loading. ServerlessLLM achieves this through three main contributions: (i) fast LLM checkpoint loading via a novel loading-optimized checkpoint format design, coupled with an efficient multi-tier checkpoint loading system; (ii) locality-driven LLM inference with live migration, which allows ServerlessLLM to effectively achieve locality-driven server allocation while preserving the low latency of ongoing LLM inference; and (iii) locality-aware server allocation, enabling ServerlessLLM to evaluate the status of each server in a cluster and effectively schedule model startup time to capitalize on local checkpoint placement. Our comprehensive experiments, which include microbenchmarks and real-world traces, show that ServerlessLLM surpasses state-of-the-art systems by 10 - 200X in latency performance when running various LLM inference workloads. | 翻訳日:2024-01-26 13:43:39 公開日:2024-01-25 |
# 実環境における効率良く正確にナビゲートする学習 Learning to navigate efficiently and precisely in real environments ( http://arxiv.org/abs/2401.14349v1 ) ライセンス: Link先を確認 | Guillaume Bono, Herv\'e Poirier, Leonid Antsfeld, Gianluca Monaci, Boris Chidlovskii, Christian Wolf | (参考訳) 地上ロボットの自律ナビゲーションの文脈では、エージェントダイナミクスとセンシングのための現実的なモデルの作成は、ロボット文学や商用アプリケーションにおいて広く行われており、モデルベース制御や/またはローカライゼーションとマッピングに使用されている。
一方で、より最近の具体化されたai文献では、hutnessやai-thorといったシミュレータで訓練された、モジュール化されたエージェントやエンドツーエンドエージェントに焦点を当てている。
結果として生じるsim2real gapは、訓練されたモデルの実際のロボットプラットフォームへの転送に大きな影響を与える。
本研究では,シミュレーションにおけるエージェントのエンドツーエンドトレーニングについて検討し,sim2現実のギャップを最小化し,センシングとアクティベーションの両方を最小化する。
エージェントは実際のロボットの閉ループ制御によって維持される速度指令を直接予測する(離散化)。
実際のロボット(基礎となる低レベルコントローラを含む)の挙動を、修正された生息環境シミュレータで同定し、シミュレートする。
オードメトリとローカライゼーションのためのノイズモデルはさらにsim2realギャップの低下に寄与する。
実際のナビゲーションシナリオを評価し,測位とポイント目標の計算方法を検討した結果,先行研究に比べて性能とロバスト性が有意に向上したことを報告した。 In the context of autonomous navigation of terrestrial robots, the creation of realistic models for agent dynamics and sensing is a widespread habit in the robotics literature and in commercial applications, where they are used for model based control and/or for localization and mapping. The more recent Embodied AI literature, on the other hand, focuses on modular or end-to-end agents trained in simulators like Habitat or AI-Thor, where the emphasis is put on photo-realistic rendering and scene diversity, but high-fidelity robot motion is assigned a less privileged role. The resulting sim2real gap significantly impacts transfer of the trained models to real robotic platforms. In this work we explore end-to-end training of agents in simulation in settings which minimize the sim2real gap both, in sensing and in actuation. Our agent directly predicts (discretized) velocity commands, which are maintained through closed-loop control in the real robot. The behavior of the real robot (including the underlying low-level controller) is identified and simulated in a modified Habitat simulator. Noise models for odometry and localization further contribute in lowering the sim2real gap. We evaluate on real navigation scenarios, explore different localization and point goal calculation methods and report significant gains in performance and robustness compared to prior work. | 翻訳日:2024-01-26 13:43:15 公開日:2024-01-25 |
# 無限次元のChoi形式主義から完全正の動的半群の生成元の一意分解へ From the Choi Formalism in Infinite Dimensions to Unique Decompositions of Generators of Completely Positive Dynamical Semigroups ( http://arxiv.org/abs/2401.14344v1 ) ライセンス: Link先を確認 | Frederik vom Ende | (参考訳) 任意の可分複素ヒルベルト空間が与えられたとき、純粋に虚トレースを持たないトレースクラス作用素$B$と、全正写像のノルム連続一パラメータ半群の任意の生成元$L$は、一意有界作用素$K$と一意完全正写像$Phi$が存在することを証明する。
(i)$L=K(\cdot)+(\cdot)K^*+\Phi$,
(ii) Superoperator $\Phi(B^*(\cdot)B)$はトレースクラスであり、トレースが消滅する。
(iii)${\rm tr}(B^*K)$は実数である。
我々の証明の中心は、正の半定義作用素に完全正の写像を関連付けるchoi形式論の修正版である。
この対応がそれぞれ単射かつ全射であるときの特徴付けを行い、その結果、主結果の証明アイデアが非分離ヒルベルト空間に拡張できない理由を説明する。
特に、底辺のヒルベルト空間が無限次元である限り、choi形式の下で空前像を持つ正の半定義作用素の例を見つける。 Given any separable complex Hilbert space, any trace-class operator $B$ which does not have purely imaginary trace, and any generator $L$ of a norm-continuous one-parameter semigroup of completely positive maps we prove that there exists a unique bounded operator $K$ and a unique completely positive map $\Phi$ such that (i) $L=K(\cdot)+(\cdot)K^*+\Phi$, (ii) the superoperator $\Phi(B^*(\cdot)B)$ is trace class and has vanishing trace, and (iii) ${\rm tr}(B^*K)$ is a real number. Central to our proof is a modified version of the Choi formalism which relates completely positive maps to positive semi-definite operators. We characterize when this correspondence is injective and surjective, respectively, which in turn explains why the proof idea of our main result cannot extend to non-separable Hilbert spaces. In particular, we find examples of positive semi-definite operators which have empty pre-image under the Choi formalism as soon as the underlying Hilbert space is infinite-dimensional. | 翻訳日:2024-01-26 13:42:54 公開日:2024-01-25 |
# クラス属性優先:不均一性と公正目的に最適化を適用する Class-attribute Priors: Adapting Optimization to Heterogeneity and Fairness Objective ( http://arxiv.org/abs/2401.14343v1 ) ライセンス: Link先を確認 | Xuechen Zhang, Mingchen Li, Jiasi Chen, Christos Thrampoulidis, Samet Oymak | (参考訳) 現代の分類問題は、個々のクラスにまたがる異種性を示す: 各クラスは、サンプルサイズ、ラベル品質、予測可能性(容易かつ難しい)、テスト時の変数重要度などのユニークな属性を持つ。
これらの不均一性は、フェアネスの目標を最適化する場合、特に学習プロセスを妨げる。
これを確認するため、ガウス混合条件下では、平衡精度の最適SVM分類器がクラス属性に適応する必要があることを示す。
CAPはクラス固有の学習戦略(ハイパーパラメータなど)をそのクラスの属性に基づいて生成する効果的で汎用的な手法である。
このように最適化プロセスは不均一性に適応する。
capは、各クラスに別々のハイパーパラメータを割り当てる、ナイーブなアプローチよりも大幅に改善される。
損失関数設計とポストホックロジット調整のためのCAPを,ラベル不均衡の問題に重点を置いてインスタンス化する。
CAPは先行技術と競合しており、その柔軟性はバランスの取れた精度以上の公平性目標に対する明確な利益を解放する。
最後に, ラベルノイズ問題に対するCAPの評価と, 実験対象の重み付けを行い, CAPの異種性への適応性について検討した。 Modern classification problems exhibit heterogeneities across individual classes: Each class may have unique attributes, such as sample size, label quality, or predictability (easy vs difficult), and variable importance at test-time. Without care, these heterogeneities impede the learning process, most notably, when optimizing fairness objectives. Confirming this, under a gaussian mixture setting, we show that the optimal SVM classifier for balanced accuracy needs to be adaptive to the class attributes. This motivates us to propose CAP: An effective and general method that generates a class-specific learning strategy (e.g. hyperparameter) based on the attributes of that class. This way, optimization process better adapts to heterogeneities. CAP leads to substantial improvements over the naive approach of assigning separate hyperparameters to each class. We instantiate CAP for loss function design and post-hoc logit adjustment, with emphasis on label-imbalanced problems. We show that CAP is competitive with prior art and its flexibility unlocks clear benefits for fairness objectives beyond balanced accuracy. Finally, we evaluate CAP on problems with label noise as well as weighted test objectives to showcase how CAP can jointly adapt to different heterogeneities. | 翻訳日:2024-01-26 13:42:33 公開日:2024-01-25 |
# 量子補正からニュートンポテンシャルエネルギーへの量子絡み合いの探索 Probing Quantum Entanglement from Quantum Correction to Newtonian Potential Energy ( http://arxiv.org/abs/2401.14342v1 ) ライセンス: Link先を確認 | A. Belhaj, S. E. Ennadifi, L. Jebli | (参考訳) 弦理論のアイデアに触発され、重力ポテンシャルエネルギーから量子絡み合いを探索する。
具体的には、大質量2粒子系$m_{1}$と$m_{2}$を大きさ寸法$r_{1}$ ad $% r_{2}$で扱うことにより、ニュートンポテンシャルエネルギーに対する量子補正の研究を再考し、距離$d$で分離された2粒子は、互いに古典的な重力相互作用$V_{r}\left(r_{1}\text{, }% r_{2}\right)$のみの下にある。
このような大きさ依存の重力挙動を探索し、r_{1}$, $r_{2}\ll d$ の極限を取ることで、関連する量子二粒子状態を調べ、相互作用時間 $\tau $ の後にその進化を表現する。
中でも、2つの質量は、蓄積された量子相 $\delta \phi =\delta V_{g}\tau /\hbar $ で誘導された重力絡み合いにより分離できないことを示す。
古典的な重力の類似により、対応する重力絡みエネルギーから、結果として生じる非常に弱い絡み合い力の表現を導出する。
そして,特定の絡み合い診断を行う。 Inspired by string theory ideas, we probe quantum entanglement from the gravitational potential energy. Concretely, we reconsider the study of quantum corrections to the Newtonian potential energy by treating a massive two-particle system $m_{1}$ and $m_{2}$ with size dimensions $r_{1}$ ad $% r_{2}$ where the two particles separated by a distance $d$ are under only their mutual classical gravitational interaction $V_{r}\left( r_{1}\text{, }% r_{2}\right) $. Exploring such a size-dependent gravitational behavior and taking the limit $r_{1}$, $r_{2}\ll d$, we investigate the associated quantum biparticle state and express its evolution after an interaction time $\tau $. Among others, we show that the two masses cannot be separable due to the induced gravitational entanglement in terms of the accumulated quantum phase $\delta \phi =\delta V_{g}\tau /\hbar $. By analogy with the classical gravity, we derive the expression of the resulting extremely weak entanglement force from the corresponding gravitational entanglement energy. Then, we provide certain entanglement diagnostics. | 翻訳日:2024-01-26 13:42:13 公開日:2024-01-25 |
# スコアに基づく構造的事前値を用いたガウス図形モデルの推定 Estimation of partially known Gaussian graphical models with score-based structural priors ( http://arxiv.org/abs/2401.14340v1 ) ライセンス: Link先を確認 | Mart\'in Sevilla, Antonio Garc\'ia Marques, Santiago Segarra | (参考訳) 本稿では,基礎となるグラフに関する事前情報を含む部分既知のガウス図形モデルの支持推定のための新しいアルゴリズムを提案する。
精度行列上の(単純)先行値を用いた最大極大あるいは最大後値基準に基づく点推定を提供する古典的アプローチとは対照的に、我々はグラフの先行を考慮し、後続分布からサンプルを生成するためにアニールランゲイン拡散に依存する。
Langevinサンプルは、基礎となるグラフのスコア関数にアクセスする必要があるため、グラフニューラルネットワークを使用して、グラフデータセットからスコアを効果的に推定する(事前に利用できるか、既知の分布から生成されるか)。
数値実験は我々のアプローチの利点を実証する。 We propose a novel algorithm for the support estimation of partially known Gaussian graphical models that incorporates prior information about the underlying graph. In contrast to classical approaches that provide a point estimate based on a maximum likelihood or a maximum a posteriori criterion using (simple) priors on the precision matrix, we consider a prior on the graph and rely on annealed Langevin diffusion to generate samples from the posterior distribution. Since the Langevin sampler requires access to the score function of the underlying graph prior, we use graph neural networks to effectively estimate the score from a graph dataset (either available beforehand or generated from a known distribution). Numerical experiments demonstrate the benefits of our approach. | 翻訳日:2024-01-26 13:41:53 公開日:2024-01-25 |
# クラウド/エッジアーキテクチャにおけるリソース割り当てのための量子変分アルゴリズム Quantum Variational Algorithms for the Allocation of Resources in a Cloud/Edge Architecture ( http://arxiv.org/abs/2401.14339v1 ) ライセンス: Link先を確認 | Carlo Mastroianni, Francesco Plastina, Jacopo Settino, Andrea Vinci | (参考訳) 現代的なクラウド/エッジアーキテクチャでは、センサ/アクチュレータ、分散エッジ/fogノード、集中データセンター、量子デバイスなど、異種コンピューティングノードの複数のレイヤをオーケストレーションする必要がある。
異なるノード上での計算の最適割り当てとスケジューリングは非常に難しい問題であり、NP困難である。
本稿では,この問題を変分量子アルゴリズムを用いて解決する可能性について検討する。
特に、2つのアルゴリズム、すなわち量子近似最適化アルゴリズム(qaoa)と変分量子固有解法(vqe)の性能を成功確率の観点から比較する。
一連の簡単な問題に対して行われたシミュレーション実験により,VQEアルゴリズムは,探索空間を制限できる適切な回路アンサーゼを備えた場合に,より優れた性能が得られることを示した。
さらに、実量子ハードウェア上で実行される実験では、問題のサイズを増大させると、指数関数であることが知られている古典的な計算の傾向よりも、実行時間が遅くなることが示されている。 Modern Cloud/Edge architectures need to orchestrate multiple layers of heterogeneous computing nodes, including pervasive sensors/actuators, distributed Edge/Fog nodes, centralized data centers and quantum devices. The optimal assignment and scheduling of computation on the different nodes is a very difficult problem, with NP-hard complexity. In this paper, we explore the possibility of solving this problem with variational quantum algorithms, which can become a viable alternative to classical algorithms in the near future. In particular, we compare the performances, in terms of success probability, of two algorithms, i.e., Quantum Approximate Optimization Algorithm (QAOA) and Variational Quantum Eigensolver (VQE). The simulation experiments, performed for a set of simple problems, show that the VQE algorithm ensures better performances when it is equipped with appropriate circuit ansatzes that are able to restrict the search space. Moreover, experiments executed on real quantum hardware show that the execution time, when increasing the size of the problem, grows much more slowly than the trend obtained with classical computation, which is known to be exponential. | 翻訳日:2024-01-26 13:41:41 公開日:2024-01-25 |
# 微粒化車両認識のためのプログレッシブマルチタスクアンチノイズ学習と蒸留フレームワーク Progressive Multi-task Anti-Noise Learning and Distilling Frameworks for Fine-grained Vehicle Recognition ( http://arxiv.org/abs/2401.14336v1 ) ライセンス: Link先を確認 | Dichao Liu | (参考訳) 微粒化車両認識(FGVR)は、インテリジェント輸送システムに不可欠な技術であるが、その固有のクラス内変異のため非常に難しい。
従来のFGVR研究のほとんどは、異なる撮影角度、位置等によるクラス内変動のみに焦点を当てているが、画像ノイズによるクラス内変動はほとんど注目されていない。
本稿では、画像ノイズによるFGVRのクラス内変動問題を解決するために、プログレッシブマルチタスクアンチノイズ学習(PMAL)フレームワークとプログレッシブマルチタスク蒸留(PMD)フレームワークを提案する。
PMALフレームワークは、画像のデノイングを画像認識における付加的なタスクとして扱い、モデルを段階的にノイズ不変性学習させ、高い認識精度を達成する。
PMDフレームワークはPMALトレーニングされたモデルの知識を元のバックボーンネットワークに転送し、PMALトレーニングされたモデルとほぼ同一の認識精度のモデルを生成するが、元のバックボーンネットワークに余分なオーバーヘッドを伴わない。
Combining the two frameworks, we obtain models that significantly exceed previous state-of-the-art methods in recognition accuracy on two widely-used, standard FGVR datasets, namely Stanford Cars, and CompCars, as well as three additional surveillance image-based vehicle-type classification datasets, namely Beijing Institute of Technology (BIT)-Vehicle, Vehicle Type Image Data 2 (VTID2), and Vehicle Images Dataset for Make Model Recognition (VIDMMR), without any additional overheads over the original backbone networks.
ソースコードはhttps://github.com/Dichao-Liu/Anti-noise_FGVRで入手できる。 Fine-grained vehicle recognition (FGVR) is an essential fundamental technology for intelligent transportation systems, but very difficult because of its inherent intra-class variation. Most previous FGVR studies only focus on the intra-class variation caused by different shooting angles, positions, etc., while the intra-class variation caused by image noise has received little attention. This paper proposes a progressive multi-task anti-noise learning (PMAL) framework and a progressive multi-task distilling (PMD) framework to solve the intra-class variation problem in FGVR due to image noise. The PMAL framework achieves high recognition accuracy by treating image denoising as an additional task in image recognition and progressively forcing a model to learn noise invariance. The PMD framework transfers the knowledge of the PMAL-trained model into the original backbone network, which produces a model with about the same recognition accuracy as the PMAL-trained model, but without any additional overheads over the original backbone network. Combining the two frameworks, we obtain models that significantly exceed previous state-of-the-art methods in recognition accuracy on two widely-used, standard FGVR datasets, namely Stanford Cars, and CompCars, as well as three additional surveillance image-based vehicle-type classification datasets, namely Beijing Institute of Technology (BIT)-Vehicle, Vehicle Type Image Data 2 (VTID2), and Vehicle Images Dataset for Make Model Recognition (VIDMMR), without any additional overheads over the original backbone networks. The source code is available at https://github.com/Dichao-Liu/Anti-noise_FGVR | 翻訳日:2024-01-26 13:41:23 公開日:2024-01-25 |
# マルチモーダル経路:他のモダリティから無関係なデータでトランスフォーマーを改善する Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities ( http://arxiv.org/abs/2401.14405v1 ) ライセンス: Link先を確認 | Yiyuan Zhang, Xiaohan Ding, Kaixiong Gong, Yixiao Ge, Ying Shan, Xiangyu Yue | (参考訳) 音声やポイントクラウドのデータセットを用いたImageNetモデルの改善など、他のモダリティから無関係なデータを用いて、特定のモダリティのトランスフォーマーを改善することを提案する。
対象のモダリティのデータサンプルは、他のモダリティとは無関係であることを強調したいと思います。この方法は、ペア(クリップなど)や異なるモダリティのインターリーブデータを利用する他の作品と区別します。
目的のモダリティとそれ用に設計されたトランスフォーマーを前提として、他のモダリティのデータで訓練された補助トランスフォーマーを用いて、2つのモデルのコンポーネントを接続し、目的のモダリティのデータを両モデルで処理できるように構成する手法を提案する。
このように2つのモードから得られる変圧器のユニバーサルシーケンス・ツー・シーケンスモデリング能力を利用する。
具体的実装として、モーダリティ特化トークンとタスク特化ヘッドを用いるが、提案手法であるクロスモーダル再パラメータ化(Cross-Modal Re-parameterization)により補助モデルの変圧ブロックを利用する。
画像,ポイントクラウド,ビデオ,および音声認識タスクでは,他のモダリティから無関係なデータを用いて,顕著かつ一貫したパフォーマンス向上を観察する。
コードとモデルはhttps://github.com/ailab-cvc/m2ptで入手できる。 We propose to improve transformers of a specific modality with irrelevant data from other modalities, e.g., improve an ImageNet model with audio or point cloud datasets. We would like to highlight that the data samples of the target modality are irrelevant to the other modalities, which distinguishes our method from other works utilizing paired (e.g., CLIP) or interleaved data of different modalities. We propose a methodology named Multimodal Pathway - given a target modality and a transformer designed for it, we use an auxiliary transformer trained with data of another modality and construct pathways to connect components of the two models so that data of the target modality can be processed by both models. In this way, we utilize the universal sequence-to-sequence modeling abilities of transformers obtained from two modalities. As a concrete implementation, we use a modality-specific tokenizer and task-specific head as usual but utilize the transformer blocks of the auxiliary model via a proposed method named Cross-Modal Re-parameterization, which exploits the auxiliary weights without any inference costs. On the image, point cloud, video, and audio recognition tasks, we observe significant and consistent performance improvements with irrelevant data from other modalities. The code and models are available at https://github.com/AILab-CVC/M2PT. | 翻訳日:2024-01-26 13:34:03 公開日:2024-01-25 |
# 自己教師あり学習のためのデコンストラクション・デノージング拡散モデル Deconstructing Denoising Diffusion Models for Self-Supervised Learning ( http://arxiv.org/abs/2401.14404v1 ) ライセンス: Link先を確認 | Xinlei Chen, Zhuang Liu, Saining Xie, Kaiming He | (参考訳) 本研究では,画像生成を目的としたDDM(Denoising Diffusion Models)の表現学習能力について検討した。
我々の哲学は、DDMを分解し、徐々にそれを古典的Denoising Autoencoder(DAE)に変えることである。
このデコンストラクティブな手法により、現代のDDMの様々な構成要素が自己指導型表現学習にどのように影響するかを探索することができる。
優れた表現を学ぶ上で重要なコンポーネントはごくわずかだが、その他の多くは無意味である。
我々の研究は最終的に、高度に単純化されたアプローチに到達し、大部分は古典的DAEに似ている。
近代的自己監督学習の領域における古典的手法群への関心が再び高まることを期待している。 In this study, we examine the representation learning abilities of Denoising Diffusion Models (DDM) that were originally purposed for image generation. Our philosophy is to deconstruct a DDM, gradually transforming it into a classical Denoising Autoencoder (DAE). This deconstructive procedure allows us to explore how various components of modern DDMs influence self-supervised representation learning. We observe that only a very few modern components are critical for learning good representations, while many others are nonessential. Our study ultimately arrives at an approach that is highly simplified and to a large extent resembles a classical DAE. We hope our study will rekindle interest in a family of classical methods within the realm of modern self-supervised learning. | 翻訳日:2024-01-26 13:33:38 公開日:2024-01-25 |
# オープンワールドにおける人工物体の適応的移動操作 Adaptive Mobile Manipulation for Articulated Objects In the Open World ( http://arxiv.org/abs/2401.14403v1 ) ライセンス: Link先を確認 | Haoyu Xiong, Russell Mendonca, Kenneth Shaw, Deepak Pathak | (参考訳) 家庭などのオープンな非構造環境にロボットを配置することは、長年にわたる研究課題だった。
しかし、ロボットは、しばしばクローズオフラボでのみ研究されており、以前の移動操作は、おそらくこの地域の氷山の一角であるピック・モブ・プレイスに制限されている。
本稿では, 実世界のドア, キャビネット, 引き出し, 冷蔵庫など, 現実的なオブジェクト操作を実現するためのフルスタックアプローチであるOpen-World Mobile Manipulation Systemを紹介する。
このロボットは、適応的な学習フレームワークを使用して、まず行動クローニングを通じて小さなデータ集合から学習し、続いてトレーニング分布外にある新しいオブジェクトについてオンラインの実践から学習する。
また、安全かつ自律的なオンライン適応が可能な低コストなモバイル操作ハードウェアプラットフォームを、約20,000USドルで開発しています。
実験では,CMUキャンパスの4つの建物にまたがる20個の明瞭な物体を用いた。
各オブジェクトに対する1時間未満のオンライン学習で、システムは、オンライン適応を用いて、bcプリトレーニングの50%から95%に成功率を上げることができる。
ビデオ結果: https://open-world-mobilemanip.github.io/ Deploying robots in open-ended unstructured environments such as homes has been a long-standing research problem. However, robots are often studied only in closed-off lab settings, and prior mobile manipulation work is restricted to pick-move-place, which is arguably just the tip of the iceberg in this area. In this paper, we introduce Open-World Mobile Manipulation System, a full-stack approach to tackle realistic articulated object operation, e.g. real-world doors, cabinets, drawers, and refrigerators in open-ended unstructured environments. The robot utilizes an adaptive learning framework to initially learns from a small set of data through behavior cloning, followed by learning from online practice on novel objects that fall outside the training distribution. We also develop a low-cost mobile manipulation hardware platform capable of safe and autonomous online adaptation in unstructured environments with a cost of around 20,000 USD. In our experiments we utilize 20 articulate objects across 4 buildings in the CMU campus. With less than an hour of online learning for each object, the system is able to increase success rate from 50% of BC pre-training to 95% using online adaptation. Video results at https://open-world-mobilemanip.github.io/ | 翻訳日:2024-01-26 13:33:27 公開日:2024-01-25 |
# キーフレーム選択による距離非依存多視点深度推定 Range-Agnostic Multi-View Depth Estimation With Keyframe Selection ( http://arxiv.org/abs/2401.14401v1 ) ライセンス: Link先を確認 | Andrea Conti, Matteo Poggi, Valerio Cambareri, Stefano Mattoccia | (参考訳) ポーズ付きフレームからの3次元再構成には、通常エピポーラ線に沿って一致する手がかりを回収し、探索範囲を狭めるために、シーン距離に関する事前知識が必要である。
しかし、実際のシナリオ(例えば、ビデオシーケンスからの屋外3D再構成など)では、そのような事前は直接利用できない、あるいは不正確であると見積もられているため、パフォーマンスを著しく損なう可能性がある。
本稿では,シーンの距離範囲に関する事前知識を必要とせず,複数視点の深さ推定に焦点をあて,深度推定とステップ順のマッチングを行う効率的かつ純粋に2次元フレームワークであるramdepthを提案する。
さらに,予測に使用するビューの品質に関する豊富な洞察を提供するためのフレームワークの能力を示す。
追加資料は、私たちのプロジェクトページhttps://andreaconti.github.io/projects/range_agnostic_multi_view_depthにあります。 Methods for 3D reconstruction from posed frames require prior knowledge about the scene metric range, usually to recover matching cues along the epipolar lines and narrow the search range. However, such prior might not be directly available or estimated inaccurately in real scenarios -- e.g., outdoor 3D reconstruction from video sequences -- therefore heavily hampering performance. In this paper, we focus on multi-view depth estimation without requiring prior knowledge about the metric range of the scene by proposing RAMDepth, an efficient and purely 2D framework that reverses the depth estimation and matching steps order. Moreover, we demonstrate the capability of our framework to provide rich insights about the quality of the views used for prediction. Additional material can be found on our project page https://andreaconti.github.io/projects/range_agnostic_multi_view_depth. | 翻訳日:2024-01-26 13:33:07 公開日:2024-01-25 |
# スイスドイツ語方言に対する多言語エンコーダのモジュール適応 Modular Adaptation of Multilingual Encoders to Written Swiss German Dialect ( http://arxiv.org/abs/2401.14400v1 ) ライセンス: Link先を確認 | Jannis Vamvas, No\"emi Aepli, Rico Sennrich | (参考訳) スイスドイツ語で書かれたテキストエンコーダを作成するのは、トレーニングデータと方言のバリエーションが組み合わさっているため難しい。
本稿では,既存の多言語エンコーダを複数構築し,継続事前学習を用いてスイスドイツ語に適応する。
3つの異なる下流タスクの評価によれば、スイスドイツ語のアダプタをモジュラーエンコーダに追加するだけで97.5%の完全なモノリシック適応性能が得られる。
さらに、標準ドイツ語の問合せによりスイスドイツ語の文を検索する作業において、文字レベルのモデルを適用することは、他の適応戦略よりも効果的であることがわかった。
コードとモデルをhttps://github.com/ZurichNLP/swiss-german-text-encodersで公開しています。 Creating neural text encoders for written Swiss German is challenging due to a dearth of training data combined with dialectal variation. In this paper, we build on several existing multilingual encoders and adapt them to Swiss German using continued pre-training. Evaluation on three diverse downstream tasks shows that simply adding a Swiss German adapter to a modular encoder achieves 97.5% of fully monolithic adaptation performance. We further find that for the task of retrieving Swiss German sentences given Standard German queries, adapting a character-level model is more effective than the other adaptation strategies. We release our code and the models trained for our experiments at https://github.com/ZurichNLP/swiss-german-text-encoders | 翻訳日:2024-01-26 13:32:50 公開日:2024-01-25 |
# pix2gestalt: wholes合成によるアモダルセグメンテーション pix2gestalt: Amodal Segmentation by Synthesizing Wholes ( http://arxiv.org/abs/2401.14398v1 ) ライセンス: Link先を確認 | Ege Ozguroglu, Ruoshi Liu, D\'idac Sur\'is, Dian Chen, Achal Dave, Pavel Tokmakov, Carl Vondrick | (参考訳) ゼロショットアモーダルセグメンテーションのためのフレームワークであるpix2gestaltを導入し、オクルージョンの背後で部分的にしか見えないオブジェクト全体の形状と外観を推定することを学ぶ。
大規模拡散モデルに乗じてその表現をこのタスクに移すことで、自然や物理的に先行する美術品などを含むゼロショットの難題において、オブジェクト全体を再構成するための条件付き拡散モデルを学ぶ。
トレーニングデータとして、排他的オブジェクトと全オブジェクトをペアにした合成キュレートデータセットを使用する。
実験により,本手法が確立したベンチマークのベースラインよりも優れていることが示された。
さらに,既存の物体認識および3次元再構成手法の性能を,閉塞の有無で大幅に向上させることができる。 We introduce pix2gestalt, a framework for zero-shot amodal segmentation, which learns to estimate the shape and appearance of whole objects that are only partially visible behind occlusions. By capitalizing on large-scale diffusion models and transferring their representations to this task, we learn a conditional diffusion model for reconstructing whole objects in challenging zero-shot cases, including examples that break natural and physical priors, such as art. As training data, we use a synthetically curated dataset containing occluded objects paired with their whole counterparts. Experiments show that our approach outperforms supervised baselines on established benchmarks. Our model can furthermore be used to significantly improve the performance of existing object recognition and 3D reconstruction methods in the presence of occlusions. | 翻訳日:2024-01-26 13:32:36 公開日:2024-01-25 |
# マスクオートエンコーダのパッチ依存性の再考 Rethinking Patch Dependence for Masked Autoencoders ( http://arxiv.org/abs/2401.14391v1 ) ライセンス: Link先を確認 | Letian Fu, Long Lian, Renhao Wang, Baifeng Shi, Xudong Wang, Adam Yala, Trevor Darrell, Alexei A. Efros, Ken Goldberg | (参考訳) 本研究では,マスク付きオートエンコーダ(MAE)の復号機構におけるパッチ間の依存関係を再検討する。
我々は,maeのマスクパッチ再構成のためのこのデコード機構を自己着脱とクロス着脱に分解する。
本研究は,マスクパッチ間の自己着脱が良好な表現を学ぶ上で必須ではないことを示唆する。
そこで本研究では,新しい事前学習フレームワークであるcross-attention masked autoencoder (crossmae)を提案する。
crossmaeのデコーダは、マスクトークンと可視トークン間のクロスアテンションのみを利用しており、ダウンストリームのパフォーマンスは低下しない。
この設計により、マスクトークンの小さなサブセットのみのデコードが可能となり、効率が向上する。
さらに、各デコーダブロックは異なるエンコーダ機能を利用することができ、それによって表現学習が改善される。
CrossMAE は MAE のパフォーマンスを 2.5 から 3.7$\times$ less decoding compute で比較する。
また、同じ計算でImageNet分類とCOCOインスタンスのセグメンテーションでMAEを上回っている。
コードとモデル: https://crossmae.github.io In this work, we re-examine inter-patch dependencies in the decoding mechanism of masked autoencoders (MAE). We decompose this decoding mechanism for masked patch reconstruction in MAE into self-attention and cross-attention. Our investigations suggest that self-attention between mask patches is not essential for learning good representations. To this end, we propose a novel pretraining framework: Cross-Attention Masked Autoencoders (CrossMAE). CrossMAE's decoder leverages only cross-attention between masked and visible tokens, with no degradation in downstream performance. This design also enables decoding only a small subset of mask tokens, boosting efficiency. Furthermore, each decoder block can now leverage different encoder features, resulting in improved representation learning. CrossMAE matches MAE in performance with 2.5 to 3.7$\times$ less decoding compute. It also surpasses MAE on ImageNet classification and COCO instance segmentation under the same compute. Code and models: https://crossmae.github.io | 翻訳日:2024-01-26 13:32:23 公開日:2024-01-25 |
# カットプレーン法によるSVMの平滑化 Smooth Ranking SVM via Cutting-Plane Method ( http://arxiv.org/abs/2401.14388v1 ) ライセンス: Link先を確認 | Erhan Can Ozcan, Berk G\"org\"ul\"u, Mustafa G. Baydogan, Ioannis Ch. Paschalidis | (参考訳) 最も一般的な分類アルゴリズムは、訓練中の分類精度を最大化するように設計されている。
しかし、この戦略は、多数派に過度に適合して高精度にモデルを訓練できるため、クラス不均衡の存在下で失敗する可能性がある。
一方、aucは、クラス不均衡がある場合の異なるアルゴリズムの分類性能を比較するために広く用いられているメトリクスであり、トレーニング中のこのメトリックの直接的最適化に焦点を当てた様々なアプローチが提案されている。
この定式化により、異なる正規化戦略を簡単に組み込むことができるため、svmベースの定式化は特に一般的である。
本研究では,AUC を最大化するために,Randing SVM と同様の切削平面法に基づくプロトタイプ学習手法を開発する。
本アルゴリズムは,切削面を反復的に導入することで,より単純なモデルを学習する。
さらに、各イテレーションにおける重みの変化をペナルティ化し、テストパフォーマンスで見られる大きなジャンプを避けることで、スムーズな学習プロセスを容易にします。
73のバイナリ分類データセットを用いて行った実験から,本手法は競合する25のデータセットの中で最高のAUCが得られる。 The most popular classification algorithms are designed to maximize classification accuracy during training. However, this strategy may fail in the presence of class imbalance since it is possible to train models with high accuracy by overfitting to the majority class. On the other hand, the Area Under the Curve (AUC) is a widely used metric to compare classification performance of different algorithms when there is a class imbalance, and various approaches focusing on the direct optimization of this metric during training have been proposed. Among them, SVM-based formulations are especially popular as this formulation allows incorporating different regularization strategies easily. In this work, we develop a prototype learning approach that relies on cutting-plane method, similar to Ranking SVM, to maximize AUC. Our algorithm learns simpler models by iteratively introducing cutting planes, thus overfitting is prevented in an unconventional way. Furthermore, it penalizes the changes in the weights at each iteration to avoid large jumps that might be observed in the test performance, thus facilitating a smooth learning process. Based on the experiments conducted on 73 binary classification datasets, our method yields the best test AUC in 25 datasets among its relevant competitors. | 翻訳日:2024-01-26 13:32:10 公開日:2024-01-25 |
# inconsistency masks: input-pseudo-label pairsからの不確実性除去 Inconsistency Masks: Removing the Uncertainty from Input-Pseudo-Label Pairs ( http://arxiv.org/abs/2401.14387v1 ) ライセンス: Link先を確認 | Michael R. H. Vorndran, Bernhard F. Roeck | (参考訳) 十分なラベル付きデータを生成することは、ディープラーニングプロジェクトの効率的な実行において重要なハードルとなる。
我々の研究は、限られたハードウェアリソースと広範なデータセットや事前訓練されたモデルの欠如に制約された環境での運用という課題に直面している。
非一貫性マスク (im) を用いて, 従来の半教師付き学習技術以上のセグメンテーション品質を実質的に向上させ, 不確かさを効果的にフィルタリングする手法を提案する。
IMと他の手法を統合することで、わずか10%のラベル付きデータから始まるISIC 2018データセットにおいて、優れたバイナリセグメンテーション性能を示す。
特に、当社のハイブリッドモデルのうち3つが、完全にラベル付きデータセットでトレーニングされたモデルよりも優れています。
我々のアプローチは、3つの追加データセットにまたがる例外的な結果を一貫して達成し、他の手法と組み合わせることでさらなる改善を示す。
総合的かつ堅牢な評価のために,本論文では,すべて同一の開始条件下で訓練された,一般的な半教師付き学習戦略を幅広く分析する。
完全なコードは、https://github.com/MichaelVorndran/InconsistencyMasksで入手できる。 Generating sufficient labeled data is a significant hurdle in the efficient execution of deep learning projects, especially in uncharted territories of image segmentation where labeling demands extensive time, unlike classification tasks. Our study confronts this challenge, operating in an environment constrained by limited hardware resources and the lack of extensive datasets or pre-trained models. We introduce the novel use of Inconsistency Masks (IM) to effectively filter uncertainty in image-pseudo-label pairs, substantially elevating segmentation quality beyond traditional semi-supervised learning techniques. By integrating IM with other methods, we demonstrate remarkable binary segmentation performance on the ISIC 2018 dataset, starting with just 10% labeled data. Notably, three of our hybrid models outperform those trained on the fully labeled dataset. Our approach consistently achieves exceptional results across three additional datasets and shows further improvement when combined with other techniques. For comprehensive and robust evaluation, this paper includes an extensive analysis of prevalent semi-supervised learning strategies, all trained under identical starting conditions. The full code is available at: https://github.com/MichaelVorndran/InconsistencyMasks | 翻訳日:2024-01-26 13:31:51 公開日:2024-01-25 |
# エントロピック量子中心極限定理と量子逆サマセット定理 Entropic Quantum Central Limit Theorem and Quantum Inverse Sumset Theorem ( http://arxiv.org/abs/2401.14385v1 ) ライセンス: Link先を確認 | Kaifeng Bu, Weichen Gu, Arthur Jaffe | (参考訳) 離散変数量子系において、量子中心極限定理と量子逆和集合定理を定式化し、quditsやqubitsを記述する。
どちらの結果も、最近発見された量子畳み込みを用いて実現できます。
エントロピー中心極限定理の指数収束速度はマジックギャップによって制限されていることを示す。
また、量子二重化定数を導入することで ``quantum, entropic inverse sumset theorem''' を確立する。
さらに、我々は '`quantum Ruzsa divergence' を導入し、'`convolutional strong subaddivity'' と呼ばれる予想を示し、これは量子的 Ruzsa divergence の三角形の不等式をもたらす。
この研究の副産物は、量子ルザの発散に基づく状態の非安定化の性質を定量化する魔法の尺度である。 We establish an entropic, quantum central limit theorem and quantum inverse sumset theorem in discrete-variable quantum systems describing qudits or qubits. Both results are enabled by using our recently-discovered quantum convolution. We show that the exponential rate of convergence of the entropic central limit theorem is bounded by the magic gap. We also establish an ``quantum, entropic inverse sumset theorem,'' by introducing a quantum doubling constant. Furthermore, we introduce a ``quantum Ruzsa divergence'', and we pose a conjecture called ``convolutional strong subaddivity,'' which leads to the triangle inequality for the quantum Ruzsa divergence. A byproduct of this work is a magic measure to quantify the nonstabilizer nature of a state, based on the quantum Ruzsa divergence. | 翻訳日:2024-01-26 13:31:28 公開日:2024-01-25 |
# 直交多項式カーネルに基づく微分代数方程式の機械学習モデル An Orthogonal Polynomial Kernel-Based Machine Learning Model for Differential-Algebraic Equations ( http://arxiv.org/abs/2401.14382v1 ) ライセンス: Link先を確認 | Tayebeh Taheri, Alireza Afzal Aghaei, Kourosh Parand | (参考訳) 近年,微分方程式と積分方程式の解法としてLast-Squares Support Vector Regression (LS-SVR)アルゴリズムが導入された。
本研究では,このアルゴリズムを微分代数方程式(DAE)のシステムに応用するために拡張する。
本研究は,LS-SVR機械学習モデル,重み付け残差法,レジェンダ直交多項式の接続を確立することにより,一般DAEを演算子形式で解く新しい手法を提案する。
提案手法の有効性を評価するため,非線形システム,分数次微分,積分微分,部分DAEなど,様々なDAEシナリオを考慮したシミュレーションを行った。
最後に,提案手法と現在確立されている最先端手法との比較を行い,信頼性と有効性を示す。 The recent introduction of the Least-Squares Support Vector Regression (LS-SVR) algorithm for solving differential and integral equations has sparked interest. In this study, we expand the application of this algorithm to address systems of differential-algebraic equations (DAEs). Our work presents a novel approach to solving general DAEs in an operator format by establishing connections between the LS-SVR machine learning model, weighted residual methods, and Legendre orthogonal polynomials. To assess the effectiveness of our proposed method, we conduct simulations involving various DAE scenarios, such as nonlinear systems, fractional-order derivatives, integro-differential, and partial DAEs. Finally, we carry out comparisons between our proposed method and currently established state-of-the-art approaches, demonstrating its reliability and effectiveness. | 翻訳日:2024-01-26 13:31:13 公開日:2024-01-25 |
# Manifold GCN: Manifold-valued Graphs のための拡散型畳み込みニューラルネットワーク Manifold GCN: Diffusion-based Convolutional Neural Network for Manifold-valued Graphs ( http://arxiv.org/abs/2401.14381v1 ) ライセンス: Link先を確認 | Martin Hanik and Gabriele Steidl and Christoph von Tycowicz | (参考訳) リーマン多様体に特徴を持つグラフに対する2つのグラフニューラルネットワーク層を提案する。
まず,多様体値グラフ拡散方程式に基づいて任意の数のノードとグラフ接続パターンに適用可能な拡散層を構築する。
第2に、ベクトルニューロンの枠組みから一般設定へのアイデアの伝達により、接多層パーセプトロンをモデル化する。
どちらの層も、特徴多様体のノード置換と同型に関して同値である。
これらの性質は、多くのディープラーニングタスクにおいて有益な帰納バイアスをもたらすことが示されている。
アルツハイマー病を分類する右海馬の三角メッシュや合成データに関する数値的な例は,我々の層の性能が非常に良好であることを示している。 We propose two graph neural network layers for graphs with features in a Riemannian manifold. First, based on a manifold-valued graph diffusion equation, we construct a diffusion layer that can be applied to an arbitrary number of nodes and graph connectivity patterns. Second, we model a tangent multilayer perceptron by transferring ideas from the vector neuron framework to our general setting. Both layers are equivariant with respect to node permutations and isometries of the feature manifold. These properties have been shown to lead to a beneficial inductive bias in many deep learning tasks. Numerical examples on synthetic data as well as on triangle meshes of the right hippocampus to classify Alzheimer's disease demonstrate the very good performance of our layers. | 翻訳日:2024-01-26 13:30:59 公開日:2024-01-25 |
# UrbanGenAI:汎視的セグメンテーションと拡散モデルによる都市景観の再構築 UrbanGenAI: Reconstructing Urban Landscapes using Panoptic Segmentation and Diffusion Models ( http://arxiv.org/abs/2401.14379v1 ) ライセンス: Link先を確認 | Timo Kapsalis | (参考訳) 現代のデザイン実践において、コンピュータビジョンと生成型人工知能(genai)の統合は、よりインタラクティブで包括的なプロセスへの転換を意味する。
これらの技術は画像解析と生成の新しい次元を提供し、特に都市景観復元の文脈に関連している。
本稿では,高度画像セグメンテーションと拡散モデルとの相乗効果を活かし,都市設計への包括的アプローチとして,プロトタイプアプリケーション内にカプセル化された新しいワークフローを提案する。
本手法は,詳細な画像分割のためのOneFormerモデルと,テキスト記述から画像を生成するためのControlNetによって実装されたSDXL拡散モデルを含む。
検証の結果,プロトタイプによる高い性能を示し,オブジェクト検出とテキスト・ツー・イメージ生成の両面で有意な精度を示した。
これは、都市景観の特徴の様々なカテゴリに対する反復的な評価において、IoU(Intersection over Union)とCLIP(CLIP)によって証明された。
予備試験には、デザイン教育における学習経験を高める教育ツールとしてのUrbanGenAIの活用と、コミュニティ主導の都市計画を促進する参加型機器の活用が含まれていた。
初期の結果は、都市景観復興の技術的フロンティアを前進させるだけでなく、教育的かつ参加的な計画上のメリットももたらすことを示唆している。
UrbanGenAIの継続的な開発は、より広いコンテキストにわたってその有効性を検証し、リアルタイムフィードバック機構や3Dモデリング機能などの追加機能を統合することを目的としている。
キーワード:生成ai、汎視画像分割、拡散モデル、都市景観デザイン、デザイン教育、共同設計 In contemporary design practices, the integration of computer vision and generative artificial intelligence (genAI) represents a transformative shift towards more interactive and inclusive processes. These technologies offer new dimensions of image analysis and generation, which are particularly relevant in the context of urban landscape reconstruction. This paper presents a novel workflow encapsulated within a prototype application, designed to leverage the synergies between advanced image segmentation and diffusion models for a comprehensive approach to urban design. Our methodology encompasses the OneFormer model for detailed image segmentation and the Stable Diffusion XL (SDXL) diffusion model, implemented through ControlNet, for generating images from textual descriptions. Validation results indicated a high degree of performance by the prototype application, showcasing significant accuracy in both object detection and text-to-image generation. This was evidenced by superior Intersection over Union (IoU) and CLIP scores across iterative evaluations for various categories of urban landscape features. Preliminary testing included utilising UrbanGenAI as an educational tool enhancing the learning experience in design pedagogy, and as a participatory instrument facilitating community-driven urban planning. Early results suggested that UrbanGenAI not only advances the technical frontiers of urban landscape reconstruction but also provides significant pedagogical and participatory planning benefits. The ongoing development of UrbanGenAI aims to further validate its effectiveness across broader contexts and integrate additional features such as real-time feedback mechanisms and 3D modelling capabilities. Keywords: generative AI; panoptic image segmentation; diffusion models; urban landscape design; design pedagogy; co-design | 翻訳日:2024-01-26 13:30:46 公開日:2024-01-25 |
# turna: 理解と生成の強化を目的としたトルコのエンコーダ-デコーダ言語モデル TURNA: A Turkish Encoder-Decoder Language Model for Enhanced Understanding and Generation ( http://arxiv.org/abs/2401.14373v1 ) ライセンス: Link先を確認 | G\"ok\c{c}e Uludo\u{g}an and Zeynep Yirmibe\c{s}o\u{g}lu Balal and Furkan Akkurt and Melik\c{s}ah T\"urker and Onur G\"ung\"or and Susan \"Usk\"udarl{\i} | (参考訳) 近年の自然言語処理の進歩により、英語中心のモデルが好まれ、低リソース言語との大きな違いが生じた。
本研究では,低リソース言語であるトルコ語向けに開発された言語モデルTURNAを紹介し,自然言語の理解と生成を両立させる。
TURNAは、統一されたフレームワークUL2に基づくエンコーダデコーダアーキテクチャで事前訓練されている。
トルコ語ではTURNAを3世代タスクと5つの理解タスクで評価した。
その結果、TURNAは理解タスクと生成タスクの両方において複数の多言語モデルより優れており、理解タスクにおいて単言語トルコモデルと競合することがわかった。
TURNAはhttps://huggingface.co/boun-tabi-LMG/TURNAで入手できる。 The recent advances in natural language processing have predominantly favored well-resourced English-centric models, resulting in a significant gap with low-resource languages. In this work, we introduce the language model TURNA, which is developed for the low-resource language Turkish and is capable of both natural language understanding and generation tasks. TURNA is pretrained with an encoder-decoder architecture based on the unified framework UL2 with a diverse corpus that we specifically curated for this purpose. We evaluated TURNA with three generation tasks and five understanding tasks for Turkish. The results show that TURNA outperforms several multilingual models in both understanding and generation tasks, and competes with monolingual Turkish models in understanding tasks. TURNA is made available at https://huggingface.co/boun-tabi-LMG/TURNA . | 翻訳日:2024-01-26 13:30:20 公開日:2024-01-25 |
# 遅延入力のみを用いた物理貯留層コンピュータの効率的な最適化 Efficient Optimisation of Physical Reservoir Computers using only a Delayed Input ( http://arxiv.org/abs/2401.14371v1 ) ライセンス: Link先を確認 | Enrico Picco, Lina Jaurigue, Kathy L\"udge and Serge Massar | (参考訳) 本稿では,最近提案された貯留層計算の最適化手法の実験的検証を行う。
貯留層計算は信号処理アプリケーションのための堅牢なフレームワークであり、効率的な最適化手法の開発は依然として重要な課題である。
提案手法は, 入力信号の遅延バージョンのみを利用して, 貯水池の最適動作領域を同定し, 従来の過パラメータチューニング作業の簡略化を図る。
異なるベンチマークタスクと貯水池動作条件におけるこのアプローチの有効性を検証する。 We present an experimental validation of a recently proposed optimization technique for reservoir computing, using an optoelectronic setup. Reservoir computing is a robust framework for signal processing applications, and the development of efficient optimization approaches remains a key challenge. The technique we address leverages solely a delayed version of the input signal to identify the optimal operational region of the reservoir, simplifying the traditionally time-consuming task of hyperparameter tuning. We verify the effectiveness of this approach on different benchmark tasks and reservoir operating conditions. | 翻訳日:2024-01-26 13:30:07 公開日:2024-01-25 |
# エネルギーベース自動モデル評価 Energy-based Automated Model Evaluation ( http://arxiv.org/abs/2401.12689v2 ) ライセンス: Link先を確認 | Ru Peng, Heming Zou, Haobo Wang, Yawen Zeng, Zenan Huang, Junbo Zhao | (参考訳) 機械学習モデルの従来の評価プロトコルは、ラベル付き、すなわち、実世界のアプリケーションではあまり使われないテストデータセットに大きく依存している。
Automated Model Evaluation (AutoEval)は、地平線ラベルなしでテストパフォーマンスの近位予測パイプラインを構築することで、この従来のワークフローに代わるものを示している。
最近の成功にもかかわらず、AutoEvalフレームワークはいまだに自信過剰な問題、かなりのストレージと計算コストに悩まされている。
そこで我々は,AutoEvalフレームワークをより効率的かつ効果的にするための新しい手段であるメタ・ディストリビューション・エナジー(MDE)を提案する。
mdeの中核は、個々のサンプルに関連する情報(エネルギー)に基づいてメタ分散統計を確立し、エネルギーベースの学習によってよりスムーズな表現を提供することである。
さらに,mdeと分類損失を結びつけることで,理論的知見を提供する。
我々は、mdeの妥当性を検証するために、モダリティ、データセット、異なるアーキテクチャバックボーンにまたがる広範な実験と、それ以前のアプローチよりも優れた実験を提供する。
また,大規模モデルとのシームレスな統合と,雑音や不均衡ラベルによる学習シナリオへの適応性を示すことで,MDEの汎用性を証明する。
コードとデータ: https://github.com/pengr/energy_autoeval The conventional evaluation protocols on machine learning models rely heavily on a labeled, i.i.d-assumed testing dataset, which is not often present in real world applications. The Automated Model Evaluation (AutoEval) shows an alternative to this traditional workflow, by forming a proximal prediction pipeline of the testing performance without the presence of ground-truth labels. Despite its recent successes, the AutoEval frameworks still suffer from an overconfidence issue, substantial storage and computational cost. In that regard, we propose a novel measure -- Meta-Distribution Energy (MDE) -- that allows the AutoEval framework to be both more efficient and effective. The core of the MDE is to establish a meta-distribution statistic, on the information (energy) associated with individual samples, then offer a smoother representation enabled by energy-based learning. We further provide our theoretical insights by connecting the MDE with the classification loss. We provide extensive experiments across modalities, datasets and different architectural backbones to validate MDE's validity, together with its superiority compared with prior approaches. We also prove MDE's versatility by showing its seamless integration with large-scale models, and easy adaption to learning scenarios with noisy- or imbalanced- labels. Code and data are available: https://github.com/pengr/Energy_AutoEval | 翻訳日:2024-01-26 11:42:00 公開日:2024-01-25 |
# BiTA: 大規模言語モデルにおけるロスレスアクセラレーションのための双方向チューニング BiTA: Bi-Directional Tuning for Lossless Acceleration in Large Language Models ( http://arxiv.org/abs/2401.12522v2 ) ライセンス: Link先を確認 | Feng Lin, Hanling Yi, Hongbin Li, Yifan Yang, Xiaotian Yu, Guangming Lu, Rong Xiao | (参考訳) 大規模言語モデル(LLM)は推論中に自己回帰生成を使用することが多いため、メモリ帯域幅の要求が高くなり、結果として遅延が延長される。
この非効率性を軽減するために、半自己回帰生成とドラフト検証によるLCMの高速化手法であるBiTA(Bi-directional Tuning for Losless Acceleration)を提案する。
プロンプトチューニングの概念に触発され、半自己回帰生成の能力に対する双方向チューニングと呼ばれるパラメータ効率のよい設計でllmを強化する。
効率的なツリーベースのデコードを利用することで、モデルはドラフト候補の生成と検証を並行して実行し、グレディサンプリングの下で自己回帰的な出力と同一の出力を保証する。
BiTAは軽量なプラグインモジュールとして機能し、追加の補助モデルを必要とせずに既存のLLMの推論効率をシームレスに向上する。
提案された BiTA を適用した LLaMA-2-70B-Chat は MT-Bench ベンチマークで 2.7$\times$ のスピードアップを達成した。
広範囲な実験により,本手法が最先端の加速技術を上回ることが確認された。 Large language models (LLMs) commonly employ autoregressive generation during inference, leading to high memory bandwidth demand and consequently extended latency. To mitigate this inefficiency, we present Bi-directional Tuning for lossless Acceleration (BiTA), an innovative method expediting LLMs via streamlined semi-autoregressive generation and draft verification. Inspired by the concept of prompt tuning, we enhance LLMs with a parameter-efficient design called bi-directional tuning for the capability in semi-autoregressive generation. Employing efficient tree-based decoding, the models perform draft candidate generation and verification in parallel, ensuring outputs identical to their autoregressive counterparts under greedy sampling. BiTA serves as a lightweight plug-in module, seamlessly boosting the inference efficiency of existing LLMs without requiring additional assistance models or incurring significant extra memory costs. Applying the proposed BiTA, LLaMA-2-70B-Chat achieves a 2.7$\times$ speedup on the MT-Bench benchmark. Extensive experiments confirm our method surpasses state-of-the-art acceleration techniques. | 翻訳日:2024-01-26 11:41:39 公開日:2024-01-25 |
# TurboSVM-FL: 遅延クライアントのためのSVM集約によるフェデレーション学習を促進する TurboSVM-FL: Boosting Federated Learning through SVM Aggregation for Lazy Clients ( http://arxiv.org/abs/2401.12012v2 ) ライセンス: Link先を確認 | Mengdi Wang, Anna Bodonhelyi, Efe Bozkir, Enkelejda Kasneci | (参考訳) フェデレーション学習(federated learning)は、分散協調機械学習パラダイムであり、近年、強い勢いを増している。
統合学習では、中央サーバが定期的にクライアントとモデルをコーディネートし、ローカルデータへのアクセスを必要とせずにクライアントがローカルにトレーニングしたモデルを集約する。
その可能性にもかかわらず、フェデレーション学習の実装は、主にデータの多様性による収束が遅いという、いくつかの課題に遭遇し続けている。
遅い収束は、クライアントが計算能力とストレージスペースによって強く制限される可能性があるクロスデバイス・フェデレーション学習シナリオにおいて特に問題となるため、補助的な目的語やより大きなトレーニングイテレーションのようなクライアント側で追加の計算やメモリコストを誘導する対策は現実的ではない。
本稿では,クライアント側で計算負荷を発生させることなく,特にクライアントが"怠慢"である場合のフェデレーション分類タスクの収束を著しく加速し,次のグローバルアグリゲーションのためにのみモデルをトレーニングする,新しいフェデレーション集約戦略であるTurboSVM-FLを提案する。
TurboSVM-FLは、サポートベクトルマシンを広範囲に利用して、クラス埋め込み上で選択的集約と最大マージンのスプレッドアウト正規化を行う。
我々は,FEMNIST,CelebA,シェークスピアを含む複数のデータセット上でTurboSVM-FLを評価する。
以上の結果から,TurboSVM-FLはコンバージェンスレートのアルゴリズムよりも優れ,通信ラウンドの削減や精度,F1スコア,MCCといった優れたテスト指標の提供が可能であることが示唆された。 Federated learning is a distributed collaborative machine learning paradigm that has gained strong momentum in recent years. In federated learning, a central server periodically coordinates models with clients and aggregates the models trained locally by clients without necessitating access to local data. Despite its potential, the implementation of federated learning continues to encounter several challenges, predominantly the slow convergence that is largely due to data heterogeneity. The slow convergence becomes particularly problematic in cross-device federated learning scenarios where clients may be strongly limited by computing power and storage space, and hence counteracting methods that induce additional computation or memory cost on the client side such as auxiliary objective terms and larger training iterations can be impractical. In this paper, we propose a novel federated aggregation strategy, TurboSVM-FL, that poses no additional computation burden on the client side and can significantly accelerate convergence for federated classification task, especially when clients are "lazy" and train their models solely for few epochs for next global aggregation. TurboSVM-FL extensively utilizes support vector machine to conduct selective aggregation and max-margin spread-out regularization on class embeddings. We evaluate TurboSVM-FL on multiple datasets including FEMNIST, CelebA, and Shakespeare using user-independent validation with non-iid data distribution. Our results show that TurboSVM-FL can significantly outperform existing popular algorithms on convergence rate and reduce communication rounds while delivering better test metrics including accuracy, F1 score, and MCC. | 翻訳日:2024-01-26 11:41:21 公開日:2024-01-25 |
# 生産におけるハイブリッド量子ソルバー : NISQ時代をどう成功させるか Hybrid Quantum Solvers in Production: how to succeed in the NISQ era? ( http://arxiv.org/abs/2401.10302v3 ) ライセンス: Link先を確認 | Eneko Osaba, Esther Villar-Rodriguez, Aitor Gomez-Tejedor and Izaskun Oregi | (参考訳) ハイブリッド量子コンピューティングは、量子コンピューティングの分野における現在と未来と考えられている。
NISQ時代のデバイスの限界に対処するためには、この傾向は単なるストップギャップとは考えられない。
両コンピューティングパラダイムを結びつける基盤は、時間とともに堅牢になるでしょう。
膨大な研究活動にもかかわらず、ハイブリッドコンピューティングの課題は、現在の解法の適切な評価から、ハイブリッドアルゴリズムの設計と公正な評価のための適切な方法論の確立まで、まだ数え切れないほどである。
この研究の貢献は2つある: まず、文献で最近発表された2つの異なる分類体系に頼って、最も頻繁に使用されるハイブリッド・ソルバについて記述し分類する。
第2に,現在実運用環境にデプロイされている2つのソルバに特に注目して,実業界に近いことを実証しました。
これらの解法は、D-WaveのHybridBQMSamplerとQuantagoniaのHybrid Solverに含まれるLeapHybridBQMSamplerである。
本稿では,2つのハイブリッド手法の性能をベンチマークとして,トラベリングセールスマン問題,車両ルーティング問題,ビンパッケージ問題,最大カット問題という4つのよく知られた組合せ最適化問題を用いて解析する。
この論文で提示された貢献のおかげで、読者は産業市場に近い生産におけるハイブリダイゼーション戦略のパフォーマンスについて洞察を得ることができる。 Hybrid quantum computing is considered the present and the future within the field of quantum computing. Far from being a passing fad, this trend cannot be considered just a stopgap to address the limitations of NISQ-era devices. The foundations linking both computing paradigms will remain robust over time. Despite buoyant research activity, the challenges in hybrid computing are still countless, ranging from the proper characterization of current solvers to the establishment of appropriate methodologies for the design and fair evaluation of hybrid algorithms. The contribution of this work is twofold: first, we describe and categorize some of the most frequently used hybrid solvers, resorting to two different taxonomies recently published in the literature. Secondly, we put a special focus on two solvers that are currently deployed in real production and that have demonstrated to be near the real industry. These solvers are the LeapHybridBQMSampler contained in D-Wave's Hybrid Solver Service and Quantagonia's Hybrid Solver. We analyze the performance of both hybrid methods using as benchmarks four well-known combinatorial optimization problems: the Traveling Salesman Problem, Vehicle Routing Problem, Bin Packing Problem, and Maximum Cut Problem. Thanks to the contributions presented in this paper, the reader gains insight into the performance of those hybridization strategies nowadays in production and close to the industrial markets. | 翻訳日:2024-01-26 11:40:49 公開日:2024-01-25 |
# 相対性理論の量子原理と可算重力 Quantum Principle of Relativity and The Renormalizable Gravity ( http://arxiv.org/abs/2401.08617v5 ) ライセンス: Link先を確認 | Jinsu Kim and Dongok Kim | (参考訳) 我々は、一般相対性理論を導入することなく、相対性理論という新しい相対性理論に基づく純粋量子理論を開発した。
我々は、相対性理論の本質が量子領域に自然に拡張され、活性変換と受動変換の同一構造が維持されることを示した。
この原理を用いることで、重力効果は自然に正規化可能な理論に組み込まれ、一般相対性理論は大きな距離で現れることを示す。
グラビトンプロパゲーターを導出し、この理論に基づくいくつかの例を提供する。 We develop a purely quantum theory based on the novel principle of relativity, termed the quantum principle of relativity, without introducing general relativity. We demonstrate that the essence of the principle of relativity can be naturally extended into the quantum realm, maintaining the identical structures of active and passive transformations. By employing this principle, we show that gravitational effects are naturally incorporated into the renormalizable theory, with general relativity emerging in large distances. We derive graviton propagators and provide several examples grounded in this novel theory. | 翻訳日:2024-01-26 11:40:27 公開日:2024-01-25 |
# DiConStruct:ブラックボックス蒸留による因果概念に基づく説明 DiConStruct: Causal Concept-based Explanations through Black-Box Distillation ( http://arxiv.org/abs/2401.08534v3 ) ライセンス: Link先を確認 | Ricardo Moreira, Jacopo Bono, M\'ario Cardoso, Pedro Saleiro, M\'ario A. T. Figueiredo, Pedro Bizarro | (参考訳) モデル解釈可能性は人間-AI意思決定システムにおいて中心的な役割を果たす。
理想的には、説明は人間の解釈可能な意味概念を用いて表現されるべきである。
さらに、これらの概念間の因果関係は、説明者によって、説明に関する推論を可能にするために捉えるべきである。
最後に、説明方法は効率的であり、予測タスクのパフォーマンスを損なうべきではない。
近年のai説明能力の急速な進歩にもかかわらず、我々が知る限り、これら3つの特性を満たす方法はない。
実際、局所的な概念説明可能性の主流の手法は因果説明を生み出しず、説明可能性と予測性能の間のトレードオフをもたらす。
提案するDiConStructは,概念ベースと因果関係の両方の手法であり,構造因果モデルと概念属性の形式でより解釈可能な局所的説明を作成することを目的としている。
筆者らは,ブラックボックス機械学習モデルの蒸留モデルとして,その予測を近似し,それぞれの説明を生成する。
このため、DiConStructはブラックボックス予測タスクに影響を与えることなく、効率的に説明を生成する。
本手法を画像データセットと表データデータセット上で検証し,diconstructがブラックボックスモデルを他の概念説明可能性ベースラインよりも高い忠実度で近似することを示すとともに,概念間の因果関係を含む説明を提供する。 Model interpretability plays a central role in human-AI decision-making systems. Ideally, explanations should be expressed using human-interpretable semantic concepts. Moreover, the causal relations between these concepts should be captured by the explainer to allow for reasoning about the explanations. Lastly, explanation methods should be efficient and not compromise the performance of the predictive task. Despite the rapid advances in AI explainability in recent years, as far as we know to date, no method fulfills these three properties. Indeed, mainstream methods for local concept explainability do not produce causal explanations and incur a trade-off between explainability and prediction performance. We present DiConStruct, an explanation method that is both concept-based and causal, with the goal of creating more interpretable local explanations in the form of structural causal models and concept attributions. Our explainer works as a distillation model to any black-box machine learning model by approximating its predictions while producing the respective explanations. Because of this, DiConStruct generates explanations efficiently while not impacting the black-box prediction task. We validate our method on an image dataset and a tabular dataset, showing that DiConStruct approximates the black-box models with higher fidelity than other concept explainability baselines, while providing explanations that include the causal relations between the concepts. | 翻訳日:2024-01-26 11:40:16 公開日:2024-01-25 |
# 野生の未ラベル顔画像に対するマルチタスク学習戦略に基づく顔行動単位の検出 Facial Action Unit Detection Based on Multi-task Learning Strategy for Unlabeled Facial Images in the Wild ( http://arxiv.org/abs/2310.05207v3 ) ライセンス: Link先を確認 | Ziqiao Shang, Bin Liu | (参考訳) AU(Facial Action Unit)検出は、近年、高コストで正確なラベル付けや偽のラベル付け技術に依存していることが多い。
大量の未ラベルの顔画像を、教師付きAU検出フレームワークにどのように導入するかは、難しい問題となっている。
さらに、ほぼ全ての種類のAUsは、非平衡な正と負のサンプルを持つ。
他のマルチタスク学習フレームワークに触発されて、まず、顔ランドマーク検出とauドメイン分離と再構成を組み合わせることで、野生でのau検出を促進するマルチタスク学習戦略を提案する。
今回紹介したデュアルドメイン顔ランドマーク検出フレームワークは,auドメイン分離・再構成訓練過程における正確な顔ランドマーク座標の欠如を解消すると同時に,これら2つの類似した顔タスクから相同な顔抽出モジュールのパラメータを共有できる。
さらに,2つの分離・再構成プロセスから得られる特徴の整合性を維持するための画素レベルの特徴アライメント方式を提案する。
さらに,モデルパラメータ更新に対する各 aus の正および負のサンプルの寄与を変化させるために,重み付き非対称損失を提案する。
3つの広く使われているベンチマーク実験の結果、AU検出の最先端手法よりも優れていることが示された。 Facial Action Unit (AU) detection often relies on highly-cost accurate labeling or inaccurate pseudo labeling techniques in recent years. How to introduce large amounts of unlabeled facial images in the wild into supervised AU detection frameworks has become a challenging problem. Additionally, nearly every type of AUs has the problem of unbalanced positive and negative samples. Inspired by other multi-task learning frameworks, we first propose a multi-task learning strategy boosting AU detection in the wild through jointing facial landmark detection and AU domain separation and reconstruction. Our introduced dual domains facial landmark detection framework can solve the lack of accurate facial landmark coordinates during the AU domain separation and reconstruction training process, while the parameters of homostructural facial extraction modules from these two similar facial tasks are shared. Moreover, we propose a pixel-level feature alignment scheme to maintain the consistency of features obtained from two separation and reconstruction processes. Furthermore, a weighted asymmetric loss is proposed to change the contribution of positive and negative samples of each type of AUs to model parameters updating. Experimental results on three widely used benchmarks demonstrate our superiority to most state-of-the-art methods for AU detection. | 翻訳日:2024-01-26 11:39:34 公開日:2024-01-25 |
# 不定因果構造をもつ非シグナリング制約量子計算 No-signalling constrains quantum computation with indefinite causal structure ( http://arxiv.org/abs/2202.10214v3 ) ライセンス: Link先を確認 | Luca Apadula, Alessandro Bisio, and Paolo Perinotti | (参考訳) 不定因果構造を持つ量子プロセスは、ある特定の因果次数ではないと仮定された局所系の集合の量子論によって許容される最も一般的な進化であると考えると現れる。
これらの過程は、量子変換から量子変換への写像を考えることから、より高次の量子写像の階層を再帰的に構築する高階量子理論の枠組みの中で記述することができる。
本研究では,不定因果構造を持つ量子計算のための形式論,すなわち高次量子写像の計算構造を特徴付ける。
公理的アプローチをとると、この計算の規則は、量子論の数学的構造と適合する高階写像の最も一般的な合成として識別される。
任意の高次量子写像に対する許容構成の数学的特徴付けを提供する。
計算および情報理論的な性質を持つこれらの規則は、高次量子写像の量子系間のシグナル関係のより物理的な概念によって決定される。 Quantum processes with indefinite causal structure emerge when we wonder which are the most general evolutions, allowed by quantum theory, of a set of local systems which are not assumed to be in any particular causal order. These processes can be described within the framework of higher-order quantum theory which, starting from considering maps from quantum transformations to quantum transformations, recursively constructs a hierarchy of quantum maps of increasingly higher order. In this work, we develop a formalism for quantum computation with indefinite causal structures; namely, we characterize the computational structure of higher order quantum maps. Taking an axiomatic approach, the rules of this computation are identified as the most general compositions of higher order maps which are compatible with the mathematical structure of quantum theory. We provide a mathematical characterization of the admissible composition for arbitrary higher order quantum maps. We prove that these rules, which have a computational and information-theoretic nature, are determined by the more physical notion of the signalling relations between the quantum systems of the higher order quantum maps. | 翻訳日:2024-01-26 11:39:13 公開日:2024-01-25 |
# 信頼性決定支援のための共通確率ニューラルネットワークの不適切性 Inadequacy of common stochastic neural networks for reliable clinical decision support ( http://arxiv.org/abs/2401.13657v2 ) ライセンス: Link先を確認 | Adrian Lindenmeyer, Malte Blattmann, Stefan Franke, Thomas Neumuth, Daniel Schneider | (参考訳) 医療意思決定におけるAIの普及は、倫理的および安全性に関する懸念から、いまだに妨げられている。
医療設定におけるAIベースの意思決定支援システムでは、信頼性と信頼性が最優先される。
しかし、一般的なディープラーニングアプローチは、データシフトによる過信傾向にある。
このような証拠に基づくシナリオを超えた不適切な外挿は、恐ろしい結果をもたらす可能性がある。
このことは、ローカル不確実性の信頼性評価の重要性とエンドユーザへのコミュニケーションを強調している。
確率的ニューラルネットワークはこれらの問題の潜在的な解決策として評価されてきたが,本研究は臨床応用における実際の信頼性について検討する。
MIMIC3によるEHRを用いたICU入院患者の死亡予測の例を中心に分析を行った。
EHR時系列の予測にはEncoder-Only Transformerモデルが採用された。
モデル関数の確率性は、ベイズニューラルネットワーク層やモデルアンサンブルのような一般的な手法を取り入れることで達成された。
判別性能 (AUC ROC: 0.868+-0.011, AUC PR: 0.554+-0.034) と, 死亡予測ベンチマークのキャリブレーションについて検討した。
しかし,確率的深層学習法は認識的不確かさを過小評価している。
後方分布の責任崩壊のヒューリスティックな証明を提供する。
以上の結果から,一般の確率的深層学習手法ではoodサンプルを確実に認識できないことが明らかとなった。
両方法とも, 機能的後肢のバイアスが強いため, 信頼性の低いモデル信頼性が防止され, 信頼性の高い臨床診断支援には不適当である。
これは、カーネルベースの技術を使った既知のデータポイントに対して、より厳密な強制または固有の距離認識のアプローチの必要性を強調している。 Widespread adoption of AI for medical decision making is still hindered due to ethical and safety-related concerns. For AI-based decision support systems in healthcare settings it is paramount to be reliable and trustworthy. Common deep learning approaches, however, have the tendency towards overconfidence under data shift. Such inappropriate extrapolation beyond evidence-based scenarios may have dire consequences. This highlights the importance of reliable estimation of local uncertainty and its communication to the end user. While stochastic neural networks have been heralded as a potential solution to these issues, this study investigates their actual reliability in clinical applications. We centered our analysis on the exemplary use case of mortality prediction for ICU hospitalizations using EHR from MIMIC3 study. For predictions on the EHR time series, Encoder-Only Transformer models were employed. Stochasticity of model functions was achieved by incorporating common methods such as Bayesian neural network layers and model ensembles. Our models achieve state of the art performance in terms of discrimination performance (AUC ROC: 0.868+-0.011, AUC PR: 0.554+-0.034) and calibration on the mortality prediction benchmark. However, epistemic uncertainty is critically underestimated by the selected stochastic deep learning methods. A heuristic proof for the responsible collapse of the posterior distribution is provided. Our findings reveal the inadequacy of commonly used stochastic deep learning approaches to reliably recognize OoD samples. In both methods, unsubstantiated model confidence is not prevented due to strongly biased functional posteriors, rendering them inappropriate for reliable clinical decision support. This highlights the need for approaches with more strictly enforced or inherent distance-awareness to known data points, e.g., using kernel-based techniques. | 翻訳日:2024-01-26 11:34:31 公開日:2024-01-25 |
# スパースグリッド型不連続検出のためのグラフインフォームニューラルネットワーク Graph-Informed Neural Networks for Sparse Grid-Based Discontinuity Detectors ( http://arxiv.org/abs/2401.13652v2 ) ライセンス: Link先を確認 | Francesco Della Santa and Sandra Pieraccini | (参考訳) 本稿では,不連続関数の不連続界面を検出するための新しい手法を提案する。
このアプローチでは、グラフインフォームドニューラルネットワーク(GINN)とスパースグリッドを利用して、3より大きい次元の領域でも不連続検出に対処する。
スパースグリッド上の問題点を特定するために訓練されたGINNは、グリッド上に構築されたグラフ構造を利用して、効率的で正確な不連続検出性能を実現する。
また,一般のスパースグリッド型検出器に対する再帰的アルゴリズムを導入し,収束特性と容易な適用性に特徴付ける。
次元 n = 2 および n = 4 の関数に関する数値実験は、不連続界面の検出における GINN の効率性とロバストな一般化を示す。
特に、訓練されたギンはポータビリティと汎用性を提供し、様々なアルゴリズムへの統合とユーザ間の共有を可能にする。 In this paper, we present a novel approach for detecting the discontinuity interfaces of a discontinuous function. This approach leverages Graph-Informed Neural Networks (GINNs) and sparse grids to address discontinuity detection also in domains of dimension larger than 3. GINNs, trained to identify troubled points on sparse grids, exploit graph structures built on the grids to achieve efficient and accurate discontinuity detection performances. We also introduce a recursive algorithm for general sparse grid-based detectors, characterized by convergence properties and easy applicability. Numerical experiments on functions with dimensions n = 2 and n = 4 demonstrate the efficiency and robust generalization of GINNs in detecting discontinuity interfaces. Notably, the trained GINNs offer portability and versatility, allowing integration into various algorithms and sharing among users. | 翻訳日:2024-01-26 11:34:04 公開日:2024-01-25 |
# MM-LLM:マルチモーダル大言語モデルの最近の進歩 MM-LLMs: Recent Advances in MultiModal Large Language Models ( http://arxiv.org/abs/2401.13601v2 ) ライセンス: Link先を確認 | Duzhen Zhang, Yahan Yu, Chenxing Li, Jiahua Dong, Dan Su, Chenhui Chu, Dong Yu | (参考訳) 過去1年間で、MM-LLM(MultiModal Large Language Models)は大幅に進歩し、MM入力やアウトプットをコスト効率のよいトレーニング戦略を通じてサポートするために、既製のLLMを拡張した。
結果として得られたモデルは、LLMの固有の推論と意思決定能力を保持するだけでなく、多様なMMタスクも強化する。
本稿では,MM-LLMのさらなる研究を促進するための総合的な調査を行う。
具体的には、まずモデルアーキテクチャとトレーニングパイプラインの一般設計について概説する。
その後、既存のMM-LLMを26ドル(約2,600円)で紹介し、それぞれに具体的定式化を特徴とする。
さらに,主要なベンチマークにおけるMM-LLMの性能を概観し,MM-LLMの有効性を高めるための重要なトレーニングレシピを要約する。
最後に,MM-LLMの今後の方向性を検討するとともに,現場の最新開発のためのリアルタイム追跡サイトを同時に維持する。
この調査がMM-LLMsドメインの継続的な進歩に寄与することを願っている。 In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Specifically, we first outline general design formulations for model architecture and training pipeline. Subsequently, we provide brief introductions of $26$ existing MM-LLMs, each characterized by its specific formulations. Additionally, we review the performance of MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain. | 翻訳日:2024-01-26 11:33:51 公開日:2024-01-25 |
# 光ツイーザーアレイを用いた個々の超低温分子の量子制御 Enhanced quantum control of individual ultracold molecules using optical tweezer arrays ( http://arxiv.org/abs/2401.13593v2 ) ライセンス: Link先を確認 | Daniel K. Ruttley, Alexander Guttridge, Tom R. Hepworth, Simon L. Cornish | (参考訳) 個々の分子の量子状態の制御は、そのリッチな内部構造と双極子相互作用を量子科学の応用に利用するために重要である。
本稿では,光学的ツイーザの配列における個別に閉じ込められた極性分子の制御と読み出しのためのツールボックスを開発する。
最大8つのRb原子と8つのCs原子の配列から始め、RbCs分子の配列を、その相対的および超微細な基底状態に48(2)%の効率で組み立てる。
我々は,複数の分子の回転状態のグローバルマイクロ波制御を実証し,補助tweezerアレイを用いてサイト解決アドレッシングと状態制御を実装した。
分子の回転状態がRb原子の位置にどのようにマッピングされ、この能力を用いて1回の実験で複数の回転状態を読み取るかを示す。
さらに, 分子形成エラーの中間系列検出法を用いて, 集合分子の再構成を行い, 欠陥のない小さな配列を作製する。
最後に、より大きな分子配列へのスケーリングを可能にする方法について論じる。 Control over the quantum states of individual molecules is crucial in the quest to harness their rich internal structure and dipolar interactions for applications in quantum science. In this paper, we develop a toolbox of techniques for the control and readout of individually trapped polar molecules in an array of optical tweezers. Starting with arrays of up to eight Rb and eight Cs atoms, we assemble arrays of RbCs molecules in their rovibrational and hyperfine ground state with an overall efficiency of 48(2)%. We demonstrate global microwave control of multiple rotational states of the molecules and use an auxiliary tweezer array to implement site-resolved addressing and state control. We show how the rotational state of the molecule can be mapped onto the position of Rb atoms and use this capability to readout multiple rotational states in a single experimental run. Further, using a scheme for the mid-sequence detection of molecule formation errors, we perform rearrangement of assembled molecules to prepare small defect-free arrays. Finally, we discuss a feasible route to scaling to larger arrays of molecules. | 翻訳日:2024-01-26 11:33:32 公開日:2024-01-25 |
# SegMamba:3D画像セグメンテーションのための長距離連続モデリングマンバ SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation ( http://arxiv.org/abs/2401.13560v2 ) ライセンス: Link先を確認 | Zhaohu Xing, Tian Ye, Yijun Yang, Guang Liu, Lei Zhu | (参考訳) トランスフォーマーアーキテクチャは、グローバルリレーションシップのモデリングにおいて顕著な能力を示している。
しかし,高次元医用画像の処理には大きな課題がある。
これは開発を妨げ、このタスクに広く採用される。
状態空間モデル(SSM)としてのMambaは、最近、シーケンシャルモデリングにおける長距離依存の顕著な方法として現れ、その顕著なメモリ効率と計算速度で自然言語処理に優れていた。
その成功にインスパイアされたSegMambaは,全ボリューム特徴の長距離依存性を各スケールで効果的にキャプチャするように設計された,新しい3次元医用画像である。
我々のSegMambaは、Transformerベースの手法とは対照的に、状態空間モデルの観点から全容積特徴モデリングを抜粋し、$64\times 64\times 64$}の解像度のボリューム特徴であっても、優れた処理速度を維持する。
BraTS2023データセットに関する包括的な実験は、SegMambaの有効性と効率を実証している。
SegMambaのコードは、https://github.com/ge-xing/SegMambaで入手できる。 The Transformer architecture has shown a remarkable ability in modeling global relationships. However, it poses a significant computational challenge when processing high-dimensional medical images. This hinders its development and widespread adoption in this task. Mamba, as a State Space Model (SSM), recently emerged as a notable manner for long-range dependencies in sequential modeling, excelling in natural language processing filed with its remarkable memory efficiency and computational speed. Inspired by its success, we introduce SegMamba, a novel 3D medical image \textbf{Seg}mentation \textbf{Mamba} model, designed to effectively capture long-range dependencies within whole volume features at every scale. Our SegMamba, in contrast to Transformer-based methods, excels in whole volume feature modeling from a state space model standpoint, maintaining superior processing speed, even with volume features at a resolution of {$64\times 64\times 64$}. Comprehensive experiments on the BraTS2023 dataset demonstrate the effectiveness and efficiency of our SegMamba. The code for SegMamba is available at: https://github.com/ge-xing/SegMamba | 翻訳日:2024-01-26 11:33:14 公開日:2024-01-25 |
# 集合上のマスク粒子モデリング:自己教師付き高エネルギー物理学基礎モデルに向けて Masked Particle Modeling on Sets: Towards Self-Supervised High Energy Physics Foundation Models ( http://arxiv.org/abs/2401.13537v2 ) ライセンス: Link先を確認 | Lukas Heinrich and Tobias Golling and Michael Kagan and Samuel Klein and Matthew Leigh and Margarita Osadchy and John Andrew Raine | (参考訳) 本研究では,高エネルギー物理(HEP)科学データに用いた非順序入力の汎用的,転送可能,再利用可能な表現を自己指導的に学習する手法としてマスク粒子モデリング(MPM)を提案する。
この研究は、集合上の置換不変関数を学習するために、マスク付きモデリングに基づく事前学習を実行する新しいスキームを提供する。
より一般的に、この研究はhepの大規模な基礎モデルを構築するためのステップを提供しており、これは自己教師あり学習で一般的に事前学習され、後に様々なダウンストリームタスク用に微調整される。
MPMでは、予め訓練されたベクトル量子化変分オートエンコーダの離散化トークン表現によって定義されるように、集合内の粒子をマスクし、トレーニング目的がそれらのアイデンティティを回復することである。
衝突型加速器物理実験における高エネルギージェットの試料における方法の有効性について検討し, 離散化, 置換不変性, 秩序の影響について検討した。
また,モデルの微調整能力についても検討し,教師付きや弱い教師付きジェット分類などのタスクに適用可能であり,また,小さな微調整データセットを新しいクラスや新しいデータドメインに効率的に転送できることを示した。 We propose masked particle modeling (MPM) as a self-supervised method for learning generic, transferable, and reusable representations on unordered sets of inputs for use in high energy physics (HEP) scientific data. This work provides a novel scheme to perform masked modeling based pre-training to learn permutation invariant functions on sets. More generally, this work provides a step towards building large foundation models for HEP that can be generically pre-trained with self-supervised learning and later fine-tuned for a variety of down-stream tasks. In MPM, particles in a set are masked and the training objective is to recover their identity, as defined by a discretized token representation of a pre-trained vector quantized variational autoencoder. We study the efficacy of the method in samples of high energy jets at collider physics experiments, including studies on the impact of discretization, permutation invariance, and ordering. We also study the fine-tuning capability of the model, showing that it can be adapted to tasks such as supervised and weakly supervised jet classification, and that the model can transfer efficiently with small fine-tuning data sets to new classes and new data domains. | 翻訳日:2024-01-26 11:32:55 公開日:2024-01-25 |
# 共同解析最適化のためのファインタニング基礎モデル Finetuning Foundation Models for Joint Analysis Optimization ( http://arxiv.org/abs/2401.13536v2 ) ライセンス: Link先を確認 | Matthias Vigl and Nicole Hartman and Lukas Heinrich | (参考訳) 本研究は,高エネルギー物理(HEP)において,逐次最適化や再構成,解析の標準パラダイムを超越して,性能とデータ効率の大幅な向上が達成できることを実証する。
我々は、HEP再構成と分析を、事前学習、微調整、ドメイン適応、高次元埋め込み空間といった現代の機械学習ワークフローに結合し、中間ジヒッグスシステムを介して崩壊する重共鳴の探索を例に、そのゲインを4$b$-jetsに定量化する。 In this work we demonstrate that significant gains in performance and data efficiency can be achieved in High Energy Physics (HEP) by moving beyond the standard paradigm of sequential optimization or reconstruction and analysis components. We conceptually connect HEP reconstruction and analysis to modern machine learning workflows such as pretraining, finetuning, domain adaptation and high-dimensional embedding spaces and quantify the gains in the example usecase of searches of heavy resonances decaying via an intermediate di-Higgs system to four $b$-jets. | 翻訳日:2024-01-26 11:32:34 公開日:2024-01-25 |
# ワッサーシュタイン確率空間上の連続時間リーマンSGDとSVRG流れ Continuous-time Riemannian SGD and SVRG Flows on Wasserstein Probabilistic Space ( http://arxiv.org/abs/2401.13530v2 ) ライセンス: Link先を確認 | Mingyang Yi, Bohan Wang | (参考訳) 近年、リーマン多様体上の最適化は、最適化コミュニティに新たな洞察を与えている。
この点において、二階ワッサースタイン距離を備えた確率測度距離空間として取られる多様体は、実際的なサンプリングプロセスと結びつくことができるので、特に興味がある。
一般に、ワッサーシュタイン空間上のオラクル(連続)最適化法はリーマン勾配流れ(つまり、kl の発散を最小化するときにランゲバンダイナミクス)である。
本稿では,勾配流を確率勾配勾配勾配(SGD)流と確率分散還元勾配(SVRG)流に拡張することにより,ワッサーシュタイン空間における連続的な最適化手法を強化することを目的とする。
ユークリッド空間上の2つの流れは標準確率最適化法であるが、リーマンの対応式はまだ検討されていない。
ワッサーシュタイン空間の構造を利用して、対応するランダムベクトル空間における所望の確率法の離散力学を近似するために確率微分方程式(SDE)を構築する。
そして、そのようなsdeにフォッカープランク方程式を適用することにより、確率測度の流れが自然に得られる。
さらに、提案されたリーマン確率流の収束速度が証明され、ユークリッド空間における結果と一致する。 Recently, optimization on the Riemannian manifold has provided new insights to the optimization community. In this regard, the manifold taken as the probability measure metric space equipped with the second-order Wasserstein distance is of particular interest, since optimization on it can be linked to practical sampling processes. In general, the oracle (continuous) optimization method on Wasserstein space is Riemannian gradient flow (i.e., Langevin dynamics when minimizing KL divergence). In this paper, we aim to enrich the continuous optimization methods in the Wasserstein space by extending the gradient flow into the stochastic gradient descent (SGD) flow and stochastic variance reduction gradient (SVRG) flow. The two flows on Euclidean space are standard stochastic optimization methods, while their Riemannian counterparts are not explored yet. By leveraging the structures in Wasserstein space, we construct a stochastic differential equation (SDE) to approximate the discrete dynamics of desired stochastic methods in the corresponded random vector space. Then, the flows of probability measures are naturally obtained by applying Fokker-Planck equation to such SDE. Furthermore, the convergence rates of the proposed Riemannian stochastic flows are proven, and they match the results in Euclidean space. | 翻訳日:2024-01-26 11:32:21 公開日:2024-01-25 |
# speechgpt-gen: 情報連鎖音声生成のスケール SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation ( http://arxiv.org/abs/2401.13527v2 ) ライセンス: Link先を確認 | Dong Zhang, Xin Zhang, Jun Zhan, Shimin Li, Yaqian Zhou, Xipeng Qiu | (参考訳) 現在の音声大言語モデル(SLLM)は、効果的な音声モデリングから恩恵を受け、文脈内音声生成における例外的な能力と、目に見えない話者への効率的な一般化を実証している。
しかし、一般的な情報モデリングプロセスは特定の冗長性によって蓄積され、音声生成の非効率化に繋がる。
本稿では,大規模音声生成における意味情報と知覚情報を分離する手法であるChain-of-Information Generation (CoIG)を提案する。
そこで我々は, セマンティックおよび知覚情報モデリングにおいて効率的な8ビリオンパラメータSLLMであるSpeechGPT-Genを開発した。
意味情報モデリングのためのLLMに基づく自己回帰モデルと、知覚情報モデリングのためのフローマッチングを用いた非自己回帰モデルを含む。
さらに,フローマッチングの効率を高めるために,先行分布に意味情報を注入する新しい手法を導入する。
広汎な実験結果から,SpeechGPT-Gen はゼロショット音声変換,ゼロショット音声変換,音声音声対話において顕著に優れており,CoIG が音声の意味的・知覚的次元を抽出・モデル化する能力に優れていたことが示唆された。
コードとモデルはhttps://github.com/0nutation/SpeechGPTで入手できる。 Benefiting from effective speech modeling, current Speech Large Language Models (SLLMs) have demonstrated exceptional capabilities in in-context speech generation and efficient generalization to unseen speakers. However, the prevailing information modeling process is encumbered by certain redundancies, leading to inefficiencies in speech generation. We propose Chain-of-Information Generation (CoIG), a method for decoupling semantic and perceptual information in large-scale speech generation. Building on this, we develop SpeechGPT-Gen, an 8-billion-parameter SLLM efficient in semantic and perceptual information modeling. It comprises an autoregressive model based on LLM for semantic information modeling and a non-autoregressive model employing flow matching for perceptual information modeling. Additionally, we introduce the novel approach of infusing semantic information into the prior distribution to enhance the efficiency of flow matching. Extensive experimental results demonstrate that SpeechGPT-Gen markedly excels in zero-shot text-to-speech, zero-shot voice conversion, and speech-to-speech dialogue, underscoring CoIG's remarkable proficiency in capturing and modeling speech's semantic and perceptual dimensions. Code and models are available at https://github.com/0nutation/SpeechGPT. | 翻訳日:2024-01-26 11:31:36 公開日:2024-01-25 |
# UNIMO-G:マルチモーダル条件拡散による統一画像生成 UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion ( http://arxiv.org/abs/2401.13388v2 ) ライセンス: Link先を確認 | Wei Li, Xue Xu, Jiachen Liu, Xinyan Xiao | (参考訳) 既存のテキストから画像への拡散モデルは、主にテキストプロンプトから画像を生成する。
しかし、テキスト記述の固有の簡潔さは、特定の実体やシーンのような複雑な詳細を持つ画像を忠実に合成する上で困難を生じさせる。
本稿では,テキスト駆動と主観駆動の両画像生成の統一性を実証した,複数モーダルプロンプトで動作するシンプルなマルチモーダル条件拡散フレームワークであるUNIMO-Gを提案する。
unimo-gは、マルチモーダルプロンプトを符号化するマルチモーダル大言語モデル(mllm)と、エンコードされたマルチモーダル入力に基づいて画像を生成する条件付きデノージング拡散ネットワークである。
まず、大規模テキストイメージペアで事前トレーニングを行い、条件付き画像生成機能を開発し、次にマルチモーダルプロンプトでチューニングを行い、統合された画像生成能力を実現する。
言語接地とイメージセグメンテーションを含む、よく設計されたデータ処理パイプラインを用いて、マルチモーダルプロンプトを構築する。
unimo-gはテキスト対画像生成とゼロショット主題駆動合成の両方に優れており、複数の画像エンティティを含む複雑なマルチモーダルプロンプトから高精細な画像を生成するのに特に有効である。 Existing text-to-image diffusion models primarily generate images from text prompts. However, the inherent conciseness of textual descriptions poses challenges in faithfully synthesizing images with intricate details, such as specific entities or scenes. This paper presents UNIMO-G, a simple multimodal conditional diffusion framework that operates on multimodal prompts with interleaved textual and visual inputs, which demonstrates a unified ability for both text-driven and subject-driven image generation. UNIMO-G comprises two core components: a Multimodal Large Language Model (MLLM) for encoding multimodal prompts, and a conditional denoising diffusion network for generating images based on the encoded multimodal input. We leverage a two-stage training strategy to effectively train the framework: firstly pre-training on large-scale text-image pairs to develop conditional image generation capabilities, and then instruction tuning with multimodal prompts to achieve unified image generation proficiency. A well-designed data processing pipeline involving language grounding and image segmentation is employed to construct multi-modal prompts. UNIMO-G excels in both text-to-image generation and zero-shot subject-driven synthesis, and is notably effective in generating high-fidelity images from complex multimodal prompts involving multiple image entities. | 翻訳日:2024-01-26 11:31:10 公開日:2024-01-25 |
# ノイズラベル対策のためのdebiased sample selection Debiased Sample Selection for Combating Noisy Labels ( http://arxiv.org/abs/2401.13360v2 ) ライセンス: Link先を確認 | Qi Wei, Lei Feng, Haobo Wang, Bo An | (参考訳) ノイズの多いラベルによる学習は、ラベルが破損したトレーニングセットによってモデルの一般化を保証することを目的としている。
サンプル選択戦略は、モデルトレーニングのためにラベル信頼部分集合を選択することで、有望な性能を達成する。
本稿では,既存のサンプル選択手法が,不均衡選択集合として表されるデータとトレーニングバイアスと,実際に蓄積誤差の両方に苦しむことを実証的に明らかにする。
しかし、前回の研究ではトレーニングバイアスのみが処理された。
この制限に対処するため,サンプル選択におけるバイアス学習のためのnoIse-Tolerant Expert Model (ITEM)を提案する。
具体的には、トレーニングバイアスを軽減するために、複数の専門家と統合した堅牢なネットワークアーキテクチャを設計します。
従来のダブルブランチネットワークと比較して,より少ないパラメータでトレーニングしながら,これらの専門家をセンセンシングすることで,選択と予測のパフォーマンスが向上する。
一方,データバイアスを軽減するため,重みに基づく2つのデータサンプリングに基づく混合サンプリング戦略を提案する。
2つのクラス識別型ミニバッチの混合によるトレーニングにより、モデルはサンプリング戦略によって容易に引き起こされるスパース表現を避けながら、不均衡なトレーニングセットの効果を緩和する。
大規模な実験と分析は、ITEMの有効性を示す。
私たちのコードは、このurl \href{https://github.com/1998v7/ITEM}{ITEM}で利用可能です。 Learning with noisy labels aims to ensure model generalization given a label-corrupted training set. The sample selection strategy achieves promising performance by selecting a label-reliable subset for model training. In this paper, we empirically reveal that existing sample selection methods suffer from both data and training bias that are represented as imbalanced selected sets and accumulation errors in practice, respectively. However, only the training bias was handled in previous studies. To address this limitation, we propose a noIse-Tolerant Expert Model (ITEM) for debiased learning in sample selection. Specifically, to mitigate the training bias, we design a robust network architecture that integrates with multiple experts. Compared with the prevailing double-branch network, our network exhibits better performance of selection and prediction by ensembling these experts while training with fewer parameters. Meanwhile, to mitigate the data bias, we propose a mixed sampling strategy based on two weight-based data samplers. By training on the mixture of two class-discriminative mini-batches, the model mitigates the effect of the imbalanced training set while avoiding sparse representations that are easily caused by sampling strategies. Extensive experiments and analyses demonstrate the effectiveness of ITEM. Our code is available at this url \href{https://github.com/1998v7/ITEM}{ITEM}. | 翻訳日:2024-01-26 11:30:44 公開日:2024-01-25 |
# 重要な情報:アルゴリズム決定の影響を受ける人々の情報ニーズを探る Information That Matters: Exploring Information Needs of People Affected by Algorithmic Decisions ( http://arxiv.org/abs/2401.13324v2 ) ライセンス: Link先を確認 | Timoth\'ee Schmude, Laura Koesten, Torsten M\"oller, Sebastian Tschiatschek | (参考訳) AIシステムの説明は、アルゴリズム意思決定(ADM)によって影響を受ける人々の情報要求にほとんど対処しない。
影響を受ける利害関係者に重要な情報を伝達するこのギャップは、AI法のような規制フレームワークの理解と遵守を妨げる可能性がある。
このギャップに対処するため、我々は「xai novice question bank(xai novice question bank)」という2つの adm ユースケースにおける影響のあるステークホルダの情報ニーズのカタログ(雇用予測とヘルスモニタリング)を提示し、カテゴリデータ、システムコンテキスト、システム使用状況、システム仕様をカバーする。
インタヴュー調査で、参加者は質問に応じて説明を受けた。
参加者はさらに理解と決定の自信を報告し、説明を受けた後に自信が増す傾向にある一方で、参加者は理解が不完全であると感じた理由を理解できないなどの理解課題にも遭遇したことを示した。
説明は、システムのリスクとメリットに対する参加者の認識にさらに影響を与え、ユースケースに応じて確認または変更した。
リスクが高いと感じた場合、参加者は、なぜ、どのようにシステムを実行したのかといった、意図に関する説明に特に関心を示した。
本研究は,admシステムの導入を決定する際に関連する情報や課題の概要を提示することにより,影響のあるステークホルダーを説明可能性に含めることを支援することを目的とする。
私たちは、影響のあるステークホルダーの聴衆に将来の説明のデザインを知らせる6つの重要な含意のリストをまとめることで、調査結果を締めくくった。 Explanations of AI systems rarely address the information needs of people affected by algorithmic decision-making (ADM). This gap between conveyed information and information that matters to affected stakeholders can impede understanding and adherence to regulatory frameworks such as the AI Act. To address this gap, we present the "XAI Novice Question Bank": A catalog of affected stakeholders' information needs in two ADM use cases (employment prediction and health monitoring), covering the categories data, system context, system usage, and system specifications. Information needs were gathered in an interview study where participants received explanations in response to their inquiries. Participants further reported their understanding and decision confidence, showing that while confidence tended to increase after receiving explanations, participants also met understanding challenges, such as being unable to tell why their understanding felt incomplete. Explanations further influenced participants' perceptions of the systems' risks and benefits, which they confirmed or changed depending on the use case. When risks were perceived as high, participants expressed particular interest in explanations about intention, such as why and to what end a system was put in place. With this work, we aim to support the inclusion of affected stakeholders into explainability by contributing an overview of information and challenges relevant to them when deciding on the adoption of ADM systems. We close by summarizing our findings in a list of six key implications that inform the design of future explanations for affected stakeholder audiences. | 翻訳日:2024-01-26 11:30:24 公開日:2024-01-25 |
# AIエージェントへの可視性 Visibility into AI Agents ( http://arxiv.org/abs/2401.13138v2 ) ライセンス: Link先を確認 | Alan Chan, Carson Ezell, Max Kaufmann, Kevin Wei, Lewis Hammond, Herbie Bradley, Emma Bluemke, Nitarshan Rajkumar, David Krueger, Noam Kolt, Lennart Heim, Markus Anderljung | (参考訳) aiエージェントへの商業的、科学的、政府的、個人的活動の派遣が増加すると、既存の社会的なリスクを悪化させ、新たなリスクをもたらす可能性がある。
これらのリスクの理解と緩和には、既存のガバナンス構造を批判的に評価し、必要に応じてこれらの構造を改訂し、適応させ、主要なステークホルダーの説明責任を確保することが含まれる。
特定のAIエージェントが使われている場所、理由、方法、そして誰が使用されるのかに関する情報は、これらの目的に不可欠である。
本稿では,エージェント識別子,リアルタイム監視,アクティビティログという,AIエージェントの視認性を高めるための3つの尺度を評価する。
それぞれ、侵入性と情報性に異なる潜在的な実装について概説する。
ハードウェアやソフトウェアサービスプロバイダを含むサプライチェーンのさまざまなアクターを考慮し、分散デプロイメントのコンテキストを通じて、この措置をどのように適用するかを分析する。
最後に,当社のプライバシー対策と電力集中の意義について論じる。
措置の理解と負の影響軽減に関するさらなる取り組みは、AIエージェントのガバナンスのための基盤を構築するのに役立つ。 Increased delegation of commercial, scientific, governmental, and personal activities to AI agents -- systems capable of pursuing complex goals with limited supervision -- may exacerbate existing societal risks and introduce new risks. Understanding and mitigating these risks involves critically evaluating existing governance structures, revising and adapting these structures where needed, and ensuring accountability of key stakeholders. Information about where, why, how, and by whom certain AI agents are used, which we refer to as visibility, is critical to these objectives. In this paper, we assess three categories of measures to increase visibility into AI agents: agent identifiers, real-time monitoring, and activity logging. For each, we outline potential implementations that vary in intrusiveness and informativeness. We analyze how the measures apply across a spectrum of centralized through decentralized deployment contexts, accounting for various actors in the supply chain including hardware and software service providers. Finally, we discuss the implications of our measures for privacy and concentration of power. Further work into understanding the measures and mitigating their negative impacts can help to build a foundation for the governance of AI agents. | 翻訳日:2024-01-26 11:29:57 公開日:2024-01-25 |
# 急変する解を持つ方程式を解く二元構造物理学インフォームドニューラルネットワーク Binary structured physics-informed neural networks for solving equations with rapidly changing solutions ( http://arxiv.org/abs/2401.12806v2 ) ライセンス: Link先を確認 | Yanzhi Liu and Ruifan Wu and Ying Jiang | (参考訳) ディープラーニングに根ざした物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)を解くための有望なアプローチとして登場した。
PDEによって記述された物理情報をフィードフォワードニューラルネットワークに埋め込むことで、PINNはラベルデータを必要としない近似解の代理モデルとして訓練される。
それでもPINNは顕著な性能を示したが、特に急速に変化する解を特徴とする方程式を扱う場合、困難に直面している。
これらの困難は緩やかに収束し、局所的なミニマに閉じ込められる可能性があり、解の精度が低下する。
これらの問題に対処するために、ニューラルネットワークコンポーネントとしてバイナリ構造化ニューラルネットワーク(BsNN)を用いるバイナリ構造化物理情報ニューラルネットワーク(BsPINN)フレームワークを提案する。
完全に接続されたニューラルネットワークと比較してニューロン間の接続を減らすバイナリ構造を利用することで、BsPINNはソリューションの局所的な特徴をより効果的に、効率的に捉えることができる。
これらの特徴は、ソリューションの性質が急速に変化することを学ぶために特に重要である。
バーガース方程式、オイラー方程式、ヘルムホルツ方程式、高次元ポアソン方程式を解く一連の数値実験において、BsPINNはPINNよりも優れた収束速度と高い精度を示す。
これらの実験から,BsPINNはPINNの隠蔽層の増加に起因する問題を解消し,PDEの非平滑性による精度低下を防止する。 Physics-informed neural networks (PINNs), rooted in deep learning, have emerged as a promising approach for solving partial differential equations (PDEs). By embedding the physical information described by PDEs into feedforward neural networks, PINNs are trained as surrogate models to approximate solutions without the need for label data. Nevertheless, even though PINNs have shown remarkable performance, they can face difficulties, especially when dealing with equations featuring rapidly changing solutions. These difficulties encompass slow convergence, susceptibility to becoming trapped in local minima, and reduced solution accuracy. To address these issues, we propose a binary structured physics-informed neural network (BsPINN) framework, which employs binary structured neural network (BsNN) as the neural network component. By leveraging a binary structure that reduces inter-neuron connections compared to fully connected neural networks, BsPINNs excel in capturing the local features of solutions more effectively and efficiently. These features are particularly crucial for learning the rapidly changing in the nature of solutions. In a series of numerical experiments solving Burgers equation, Euler equation, Helmholtz equation, and high-dimension Poisson equation, BsPINNs exhibit superior convergence speed and heightened accuracy compared to PINNs. From these experiments, we discover that BsPINNs resolve the issues caused by increased hidden layers in PINNs resulting in over-smoothing, and prevent the decline in accuracy due to non-smoothness of PDEs solutions. | 翻訳日:2024-01-26 11:29:40 公開日:2024-01-25 |
# 体重って何?
ゼロショット知識合成のための統一フレームワーク What the Weight?! A Unified Framework for Zero-Shot Knowledge Composition ( http://arxiv.org/abs/2401.12756v2 ) ライセンス: Link先を確認 | Carolin Holtermann, Markus Frohmann, Navid Rekabsaz, Anne Lauscher | (参考訳) モデルにカプセル化された知識は、下流タスクにおける最終的なパフォーマンスを決定するコアファクタである。
nlpにおける多くの研究は、例えば特定のモジュール化された構造において、異なる種類の知識を格納し、適応するための効率的な方法や、追加のパラメータを学習することによってこれらを効果的に組み合わせる方法に焦点を当てている。
しかし、考えられる多くの選択肢を考えると、これらの構成にかかわるメカニズムの完全な理解が欠落しており、どの戦略を使うべきかは不明のままである。
この研究のギャップに対処するために,ゼロショットモジュール構成のための新しいフレームワークを提案し,単一の統一概念の下でパラメータモジュールの選択,重み付け,結合を行うための既存およびいくつかの新しいバリエーションを包含する。
ドメイン知識とアダプタ層のシナリオに注目して、我々のフレームワークは概念を体系的に統一し、様々なゼロショット知識合成戦略に関する最初の包括的なベンチマーク研究を行うことができます。
特に,2つのモジュールの組み合わせ法と5つの選択および重み付け戦略を実験的に検討した。
本研究は, センシングの有効性を強調すると同時に, 単純だがしばしば無視される重み付け手法のパワーを示唆する。
さらに詳細な分析により、重み付けとトップk選択の役割を理解し、ある程度は、アダプタ構成の性能を予測できることを示す。 The knowledge encapsulated in a model is the core factor determining its final performance on downstream tasks. Much research in NLP has focused on efficient methods for storing and adapting different types of knowledge, e.g., in dedicated modularized structures, and on how to effectively combine these, e.g., by learning additional parameters. However, given the many possible options, a thorough understanding of the mechanisms involved in these compositions is missing, and hence it remains unclear which strategies to utilize. To address this research gap, we propose a novel framework for zero-shot module composition, which encompasses existing and some novel variations for selecting, weighting, and combining parameter modules under a single unified notion. Focusing on the scenario of domain knowledge and adapter layers, our framework provides a systematic unification of concepts, allowing us to conduct the first comprehensive benchmarking study of various zero-shot knowledge composition strategies. In particular, we test two module combination methods and five selection and weighting strategies for their effectiveness and efficiency in an extensive experimental setup. Our results highlight the efficacy of ensembling but also hint at the power of simple though often-ignored weighting methods. Further in-depth analyses allow us to understand the role of weighting vs. top-k selection, and show that, to a certain extent, the performance of adapter composition can even be predicted. | 翻訳日:2024-01-26 11:29:09 公開日:2024-01-25 |